綜合中媒及港媒報導,小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示,MiDashengLM-7B 聲音理解性能在 22 個公開評測集上,刷新多模態大模型最佳成績(SOTA),單樣本推理的首 Token 延遲(TTFT)僅為業界先進模型的四分之一,同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。
小米指出,MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型,MiDashengLM完整公開了77個數據源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
做為小米「人車家全生態」戰略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已著手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:洪爱莉)
5.给出价格最低保证 消费者总想货比三家,网上购物中消费者更容易在最后一秒因为价格而跑到别的电商比比。...[详细]AI 有多耗能?Gemini 處理提示消耗 5 滴水,專家卻稱研究結果恐誤導
热烈的反响大大超出了主办方的预期,niwango公司社长杉本诚司在2012年12月接受朝日新闻采访时说道:“到目前为止,公司内部大多数人认为如果一个长约1至2小时的节目有10万人收看就很了...[详细]
一条好的规则是:如果一个页面不能获得平均每个月100的浏览量,那么就可以考虑删掉它了。...[详细]多国元首和国际组织负责人抵京 将出席抗战胜利80周年纪念活动
去年,金马奖影后开出了双黄蛋,两个年轻姑娘对角色的演绎受到了专业人士的肯定,也把七月与安生之间既“装”又真实的友情呈现在我们面前...[详细]
amikun的节目画面 直到有一次,他在大二的时候用中文主持日本人晚会,由于中文非常标准,在座的同胞都以为他是中国人。...[详细]抗战信物·时空对话|激荡82年的新四军抒情歌曲:孙海云与《石臼渔歌》
你可以测试哪些页面最吸引人,然后根据这些优势来制作更多的页面。...[详细]
有时候我过得很恐慌,钱越烧越多,信心越来越少,于是换运营人员换产品风格,换来换去一场空,因此一度怀疑过我的运营有问题,甚至外包出去运营过半年,结果越做越差。...[详细]