当前位置：首页 >叶加濑太郎 >小米發布並開源聲音理解大模型 MiDashengLM

小米發布並開源聲音理解大模型 MiDashengLM

2025-11-08 21:52:23 [遂宁市] 来源：东观之殃网

綜合中媒及港媒報導，小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示，MiDashengLM-7B 聲音理解性能在 22 個公開評測集上，刷新多模態大模型最佳成績（SOTA），單樣本推理的首 Token 延遲（TTFT）僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

做為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已著手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

（本文由 MoneyDJ新聞授權轉載；首圖來源：shutterstock）

文章看完覺得有幫助，何不給我們一個鼓勵

請我們喝杯咖啡

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元《關於請喝咖啡的 Q & A》

留給我們的話

取消確認

(责任编辑：洪爱莉)

相关内容

推荐文章

耶路撒冷上空响起防空警报
　　5.给出价格最低保证　　消费者总想货比三家，网上购物中消费者更容易在最后一秒因为价格而跑到别的电商比比。...[详细]
AI 有多耗能？Gemini 處理提示消耗 5 滴水，專家卻稱研究結果恐誤導
　　但随着公款消费的增加，大众消费的核心也被高档消费所代替，面向的也不再是普通老百姓，虽然在一定时期内让企业得利，但可持续性并不强，谁知道哪天政策会改?　　果然，随着公款消费被遏制，俏江南的经营也陷入...[详细]
新疆和田地区发生3.4级地震震源深度10千米
热烈的反响大大超出了主办方的预期，niwango公司社长杉本诚司在2012年12月接受朝日新闻采访时说道：“到目前为止，公司内部大多数人认为如果一个长约1至2小时的节目有10万人收看就很了...[详细]
川普傳擬將晶片專款轉供關鍵礦產稀土／鋰礦股嗨
　　没有名气、没有背景，张兰只能把计划书做得专业漂亮，让国贸一看就觉得自己是行家，从而赢得信任。...[详细]
泰国前总理他信须重新服刑一年
一条好的规则是：如果一个页面不能获得平均每个月100的浏览量，那么就可以考虑删掉它了。...[详细]
多国元首和国际组织负责人抵京将出席抗战胜利80周年纪念活动
　　去年，金马奖影后开出了双黄蛋，两个年轻姑娘对角色的演绎受到了专业人士的肯定，也把七月与安生之间既“装”又真实的友情呈现在我们面前...[详细]
泰国前总理他信须重新服刑一年
　　　　amikun的节目画面　　直到有一次，他在大二的时候用中文主持日本人晚会，由于中文非常标准，在座的同胞都以为他是中国人。...[详细]
抗战信物·时空对话｜激荡82年的新四军抒情歌曲：孙海云与《石臼渔歌》
你可以测试哪些页面最吸引人，然后根据这些优势来制作更多的页面。...[详细]
借力“世界第一大港”，一条万亿级产业走廊要来了？
　　有时候我过得很恐慌，钱越烧越多，信心越来越少，于是换运营人员换产品风格，换来换去一场空，因此一度怀疑过我的运营有问题，甚至外包出去运营过半年，结果越做越差。...[详细]
金融時報：中國高層指美商務部長言論欺人太甚，勸退買 H20
　　如果你想为了解决基本内容搜索引擎（SEO）问题而浏览网页，可以适当地使用head标签和meta描述。...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。