当前位置：首页 >张云儿 >小米發布並開源聲音理解大模型 MiDashengLM

小米發布並開源聲音理解大模型 MiDashengLM

2025-11-08 20:33:05 [贵阳市] 来源：东观之殃网

綜合中媒及港媒報導，小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示，MiDashengLM-7B 聲音理解性能在 22 個公開評測集上，刷新多模態大模型最佳成績（SOTA），單樣本推理的首 Token 延遲（TTFT）僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

做為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已著手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

（本文由 MoneyDJ新聞授權轉載；首圖來源：shutterstock）

文章看完覺得有幫助，何不給我們一個鼓勵

請我們喝杯咖啡

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元《關於請喝咖啡的 Q & A》

留給我們的話

取消確認

(责任编辑：信阳市)

相关内容

推荐文章

焦点！总投资1077.7亿元！驻马店市143个项目集中开工
厦门大学经济学系副教授丁长发对第一财经分析称，首先，有些学生可能因为考试时生病等各种主客观因素没考好。...[详细]
中國 7 月用電量突破 1 兆度，號稱創全球紀錄
社会保险由国家立法加以确认并强制实施。...[详细]
涉及美国，大降81%
习近平乘车驶回天安门途中，受阅官兵齐声高呼：听党指挥。...[详细]
以“智”取胜培育竞争新优势
姚守拙（1936年3月6日-2025年8月27日），男，上海松江人，中国农工民主党党员，中国科学院院士，分析化学家、湖南大学教授。...[详细]
世界最大跨度斜拉桥常泰长江大桥正式通车运营
只有国家稳定，香港才能繁荣。...[详细]
WhatsApp、Telegram「不聽話」，俄強制行動裝置預載國家通訊軟體
这是空中无人作战方队接受检阅。...[详细]
渝桂两地海关签署合作备忘录支持西部陆海新通道建设
四、问：请说明一下《标识办法》与强制性国家标准《网络安全技术人工智能生成合成内容标识方法》的关系？答：《标识办法》主要从立法层面提出管理要求，明确生成合成内容制作传播各主体的责任义务，为促进人工智能技...[详细]
微视频：请选择你的战旗
香港正迈向‘由治及兴的关键时期，我们必须以史为鉴，以坚定意志维护国家主权、安全、发展利益。...[详细]
中国海油向港澳供天然气累计超700亿方
媒体报道，多次在电影中成功出演军人、消防员等英雄角色的杜江一早就来到天安门广场，并称这是一生中最难忘的一天，他还对镜头表示不要忘了今天的幸福是如何来到我们身边的...[详细]
NVIDIA 與 RIKEN 合作，加入日超級電腦「富岳 NEXT」後繼機種開發
因此，本次解释仅为统一裁判标准，并未新增强制规定，公众不应误解为新规或新增强制。...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。