綜合中媒及港媒報導,小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示,MiDashengLM-7B 聲音理解性能在 22 個公開評測集上,刷新多模態大模型最佳成績(SOTA),單樣本推理的首 Token 延遲(TTFT)僅為業界先進模型的四分之一,同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。
小米指出,MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型,MiDashengLM完整公開了77個數據源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
做為小米「人車家全生態」戰略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已著手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:信阳市)
厦门大学经济学系副教授丁长发对第一财经分析称,首先,有些学生可能因为考试时生病等各种主客观因素没考好。...[详细]
习近平乘车驶回天安门途中,受阅官兵齐声高呼:听党指挥。...[详细]
姚守拙(1936年3月6日-2025年8月27日),男,上海松江人,中国农工民主党党员,中国科学院院士,分析化学家、湖南大学教授。...[详细]
只有国家稳定,香港才能繁荣。...[详细]WhatsApp、Telegram「不聽話」,俄強制行動裝置預載國家通訊軟體
四、问:请说明一下《标识办法》与强制性国家标准《网络安全技术人工智能生成合成内容标识方法》的关系?答:《标识办法》主要从立法层面提出管理要求,明确生成合成内容制作传播各主体的责任义务,为促进人工智能技...[详细]
香港正迈向‘由治及兴的关键时期,我们必须以史为鉴,以坚定意志维护国家主权、安全、发展利益。...[详细]
媒体报道,多次在电影中成功出演军人、消防员等英雄角色的杜江一早就来到天安门广场,并称这是一生中最难忘的一天,他还对镜头表示不要忘了今天的幸福是如何来到我们身边的...[详细]NVIDIA 與 RIKEN 合作,加入日超級電腦「富岳 NEXT」後繼機種開發