綜合中媒及港媒報導,小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示,MiDashengLM-7B 聲音理解性能在 22 個公開評測集上,刷新多模態大模型最佳成績(SOTA),單樣本推理的首 Token 延遲(TTFT)僅為業界先進模型的四分之一,同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。
小米指出,MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型,MiDashengLM完整公開了77個數據源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
做為小米「人車家全生態」戰略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已著手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:乡裕美)
第一次复活是Lumia品牌与微软进行合作,成为了搭载WindowsPhone系统的主力机型。...[详细]
一年多的时间里,他们也算一起经历了起起落落,虽然最后走上了资金吃紧的老路,但杨宁本准备陪着他坚持下去,没想到期权这件事情让他彻底心寒,再加上创业一年确实太累,他最终决定放弃所有期权、股权离开,不再...[详细]
document.writeln('关注创业、电商、站长,扫描A5创业网微信二维码,定期抽大奖。...[详细]
一个电商老板喝醉后,在微博上大骂毕胜,因为员工看了毕胜的演讲视频,第二天辞职了。...[详细]
但自2008年后,俏江南开始了疯狂的“上市之路”,却是不争的事实: 从2008年到2012年,俏江南新开了30多家门店,2013年又新开了10余家门店,但这样的速度还是远低于...[详细]
某公司获得数千万A轮融资!某公司获得B轮融资!鼓掌!哇,了不起! 但最终,创业团队只是「借」来了这笔钱。...[详细]
从本质上看,在线票务平台很难发展成为一个真正意义上的用户平台,它只是用户完成某一类特定产品交易的地方。...[详细]
更多好处请关注坤鹏论公众号:kunpenglun,回复“投稿”查看。...[详细]
他们还有特定的性格,比如不畏强权、大胆、缺少情感等。...[详细]
其实,向亚信投资时,王功权根本没有什么商业逻辑,也不明白丁健有什么核心技术,王功权看中的就是人。...[详细]