小米全量开源声音理解大模型MiDashengLM-7B

Antutu

阅读

小米今日正式发布声音理解大模型MiDashengLM-7B,并将模型与技术报告全部开源,向开发者社区开放使用许可。

图片

MiDashengLM-7B采用小米自研的Xiaomi Dasheng作为音频编码器,并结合Qwen2.5-Omni-7B Thinker作为自回归解码器,通过通用音频描述训练策略,对各类声音信号形成了深度语义理解能力。相比同类产品,其响应延迟大幅缩短,并支持更大规模的并发处理,能够满足智能家居、汽车座舱和移动设备等多场景下的实时交互需求。

图片

在训练数据方面,MiDashengLM-7B完全使用公开数据进行训练,详细列出77个数据源的配比比例,并在技术报告中披露了从预训练到指令微调的全流程细节。

图片

小米以宽松的Apache 2.0协议发布该模型,明确支持学术研究和商业落地。

作为小米“人-车-家”全生态战略的重要技术基石,MiDashengLM-7B已经在智能音箱全天候监测、车外语音唤醒防御、“打个响指”环境音关联IoT控制、增强哨兵模式等多项产品和功能中实现落地应用,并在未来,继续优化模型的计算效率,探索终端设备离线部署的可行性,并拓展基于自然语言的声音编辑等更多功能。

目前,MiDashengLM-7B的完整代码和模型参数已同步上线:

GitHub 主页:https://github.com/xiaomi-research/dasheng-lm

技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b

模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo: https://xiaomi-research.github.io/dasheng-lm

交互 Demo:https://huggingface.co/spaces/mispeech/MiDashengLM

小米表示,将继续依托开源社区力量,加速创新应用落地,为用户带来更智能、更自然的声音交互体验。

图片

原创文章,作者:HyperZ-Ton,如若转载,请注明出处:http://www.antutu.com/doc/134956.htm

相关推荐

登录后才能评论

评论列表 ( )

返回
顶部