小米全量开源声音理解大模型MiDashengLM-7B

Antutu •

2025-08-04 13:43:34

•

阅读

小米今日正式发布声音理解大模型MiDashengLM-7B，并将模型与技术报告全部开源，向开发者社区开放使用许可。

MiDashengLM-7B采用小米自研的Xiaomi Dasheng作为音频编码器，并结合Qwen2.5-Omni-7B Thinker作为自回归解码器，通过通用音频描述训练策略，对各类声音信号形成了深度语义理解能力。相比同类产品，其响应延迟大幅缩短，并支持更大规模的并发处理，能够满足智能家居、汽车座舱和移动设备等多场景下的实时交互需求。

在训练数据方面，MiDashengLM-7B完全使用公开数据进行训练，详细列出77个数据源的配比比例，并在技术报告中披露了从预训练到指令微调的全流程细节。

小米以宽松的Apache 2.0协议发布该模型，明确支持学术研究和商业落地。

作为小米“人-车-家”全生态战略的重要技术基石，MiDashengLM-7B已经在智能音箱全天候监测、车外语音唤醒防御、“打个响指”环境音关联IoT控制、增强哨兵模式等多项产品和功能中实现落地应用，并在未来，继续优化模型的计算效率，探索终端设备离线部署的可行性，并拓展基于自然语言的声音编辑等更多功能。

目前，MiDashengLM-7B的完整代码和模型参数已同步上线：

GitHub 主页：https://github.com/xiaomi-research/dasheng-lm

技术报告：https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report

模型参数（Hugging Face）：https://huggingface.co/mispeech/midashenglm-7b

模型参数（魔搭社区）：https://modelscope.cn/models/midasheng/midashenglm-7b

网页 Demo： https://xiaomi-research.github.io/dasheng-lm

交互 Demo：https://huggingface.co/spaces/mispeech/MiDashengLM

小米表示，将继续依托开源社区力量，加速创新应用落地，为用户带来更智能、更自然的声音交互体验。