小米在2025年4月30日正式开源了其首个专为推理任务设计的大模型Xiaomi MiMo,此模型以仅7 B参数的规模,在数学推理(AIME 24–25)和代码竞赛(LiveCodeBench v5)两大公开评测集上超越了OpenAI的闭源模型o1-mini以及阿里Qwen的32 B参数预览版QwQ-32B-Preview。
Xiaomi MiMo的推理能力提升得益于预训练阶段对推理模式的深度挖掘和后训练阶段算法与框架的多层面创新。小米团队首先构建了约200 B tokens的专用推理语料库,让模型在更丰富的推理场景中“见多识广”;在此基础上,他们采用三阶段递进式训练策略,总计训练25 T tokens,以逐步提升模型对复杂逻辑链条的掌握能力。
在后训练阶段,团队引入了“Test Difficulty Driven Reward”算法,以动态分配不同难度测试样本的奖励,从而缓解强化学习中常见的奖励稀疏问题;同时,采用“Easy Data Re-Sampling”策略,对较易样本进行重采样,以稳定训练过程,减少梯度更新的跳跃性。为了进一步加速训练效率,小米还设计了“Seamless Rollout”系统,将在线生成与批量评估无缝融合,使RL训练速度提升2.29倍,验证速度提升1.96倍。
目前,小米大模型Core团队已将MiMo-7B系列的四个版本(包括预训练基线模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT、强化学习模型MiMo-7B-RL以及零示例强化学习模型MiMo-7B-RL-Zero)全部发布至HuggingFace,技术报告全文及实验数据也同步开源在GitHub,内容涵盖模型结构、训练流程、评测指标与对比分析。
MiMo-7B已开源4个模型至HuggingFace:https://huggingface.co/XiaomiMiMo
技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
原创文章,作者:houxiangyu,如若转载,请注明出处:http://www.antutu.com/doc/134264.htm
登录后才能评论