小米MiMo永久降价!罗福莉谈其背后逻辑

Antutu

阅读

小米技术昨日正式宣布,MiMo-V2.5系列API永久降价,最高降幅达99%,且取消上下文窗口长度的价格区分。

负责人罗福莉在社交平台阐释了降价的技术逻辑:推理框架已支持针对SWA的分层KV缓存优化,生产测试显示缓存Token容量提升5倍,缓存成本相应降低80%,叠加Hybrid模型中多Full Attention模块间的缓存读取重叠机制,成本进一步压降。

图片

输入未命中及输出价格同步下调60%至80%,其根源在于模型采用1∶7的Full∶SWA稀疏比,70层Pro版的prefill计算量仅相当于10层GQA模型,原始推理成本远低于行业均值,定价中本就留存了两至三倍利润空间,此次调整实为结构性成本优势向开发者的让渡。

罗福莉指出,降价后推理引擎已近满载运行,但仍可维持收支平衡,此前劝诫行业勿盲目降价,正因鲜有架构能在大幅降价后避免亏损。她进一步强调,价格合理且性能优异的API将驱动大规模真实推理需求,拉动芯片、服务器、光模块、液冷、电力等整条AI硬件链,为AGI多路线并行演进提供算力基础。详细技术方案将于后续Blog发布。

图片

原创文章,作者:MoFirLee,如若转载,请注明出处:http://www.antutu.com/doc/136876.htm

相关推荐

登录后才能评论

评论列表 ( )

返回
顶部