数据:
MiniMax-M1模型参数4560亿,支持最高100万上下文输入,性能超DeepSeek-R1,训练成本约53.47万美元(折合人民币约385万)。
线索:
MiniMax-M1是首个开源大规模混合架构推理模型,显著降低了训练成本,适合需要处理长上下文和复杂任务的应用场景。对DeepSeek-R1构成直接竞争,潜在降低了市场价格和提升性能标准,还可能引发用户的迁移与新兴开发应用场景的涌现。
正文:
6月17日,MiniMax发布了其全球首个开源大规模混合架构的推理模型MiniMax-M1,并宣布了一项为期五天的更新计划。
MiniMax-M1模型的参数规模达到4560亿,相较于其他模型,其每个token能激活459亿参数,原生支持高达100万的上下文输入和8万token的推理输出,输入长度与谷歌的Gemini 2.5 Pro相同,是DeepSeek-R1的8倍。MiniMax团队训练了两个版本的M1,分别具备40k和80k的思考预算。
在标准基准测试上,MiniMax-M1显示出在复杂的软件工程、工具使用和长上下文任务方面的出色表现,优于DeepSeek-R1和Qwen3-235B等开源模型。
在训练阶段,研究人员使用512块H800进行强化学习训练,持续三周,租赁费用为53.74万美元(约385.9万元人民币),与最初预期相比大幅降低。M1模型在MiniMax的APP和Web上支持不限制的免费使用,API价格分为三个档次,适用于不同范围的输入长度。
与DeepSeek-R1的输入长度和表现相较,M1在各个层级的价格中具有一定优势,尤其在第三档(128k-1M输入长度)展现出明显的市场优势,后者是不支持该输入长度的。
MiniMax同时指出,另一家竞争对手也开源了编程模型Kimi-Dev,其编程能力强于DeepSeek-R1。MiniMax-M1的推理模型已被公认为处理复杂任务和超长文本输入的理想选择,开发者可以在其交互平台中体验MiniMax-M1的能力。
发布时间:
2025-06-17 16:13:57
评论 ( 0 )