对标DeepSeeK!MiniMax推首款开源推理模型,训练成本仅53万美元
创始人
2025-06-19 14:21:25
0

6月17日,国产大模型初创公司MiniMax(希宇科技)宣布推出了全球首个开源的大规模混合架构的推理模型M1,不仅性能超过国内的闭源模型,接近最新版的DeepSeek R1以及海外的最领先模型,同时还拥有更为出色的效率和业内最高的性价比。

根据官方的披露的对比报告显示,MiniMax-M1多项基准测试比肩DeepSeek-R1、Qwen3等开源模型,接近OpenAI O3等海外的最领先模型。

在阿里巴巴集团、腾讯和 IDG 资本的支持下,MiniMax 声称其 Lightning Attention 机制是一种计算注意力矩阵的方法,可以提高训练和推理效率,使其 M1 模型在计算长上下文输入和尝试推理时具有优势。

因此,M1显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。

MiniMax表示,这主要得益于其独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得MiniMax M1在训练和推理的时候都有很大的算力效率优势。

除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,MiniMax发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍,显著的优于 DeepSeek 早期使用的 GRPO。

得益于上述两个技术创新,MiniMax最终强化训练过程非常高效,超出预期。实际上整个强化学习阶段只用到512块H800三周的时间,租赁成本只有53.47万美金。这比一开始的预期少了一个数量级。

MiniMax在业内主流的 17 个评测集上详细评测了M1,结果显示M1在长上下文理解任务中表现卓越,仅以微弱差距落后于Gemini 2.5 Pro,但在在代理工具使用场景(TAU-bench)中战胜了Gemini 2.5 Pro。具体的结果如下:

因为相对高效的训练和推理算力使用,MiniMax宣布在 MiniMax APP 和 Web 上都保持不限量免费使用。

同时,还将以业内最低的价格在官网提供API:在0-32k的输入长度的时候,输入0.8元/百万token, 输出8元/百万token;在32k-128k的输入长度的时候,输入1.2元/百万token, 输出16元/百万token;在最长的 128k-1M 的输入长度的时候,输入2.4元/百万token, 输出24元/百万token。

前面两种模式都比 DeepSeek-R1 性价比更高,后面一种模式 DeepSeek 模型不支持。

编辑:芯智讯-浪客剑

相关内容

热门资讯

最强兄妹档,又要融资700亿 智东西 编译 | 王涵 编辑 | 漠影 又一千亿美元估值AI独角兽即将诞生! 智东西8月22日消息,...
权威发布|2025年济宁市“全... 济宁新闻网·更济宁讯(记者 秦璞)8月21日,济宁市政府新闻办举行新闻发布会,介绍2025年济宁市“...
张掖以智慧监管筑牢绿色屏障 在祁连山脚下,甘肃省张掖市正以数字化手段重塑生态环境治理格局。近年来,张掖市紧扣筑牢国家西部生态安全...
陕西携旅云服网络信息技术有限公... 在快节奏的现代社会中,医疗健康逐渐成为公众关注的焦点。陕西携旅云服网络信息技术有限公司,凭借其专业的...
武汉新洲:“星谷”“食谷”融合... 火箭刺破苍穹,新城与AI相伴,农业智慧转型,大桥飞跃长江,江豚逐浪戏水。 武汉新洲区以问津新城为突破...
【未来虫教育】AI 工具排行榜 根据最新报告,GitHub Copilot 并非开发者在 AI 工具选择中的绝对王者。一项针对全球开...
厦门承葛取得可调节坡度辅助96... 金融界2025年8月22日消息,国家知识产权局信息显示,厦门承葛医学检验实验室有限公司取得一项名为“...
雷军底牌金山,再次进入爬坡期 文|斑马消费 任建新 从2010年创立小米,到2021年“最后一次创业”造车,雷军再度实现跃升。那...
原创 大... 第一关:能量消耗——蛇是“五菱宏光”,虎狮是“悍马油老虎” 大连蛇岛的黑眉蝮蛇,把“节能”刻进了DN...
新时代文明实践|在嘉年华中,一... 8月20日,桐乡市新时代文明实践中心联合百乐社区新时代文明实践站,组织20余组亲子家庭前往乌镇世界互...
魅族22宣布延期至9月:对不起... 今天上午,魅族科技官方发文宣布新机魅族 22 再度跳票,但承诺“事不过三”。官方表示:“对不起,接受...
青岛成功举办“数智低空 赋能未... 8月20日,青岛市通信行业联合市发改委、工信局、交通等多个部门,携手低空经济领域重点企业,在城阳区成...
陕西省知识产权局来石调研 8月22日下午,陕西省知识产权局一行6人与河北省市场监督管理局(知识产权局)有关负责同志,共同到我市...
第九个全国残疾预防日:听力残疾... 2025年8月25日是第九个全国残疾预防日,今年的主题是“预防伤害致残,共创健康生活”。 一、听力...
江苏加速打造重大创新平台矩阵 来源:滚动播报 (来源:江苏省广播电视总台) 重大创新平台是推进高水平科技自立自强的基座。近年来,江...
辽宁构建多维度全链条地震安全服... 央广网沈阳8月22日消息(记者李子平 实习记者王茗赫)建成全国首个地震云平台、建成非天然地震监测平台...
【冀观察】河北本土资源如何育出... 今年6月,河北省邯郸市复兴区的一所小学热闹非凡。无人机在“山峰峡谷”模型间穿梭接力,一群“小工程师”...
国乐撞见数字浪潮:屏上三十秒,... 012025年7月上海合作组织媒体智库峰会上,《合乐图》民族乐器复刻展演引发关注,展现国乐与现代科技...
谷歌计算器应用9.0重磅更新:... IT之家 8 月 22 日消息,科技媒体 Android Authority 今天(8 月 22 日...
广州银发经济领域企业突破1.8... 中新网广州8月22日电 (记者 蔡敏婕)第九届中国(广州)国际养老健康产业博览会(以下简称“广州老博...