对标DeepSeeK！MiniMax推首款开源推理模型，训练成本仅53万美元_资讯

对标DeepSeeK！MiniMax推首款开源推理模型，训练成本仅53万美元

创始人

2025-06-19 14:21:25

0次

6月17日，国产大模型初创公司MiniMax（希宇科技）宣布推出了全球首个开源的大规模混合架构的推理模型M1，不仅性能超过国内的闭源模型，接近最新版的DeepSeek R1以及海外的最领先模型，同时还拥有更为出色的效率和业内最高的性价比。

根据官方的披露的对比报告显示，MiniMax-M1多项基准测试比肩DeepSeek-R1、Qwen3等开源模型，接近OpenAI O3等海外的最领先模型。

在阿里巴巴集团、腾讯和 IDG 资本的支持下，MiniMax 声称其 Lightning Attention 机制是一种计算注意力矩阵的方法，可以提高训练和推理效率，使其 M1 模型在计算长上下文输入和尝试推理时具有优势。

因此，M1显著的优势是支持目前业内最高的100万上下文的输入，跟闭源模型里面的 Google Gemini 2.5 Pro 一样，是 DeepSeek R1 的 8 倍，以及业内最长的8万Token的推理输出。

MiniMax表示，这主要得益于其独创的以闪电注意力机制为主的混合架构，从而在计算长的上下文输入以及深度推理的时候显著高效。例如，在用8万Token深度推理的时候，只需要使用DeepSeek R1约30%的算力。这个特性使得MiniMax M1在训练和推理的时候都有很大的算力效率优势。

除此之外，MiniMax提出了更快的强化学习算法CISPO，通过裁剪重要性采样权重（而非传统token更新）提升强化学习效率。在AIME 的实验中，MiniMax发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍，显著的优于 DeepSeek 早期使用的 GRPO。

得益于上述两个技术创新，MiniMax最终强化训练过程非常高效，超出预期。实际上整个强化学习阶段只用到512块H800三周的时间，租赁成本只有53.47万美金。这比一开始的预期少了一个数量级。

MiniMax在业内主流的 17 个评测集上详细评测了M1，结果显示M1在长上下文理解任务中表现卓越，仅以微弱差距落后于Gemini 2.5 Pro，但在在代理工具使用场景（TAU-bench）中战胜了Gemini 2.5 Pro。具体的结果如下：

因为相对高效的训练和推理算力使用，MiniMax宣布在 MiniMax APP 和 Web 上都保持不限量免费使用。

同时，还将以业内最低的价格在官网提供API：在0-32k的输入长度的时候，输入0.8元/百万token，输出8元/百万token；在32k-128k的输入长度的时候，输入1.2元/百万token，输出16元/百万token；在最长的 128k-1M 的输入长度的时候，输入2.4元/百万token，输出24元/百万token。

前面两种模式都比 DeepSeek-R1 性价比更高，后面一种模式 DeepSeek 模型不支持。

编辑：芯智讯-浪客剑

上一篇：李书福对话王兴兴：一场关于AI时代人才培养的跨界对话

下一篇：华为电信再联手，“智聚大上行”开启AI与5G-A融合新纪元

热门资讯

最强兄妹档，又要融资700亿智东西编译 | 王涵编辑 | 漠影又一千亿美元估值AI独角兽即将诞生！智东西8月22日消息，...

权威发布｜2025年济宁市“全... 济宁新闻网·更济宁讯（记者秦璞）8月21日，济宁市政府新闻办举行新闻发布会，介绍2025年济宁市“...

张掖以智慧监管筑牢绿色屏障在祁连山脚下，甘肃省张掖市正以数字化手段重塑生态环境治理格局。近年来，张掖市紧扣筑牢国家西部生态安全...

陕西携旅云服网络信息技术有限公... 在快节奏的现代社会中，医疗健康逐渐成为公众关注的焦点。陕西携旅云服网络信息技术有限公司，凭借其专业的...

武汉新洲：“星谷”“食谷”融合... 火箭刺破苍穹，新城与AI相伴，农业智慧转型，大桥飞跃长江，江豚逐浪戏水。武汉新洲区以问津新城为突破...

【未来虫教育】AI 工具排行榜根据最新报告，GitHub Copilot 并非开发者在 AI 工具选择中的绝对王者。一项针对全球开...

厦门承葛取得可调节坡度辅助96... 金融界2025年8月22日消息，国家知识产权局信息显示，厦门承葛医学检验实验室有限公司取得一项名为“...

雷军底牌金山，再次进入爬坡期文｜斑马消费任建新从2010年创立小米，到2021年“最后一次创业”造车，雷军再度实现跃升。那...

原创大... 第一关：能量消耗——蛇是“五菱宏光”，虎狮是“悍马油老虎” 大连蛇岛的黑眉蝮蛇，把“节能”刻进了DN...

新时代文明实践｜在嘉年华中，一... 8月20日，桐乡市新时代文明实践中心联合百乐社区新时代文明实践站，组织20余组亲子家庭前往乌镇世界互...

魅族22宣布延期至9月：对不起... 今天上午，魅族科技官方发文宣布新机魅族 22 再度跳票，但承诺“事不过三”。官方表示：“对不起，接受...

青岛成功举办“数智低空赋能未... 8月20日，青岛市通信行业联合市发改委、工信局、交通等多个部门，携手低空经济领域重点企业，在城阳区成...

陕西省知识产权局来石调研 8月22日下午，陕西省知识产权局一行6人与河北省市场监督管理局（知识产权局）有关负责同志，共同到我市...

第九个全国残疾预防日：听力残疾... 2025年8月25日是第九个全国残疾预防日，今年的主题是“预防伤害致残，共创健康生活”。一、听力...

江苏加速打造重大创新平台矩阵来源：滚动播报（来源：江苏省广播电视总台）重大创新平台是推进高水平科技自立自强的基座。近年来，江...

辽宁构建多维度全链条地震安全服... 央广网沈阳8月22日消息（记者李子平实习记者王茗赫）建成全国首个地震云平台、建成非天然地震监测平台...

【冀观察】河北本土资源如何育出... 今年6月，河北省邯郸市复兴区的一所小学热闹非凡。无人机在“山峰峡谷”模型间穿梭接力，一群“小工程师”...

国乐撞见数字浪潮：屏上三十秒，... 012025年7月上海合作组织媒体智库峰会上，《合乐图》民族乐器复刻展演引发关注，展现国乐与现代科技...

谷歌计算器应用9.0重磅更新：... IT之家 8 月 22 日消息，科技媒体 Android Authority 今天（8 月 22 日...

广州银发经济领域企业突破1.8... 中新网广州8月22日电 (记者蔡敏婕)第九届中国(广州)国际养老健康产业博览会(以下简称“广州老博...

对标DeepSeeK！MiniMax推首款开源推理模型，训练成本仅53万美元

相关内容

热门资讯