对标DeepSeeK!MiniMax推首款开源推理模型,训练成本仅53万美元
创始人
2025-06-19 14:21:25
0

6月17日,国产大模型初创公司MiniMax(希宇科技)宣布推出了全球首个开源的大规模混合架构的推理模型M1,不仅性能超过国内的闭源模型,接近最新版的DeepSeek R1以及海外的最领先模型,同时还拥有更为出色的效率和业内最高的性价比。

根据官方的披露的对比报告显示,MiniMax-M1多项基准测试比肩DeepSeek-R1、Qwen3等开源模型,接近OpenAI O3等海外的最领先模型。

在阿里巴巴集团、腾讯和 IDG 资本的支持下,MiniMax 声称其 Lightning Attention 机制是一种计算注意力矩阵的方法,可以提高训练和推理效率,使其 M1 模型在计算长上下文输入和尝试推理时具有优势。

因此,M1显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。

MiniMax表示,这主要得益于其独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得MiniMax M1在训练和推理的时候都有很大的算力效率优势。

除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,MiniMax发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍,显著的优于 DeepSeek 早期使用的 GRPO。

得益于上述两个技术创新,MiniMax最终强化训练过程非常高效,超出预期。实际上整个强化学习阶段只用到512块H800三周的时间,租赁成本只有53.47万美金。这比一开始的预期少了一个数量级。

MiniMax在业内主流的 17 个评测集上详细评测了M1,结果显示M1在长上下文理解任务中表现卓越,仅以微弱差距落后于Gemini 2.5 Pro,但在在代理工具使用场景(TAU-bench)中战胜了Gemini 2.5 Pro。具体的结果如下:

因为相对高效的训练和推理算力使用,MiniMax宣布在 MiniMax APP 和 Web 上都保持不限量免费使用。

同时,还将以业内最低的价格在官网提供API:在0-32k的输入长度的时候,输入0.8元/百万token, 输出8元/百万token;在32k-128k的输入长度的时候,输入1.2元/百万token, 输出16元/百万token;在最长的 128k-1M 的输入长度的时候,输入2.4元/百万token, 输出24元/百万token。

前面两种模式都比 DeepSeek-R1 性价比更高,后面一种模式 DeepSeek 模型不支持。

编辑:芯智讯-浪客剑

相关内容

热门资讯

WEKA推出NeuralMes... WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模 AI应用。 该方案基...
25名中学生火箭爱好者在青海成... 6月18日15时39分,来自广东的25名中学生火箭爱好者,在青海省海西州茫崖市冷湖火箭发射基地成功发...
原创 卡... 走进卡游极智工厂,德国留学生眼中的制造业图景令人眼前一亮 —— 当技术的齿轮开始转动,传统与创新竟能...
原创 在... “我们正处在一个充满不确定性的时代,但确定的是AI的发展正在加速”,2025年6月19日,当亚马逊云...
GB/T 31125-2014... 药典环形初粘性能测试仪GB/T 31125-2014 药典环形初粘性能测试仪:精准量化粘附性能的关键...
直击2025世界移动通信大会(... 《科创板日报》6月18日讯(记者 黄心怡)今日,世界移动通信大会(MWC)上海启幕。 《科创板日报》...
哈尔滨移动无人机巡检助力特殊场... “无人机已准备就绪,起飞!”哈尔滨移动网络部的工作人员正在对哈尔滨市香坊劳动公园站点的铁塔进行日常巡...
被曝欠薪后达闼机器人在香港卷土... 4月被曝“停摆”“欠薪”的人形机器人明星创业公司达闼机器人,在香港“卷土重来”。南都记者获悉,近期由...
湖南:打造“互联网+”农技推广... 【编者按】为总结推广近年来种植业技术推广体系聚焦稳粮保供和种植业高质量发展要求,在深化创新引领、提升...
北京火箭大街将开放,市民可近距... 在北京,一场航天科技的盛宴即将拉开帷幕。不久的将来,市民们将有机会亲眼见证火箭发射的震撼瞬间,而这一...
原创 银... 银河系有1000亿颗恒星,科学家估算其中可能有10万个类地行星,如果把目光投向整个可观测宇宙,包含2...
2025上海世界移动通信大会开... 【深圳商报讯】(首席记者 陈小慧)6月18日,2025年世界移动通信大会·上海(MWC上海)正式开幕...
马斯克“星舰”再遇重大挫折:试... 6月18日,美国得克萨斯州,马斯克的太空探索技术公司(SpaceX)“星舰”S36飞船在测试时发生巨...
特斯拉HW5芯片量产,搭载新摄... 2025-06-19 10:42:36 作者:狼叫兽 特斯拉最新一代完全自动驾驶芯片 HW5 已进...
青海冷水鱼领域科技成果推介会举... 记者 郭靓 6月13日,由青海省科学技术厅、青海国家高新技术产业开发区管委会指导,青海省科技成果转化...
三星被曝“芯”病严重:伪造数据... 芯东西(公众号:aichip001) 编译 | ZeR0 编辑 | 漠影 芯东西6月19日消息,据海...
宇树王兴兴建议大学生找准方向再... 【CNMO科技消息】近日,吉利控股集团董事长李书福与四足机器人企业宇树科技创始人王兴兴展开了一场关于...
海诺科技荣获中国专利奖 山西晚报·山河+讯(记者 郭卫艳)近日,山西省市场监督管理局传来消息:海诺科技自主研发的发明专利“一...
火星逆行影响下的2025:哪些... 【小小故事博大家一乐!!!】 火星逆行影响下的2025:哪些星座事业进展顺利? 当谈及星象变化对人生...
湖南锂资源创新应用大会在临武举... 中新网郴州6月18日电(记者 鲁毅)湖南锂资源创新应用大会18日在郴州临武县举行,大会展示了5项锂电...