MiniMax追着DeepSeek打
创始人
2025-06-19 13:01:50
0

记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对大语言模型而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是DeepSeek R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和DeepSeek R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而DeepSeek R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与DeepSeek R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到DeepSeek R1的一半,进一步降低了模型操作成本。

2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为输入每百万Tokens收费0.55美元(约合人民币3.95元),输出每百万Tokens收费2.19美元(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于DeepSeek R1,而第三个超长文本档位,目前DeepSeek模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

转自:经济观察报

相关内容

热门资讯

最强兄妹档,又要融资700亿 智东西 编译 | 王涵 编辑 | 漠影 又一千亿美元估值AI独角兽即将诞生! 智东西8月22日消息,...
权威发布|2025年济宁市“全... 济宁新闻网·更济宁讯(记者 秦璞)8月21日,济宁市政府新闻办举行新闻发布会,介绍2025年济宁市“...
张掖以智慧监管筑牢绿色屏障 在祁连山脚下,甘肃省张掖市正以数字化手段重塑生态环境治理格局。近年来,张掖市紧扣筑牢国家西部生态安全...
陕西携旅云服网络信息技术有限公... 在快节奏的现代社会中,医疗健康逐渐成为公众关注的焦点。陕西携旅云服网络信息技术有限公司,凭借其专业的...
武汉新洲:“星谷”“食谷”融合... 火箭刺破苍穹,新城与AI相伴,农业智慧转型,大桥飞跃长江,江豚逐浪戏水。 武汉新洲区以问津新城为突破...
【未来虫教育】AI 工具排行榜 根据最新报告,GitHub Copilot 并非开发者在 AI 工具选择中的绝对王者。一项针对全球开...
厦门承葛取得可调节坡度辅助96... 金融界2025年8月22日消息,国家知识产权局信息显示,厦门承葛医学检验实验室有限公司取得一项名为“...
雷军底牌金山,再次进入爬坡期 文|斑马消费 任建新 从2010年创立小米,到2021年“最后一次创业”造车,雷军再度实现跃升。那...
原创 大... 第一关:能量消耗——蛇是“五菱宏光”,虎狮是“悍马油老虎” 大连蛇岛的黑眉蝮蛇,把“节能”刻进了DN...
新时代文明实践|在嘉年华中,一... 8月20日,桐乡市新时代文明实践中心联合百乐社区新时代文明实践站,组织20余组亲子家庭前往乌镇世界互...
魅族22宣布延期至9月:对不起... 今天上午,魅族科技官方发文宣布新机魅族 22 再度跳票,但承诺“事不过三”。官方表示:“对不起,接受...
青岛成功举办“数智低空 赋能未... 8月20日,青岛市通信行业联合市发改委、工信局、交通等多个部门,携手低空经济领域重点企业,在城阳区成...
陕西省知识产权局来石调研 8月22日下午,陕西省知识产权局一行6人与河北省市场监督管理局(知识产权局)有关负责同志,共同到我市...
第九个全国残疾预防日:听力残疾... 2025年8月25日是第九个全国残疾预防日,今年的主题是“预防伤害致残,共创健康生活”。 一、听力...
江苏加速打造重大创新平台矩阵 来源:滚动播报 (来源:江苏省广播电视总台) 重大创新平台是推进高水平科技自立自强的基座。近年来,江...
辽宁构建多维度全链条地震安全服... 央广网沈阳8月22日消息(记者李子平 实习记者王茗赫)建成全国首个地震云平台、建成非天然地震监测平台...
【冀观察】河北本土资源如何育出... 今年6月,河北省邯郸市复兴区的一所小学热闹非凡。无人机在“山峰峡谷”模型间穿梭接力,一群“小工程师”...
国乐撞见数字浪潮:屏上三十秒,... 012025年7月上海合作组织媒体智库峰会上,《合乐图》民族乐器复刻展演引发关注,展现国乐与现代科技...
谷歌计算器应用9.0重磅更新:... IT之家 8 月 22 日消息,科技媒体 Android Authority 今天(8 月 22 日...
广州银发经济领域企业突破1.8... 中新网广州8月22日电 (记者 蔡敏婕)第九届中国(广州)国际养老健康产业博览会(以下简称“广州老博...