MiniMax追着DeepSeek打
创始人
2025-06-19 13:01:50
0

记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对大语言模型而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是DeepSeek R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和DeepSeek R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而DeepSeek R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与DeepSeek R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到DeepSeek R1的一半,进一步降低了模型操作成本。

2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为输入每百万Tokens收费0.55美元(约合人民币3.95元),输出每百万Tokens收费2.19美元(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于DeepSeek R1,而第三个超长文本档位,目前DeepSeek模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

转自:经济观察报

相关内容

热门资讯

湖南锂资源创新应用大会在临武举... 中新网郴州6月18日电(记者 鲁毅)湖南锂资源创新应用大会18日在郴州临武县举行,大会展示了5项锂电...
荣耀CEO李健官宣:新一代AI... 6月19日,在2025上海世界移动通信大会上,荣耀CEO李健发表了名为《开放共生,众木成林 让AI走...
浙江天和取得装配式建筑支撑加固... 金融界2025年6月19日消息,国家知识产权局信息显示,浙江天和建筑设计有限公司取得一项名为“一种装...
6G将开启“内生智能”新纪元 本报记者 李迅典 被誉为“全球移动通信行业发展风向标”的2025世界移动通信大会(上海)6月18日在...
正式签约 “星算”计划总部项目... 封面新闻记者 罗田怡 2025年06月18日,“投资成都”全球招商大会在成都开幕,主题为“合作·创新...
小米雷军:美的、海尔都是非常优... IT之家 6 月 19 日消息,小米创办人,董事长兼 CEO 雷军今日发文称:“美的、海尔都是非常优...
AI 技术:驱动时代变革的核心... AI 技术:驱动时代变革的核心力量 在当今科技飞速发展的时代,人工智能(AI)技术如同强劲的引擎...
“星舰”静态点火测试中发生爆炸... 6月18日,马斯克的太空探索技术公司(SpaceX)“星舰”S36飞船在测试时发生爆炸。 视频画面显...
无人机巡检新纪元:通信基站勘查... 在哈尔滨,一场基站巡检的革命正在悄然发生。香坊劳动公园站点的铁塔下,不再是工作人员辛苦攀爬的身影,取...
小屏党的梦中情机!REDMI ... 一、前言:被遗忘的小钢炮 安卓高性能小尺寸平板何时归来 在安卓平板电脑市场,大屏化趋势愈演愈烈,12...
天津港南疆35千伏变电站开启无... 昨天,天津港南疆35千伏变电站正式开启无人化运行的新阶段,这标志着天津港首座35千伏级公共主站实现了...
黄浦江游轮5G新突破:下行峰值... 在上海市经济和信息化委员会的精心策划下,一场聚焦5G-A技术的实地测试活动近日在黄浦江上一艘名为“君...
欧几里得开启了一个宇宙信息宝库... 2023年7月,欧几里得空间望远镜发射升空。它将对宇宙中数十亿个星系进行成像,以探索占宇宙95%的暗...
华为电信再联手,“智聚大上行”... 6月19日,在2025年上海世界移动通信大会(MWC)上,中国电信携手华为公司在上海举办了5G-A“...
对标DeepSeeK!Mini... 6月17日,国产大模型初创公司MiniMax(希宇科技)宣布推出了全球首个开源的大规模混合架构的推理...
李书福对话王兴兴:一场关于AI... 【大河财立方消息】据吉利控股集团消息,近日,吉利控股集团董事长李书福与宇树科技创始人王兴兴首次同框,...
上影节开启“科技创制单元” 上... 上海6月18日电 (记者 王笈)第27届上海国际电影节科幻电影周“科技创制单元”开幕仪式暨上海科技影...
“人工智能辅助写作”讲座在广外... 6月18日下午,“人工智能辅助写作:阅读与写作改变人生”讲座在广东外语外贸大学中国语言文化学院举行。...
唯速智驾发布全国首套自动驾驶模... 2025年6月18日,北京唯速智驾科技有限公司(以下称“唯速智驾”)重磅发布全国首套自动驾驶模块化汽...
中国飞机强度研究所2025年度... 为推动中国飞机强度研究所(以下简称强度所)科研外协质量,促进产学研合作创新与协同攻关,让高水平研究团...