DeepSeek刺激太大!Altman“认错”,称考虑OpenAI开源,上线O3 Mini,推理模型首次免费
创始人
2025-02-02 12:41:44
0

当地时间1月31日周五, OpenAI正式推出了全新推理模型o3-mini,并首次向免费用户开放推理模型。这是OpenAI推理系列中最新、成本效益最高的模型,OpenAI称该模型能够进行类似人类的推理,现在已经在ChatGPT和API中上线。随着DeepSeek发布开源模型震撼全球,OpenAI的这款新品备受关注。

o3-mini能够以更低的成本、更快的响应速度,为用户提供STEM能力,在科学、数学和编程领域表现尤为出色,同时延续了o1-mini等之前版本的低成本和低延迟特点。值得一提的是,开发者可以根据需求在低、中、高三种不同的“推理努力”选项中进行选择。

OpenAI表示,虽然OpenAI o1仍然是用于一般知识推理的广泛模型,但OpenAI o3-mini为那些需要精确性和快速响应的技术领域提供了一个专门的替代方案。o3-mini采用中等推理努力,在速度与准确性之间实现了平衡。

受DeepSeek刺激,OpenAI可能考虑开源、公开完整思维链。

在o3mini正式推出之时,Sam Altman携一众高管在reddit回答网友问题,其间罕见承认 OpenAI过去在开源方面一直站在“历史错误的一边”。Altman表示:“需要想出一个不同的开源策略”。

在谈及DeepSeek时,Altman表示它是“一个很好的模型”,并表示“我们将生产更好的模型, 但与往年相比,领先优势更少”。

Altman还进一步表示, 得益于DeepSeek,OpenAI可能更多地揭示其所谓的推理模型(如O3-Mini)如何展示其“思考过程”。目前,OpenAI的模型隐藏了它们的推理过程,防止竞争对手为自己的模型获取训练数据。相比之下,DeepSeek的R1模型则对用户开放思维链输出。

OpenAI首席产品官Kevin Weil也补充表示:

“我们正在努力展示比今天更多的内容,这将很快实现。待定,展示所有的思维链(CoT)的确会导致竞争性蒸馏,但我们也知道人们(至少是高级用户)想要它,所以我们会找到合适的方法来平衡它。”

支持更多开发者功能

o3-mini是第一个支持开发者常用功能的小型推理模型,包括:

函数调用:可以直接调用预设函数,实现更高效的任务处理。

结构化输出:让模型输出的信息更规整,便于解析和应用。

开发者消息:为开发者提供更多调试和信息反馈手段。

与之前的o1-mini一样,最新的o3-mini同样支持流式输出。

OpenAI介绍称, o3-mini支持开发者调整“AI推理努力程度”,分为低、中、高三个级别。这种灵活性使得o3-mini可以在面对难题时“更努力思考”,而需要效率时优先考虑回应速度。

o3-mini不支持视觉能力,因此对于需要进行图像处理或视觉推理任务的用户,仍需使用OpenAI的o1模型。

广泛的接入方式

对于不同类型用户,o3-mini可以通过多个渠道接入:

  • API用户:在Chat Completions、Assistants和Batch API中,o3-mini已经向部分API用户开放(适用于使用层级3-5的用户)。

  • ChatGPT用户:ChatGPT Plus、Team和Pro用户从周五开始即可使用,企业用户则将在一周后获得访问权限。

  • 免费用户:免费用户也能通过选择“推理模式”或重新生成回答的方式体验o3-mini。这是首次免费用户可以使用具备推理能力的模型。

OpenAI表示,o3-mini将取代模型选择器中的OpenAI o1-mini。 所有付费用户可以在模型选择器中选择o3-mini-high——一个智力更强、但生成响应速度略慢的版本。

Pro用户可无限制地使用o3-mini和o3-mini-high。OpenAI将Plus和Team用户的日消息限额从o1-mini的50条提高到o3-mini的150条。

此外, o3-mini现已支持搜索功能,能够查找最新答案并提供相关网页链接。这是一个早期原型,OpenAI称正在努力将搜索功能整合到所有推理模型中。

模型性能亮点

据OpenAI披露,在2024年美国数学邀请赛(AIME 2024)的测试中,低推理努力的o3-mini准确率为60%,与o1-mini差不多,但速度更快;而在中等努力下,o3-mini的准确率能够提升到79.6%,与o1模型相当;在最高努力水平时, o3-mini的准确率则能进一步提升至87.3%。

在博士级科学问题(GPQA Diamond)方面,三种努力程度模型的准确率分别为70.6%、76.8%和79.7%。

FrontierMath前沿数学与Codeforces等编程竞赛方面,o3-mini也显示出明显优势,甚至在某些评测中远超前代模型。

在SWE-bench Verified软件工程任务测试中,o3-mini高推理版本的准确率达到了超过49%,优于旧版本。

通用知识方面,在各种知识评测中,o3-mini的表现也超过了o1-mini,能够为用户提供更准确的答案。

在智能水平与o1相当的前提下,o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM评估之外,采用中等推理努力的情况下,o3-mini在数学和事实性评估中也展现出更出色的表现。在A/B测试中,o3-mini的响应速度比o1-mini快24%,其平均响应时间为7.7秒,而o1-mini为10.16秒。延迟方面,o3-mini的首个token平均比o1-mini快2500毫秒。

安全性与风险防控

OpenAI表示,o3-mini采用了“深思熟虑的对齐”方法,即在回答用户问题之前,让模型先思考人类制定的安全规则。与o1模型类似,o3-mini在应对复杂安全挑战和防止绕过安全措施(jailbreak)上,比GPT-4o表现得更出色。

在发布前,OpenAI采用了全面的安全准备、外部红队测试和多种安全评估方法,对o3-mini的风险进行了严格评估。相关的详细评估结果和风险防控措施,均记录在o3-mini的系统卡中。

未来展望

OpenAI公司表示,o3-mini的发布标志着OpenAI在推动低成本智能边界方面又迈出了一步。通过为STEM领域优化推理能力,同时保持低成本,使高质量的人工智能变得更加普及。OpenAI指出,该模型延续了不断降低智能成本的传统——自推出GPT-4以来,每个token的定价降低了95%——同时依然保持顶级的推理能力。

OpenAI表示,随着人工智能的广泛应用,将继续走在前沿,构建在智能、效率和安全性上取得平衡的大规模模型。

o3-mini发布前夕

o3-mini的发布背景颇为引人注目。

在此前OpenAI宣布Operator AI代理之后仅一天,特朗普政府就公布了大规模的“星际之门”AI资助项目。

随后,DeepSeek R1的崛起震惊全球,对市场造成冲击,AI领域竞争加剧,OpenAI加快了o3-mini发布进程,以维持其在AI领域的领先地位。在o3-mini正式发布前就有消息称,OpenAI准备本周五发布新一代推理模型ChatGPT o3-mini,该模型是o3系列的精简版本,专为特定任务优化,速度更快且更具成本效益。

OpenAI CEO Sam Altman于1月17日在社交平台X上表示,ChatGPT o3-mini的最终版本已经完成,正在进入发布流程。当时他预计新版本将在"大约几周后"推出。

相关内容

热门资讯

AI体验官探北京丨一座“AI原... 首都北京,人工智能群星闪耀,“一北一南”遥相呼应。北部海淀,加快建设大模型产业集聚区;南部亦庄,正在...
2k档+骁龙8s Gen4+7... 随着手机各项配置不断升级,为了应对手机发热与散热难题,各手机厂商在散热方面的举措可谓层出不穷,常见的...
未来20年最具颠覆性的科学变革... 7月8日,在未来科学大奖十周年庆典·科学峰会上,施一公、潘建伟、薛其坤等一批院士校长预测了未来科学发...
两部门:推动建立人工智能风险等... 市场监管总局、工业和信息化部联合印发《计量支撑产业新质生产力发展行动方案(2025—2030年)》。...
一体化五参数气象监测站:精准高... 在气象观测领域,一款性能优异的设备能为数据获取带来极大便利。一体化五参数气象监测站作为便携式气象站的...
原创 西... 2025年6月23日,在西北大漠的荒凉深处,由“国防七子”之一的西工大主导研发的“飞天二号”顺利完成...
铁人鑫威取得热压机快速冷却装置... 金融界2025年7月8日消息,国家知识产权局信息显示,广东铁人鑫威机械有限公司取得一项名为“一种热压...
恒太照明取得带锁定结构的灯具专... 金融界2025年7月9日消息,国家知识产权局信息显示,江苏恒太照明股份有限公司取得一项名为“带锁定结...
金润智通取得马达散热结构专利 ... 金融界2025年7月9日消息,国家知识产权局信息显示,廊坊金润智通科技有限公司取得一项名为“马达散热...
松霖科技:2025年研发投入聚... 乐居财经 李兰 7月8日,松霖科技(603992.SH)发布投资者关系活动记录表,董事会秘书吴朝华对...
台风“丹娜丝”向多地“洒水”?... 今年第4号台风“丹娜丝”(热带风暴级)于昨天(7月8日)21时25分前后在浙江省温州市洞头区沿海登陆...
箭牌家居获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示箭牌家居(001322)新获得一项实用新型专利授权,专利名为“...
兴海和金属制品取得防雾型铝合金... 金融界2025年7月9日消息,国家知识产权局信息显示,厦门兴海和金属制品有限公司取得一项名为“一种防...
奥特曼:再也不和小扎说话!Op... 新智元报道 编辑:Aeneas 【新智元导读】刚刚,OpenAI反手就是一记王炸!奥特曼亲自下场,...
年入46亿!北京国家队又干出超... 作者 | 铅笔道 爱羽 2016年5月,一场“蛇吞象”的画面正在进行。一个成立时间不过半年的年轻公司...
中国电信以技术+合作为引擎 推... (记者 安子修)随着技术发展,“数字城市”早已从科幻落地为现实。日前,2025全球数字经济大会在北京...
电磁加热器多机通讯RS485和... RS485是一种差分式串行通讯标准,具有抗干扰能力强、传输距离远(可达1200米)、支持多点通讯等优...
积极探索员工健康管理新路径 ■记者 史超 通讯员 孙蒙蒙 近日,在“运动、健康、高效”工作生活理念的引领下,黄陵煤电实业有限公...
香港首个AI大模型自动协同通用... 中新网香港7月9日电 香港人工智能(AI)企业维纳智能科技有限公司8日举行“Agentic AI系列...
华友钴业取得反应装置专利,有效... 金融界2025年7月8日消息,国家知识产权局信息显示,衢州华友钴新材料有限公司;浙江华友钴业股份有限...