全球30名顶尖数学家秘密集会围剿AI,当场破防!惊呼已接近数学天才
创始人
2025-06-07 19:01:47
0

新智元报道

编辑:Aeneas 好困

【新智元导读】最近,30位世界顶尖数学家亲自出马,在UC伯克利对OpenAI o4-mini展开「围剿」,两天连出教授级难题,结果却当场集体「破防」!有人直言:这个AI,的确已接近数学天才的水平。曾经以为AGI遥遥无期,如今仿佛只剩临门一脚了……

AI做数学,到底有多强?

就在最近,30位世界著名数学家齐聚UC伯克利,希望在一次秘密数学会议上超越AI。

在连续两天用教授级难题轰炸这个AI后,研究者们惊愕地发现,它居然能解除一部分这世界上最难的可解问题!

其中一位数学家当场折服,直言这些模型已经接近了数学天才的水平。

顶尖数学家们,服了

在五月中旬的一个周末,一场秘密数学峰会悄然召开。

三十位全球顶尖数学家与一个推理聊天机器人展开对决,后者需要解答专家们专门设计的难题。

结果如开头所见,数学家们彻底服了。

本次参赛的这个机器人,背后就是OpenAI的o4-mini,它已经能进行极其复杂的推理。

当然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具备相似的能力。

为什么o4-mini做起数学题来,能这么强?

这是因为,它是基于专门的数据集训练,并获得了更强的RLHF。这种方法,就能让它比传统的LLM更深入地钻研复杂数学问题。

Epoch AI,寻根问底

而训出o4-mini后,OpenAI也一直十分关注它的解题能力。

为了追踪o4-mini的进展,OpenAI此前曾委托非营利组织Epoch AI设计300道解法尚未公开的数学题,专门来考验大模型。

这些题的亮点就在于,因为解法并未问世,就绝不可能存在于训练数据中。

果然,当Epoch AI用这些与训练数据截然不同的问题去测试几款推理模型时,它们几乎全部翻车了。

即使表现最好的模型,解出率也不到2%。

LLM做数学,真的不行么?Epoch AI没有放弃探索。

2024年9月,Epoch AI 聘请了刚获得数学博士学位的Elliot Glazer,参与到一个代号为FrontierMath的全新新基准测试项目中。

这个项目的目的,就是收集不同难度登机的全新数学题。其中,T1-T3分别覆盖本科、研究生及研究级别的挑战。

结果,o4-mini让人刮目相看。

到2025年2月,Glazer发现,o4-mini竟然能解出约20%的题目!

他们要与AI一同在陶哲轩等人提出的FrontierMath基准上,展开终极对决。

比赛一共23题,限时4.5小时,实验最终得出:

o4-mini-medium碾压人类平均水平(19%),解决了约22%题目。

不过,o4-mini能够解决的问题,至少被一组数学家团队破解。由此,人类团队总体上解决了约35%的题目。

结果显示,o4-mini一共击败六组团队,在数学领域展现了惊人的潜力。

T4级测试,开始

随后,他开始着手进行第四等级的测试——这次,要找出100道即使对专业数学家也极具挑战性的难题。

放眼全球,能提出这种问题的人寥寥无几,更不用说给出解答了。

为此,他要求了全球顶尖的数学家,要求他们必须签署保密协议,甚至只能通过加密通讯应用Signal交流。

因为他担心,如果用电子邮件这类传统的联络方式,有可能就会被LLM扫描到,无意中成为训练数据,从而污染整个测试数据集。

由于采用的方式格外严谨,起初项目的进展十分缓慢。

为了加快进度,Glazer推动Epoch AI 在5月17日(周六)和18日(周日)这两天,举办了这场线下会议。

在会上,数学家们将敲定最后一批最高阶的数学难题。

绞尽脑汁,誓要难倒AI

弗吉尼亚大学数学家、会议领导者兼评委Ken Ono将30名与会者分为六人一组。

在为期两天的会议中,这些顶尖学者需要相互比拼,看谁能设计出自己能解、却又能难倒 AI推理机器人的题目。

这个项目的奖励,也是十分诱人。

o4-mini每解不出一道题,该题的出题人便能获得7500美元的奖励。

结果谁都没想到,o4-mini给了数学家们致命一击!

在周六深夜,全场数学家,都感觉十分挫败——o4-mini出人意料的数学天赋,直接让整个小组的努力付诸东流。

Ono出了一道题,是他专业领域内的专家都公认的数论开放性问题,可以说是一道非常不错的考题,已经达到了博士生的水平。

他充满信心地把这道题给了o4-mini,结果在接下来的十分钟里,他直接遭受了暴击!

只见o4-mini如行云流水一般,实时演算出了完整的解法,还同步展示出了自己的推理过程。

它先花了两分钟,检索并吃透了相关领域的文献,然后在屏幕上写道,为了学习,它想先尝试一个简化的「玩具」版本。

几分钟后,它写道,自己已准备好解决那个更难的原题。

又过了五分钟,o4-mini 给出了一个正确却又俏皮得意的解答。

Ono描述道:它开始变得得意洋洋,甚至还加上一句,「无需引用,因为这个神秘数字由我算出!」

数学家大受打击:我以为AGI永远不会到来

大受打击的Ono在周日一大早就赶紧登上Signal,向所有与会者通报了情况。

我完全没料到,要跟这样的LLM交手,也从未在模型中见过如此强大的推理能力。这分明是科学家的工作方式。这太可怕了。

最终,团队还是成功找到了10道难倒机器人的题,但AI的惊人能力,仍然让所有研究人员惊叹不已。

Ono感觉,与它共事就好像与一位「强大的合作者」协作。

伦敦数学科学研究所的数学家、AI数学应用先驱之一的Yang Hui He说:「这是一个顶尖优秀的研究生才能做到的事——不,实际上它做得更多。」

而且,o4-mini的速度也令人惊异。它远远超越了专业的数学家,人类专家需要数周甚至数月才能完成的工作,它只需要几分钟。

不仅如此,这次o4-mini的进步,也给人类敲响了警钟。

Ono和He 都担心,o4-mini给出的结果可能会被人们过度信赖。

「证明方法有归纳法、反证法,现在又多了个恐吓法。」Yang Hui He 说。

「当某人用足够权威的口吻说话时,人们会感到敬畏。我认为o4-mini已经掌握了恐吓式证明的精髓,因为它说每句话时都带着不容置疑的自信。」

会议临近结束时,整个团队也开始思考,数学家的未来将何去何从。

讨论转向了那个无法回避的T5——那些连最顶尖的数学家也无法解决的问题。

如果最终,AI达到了那个层次,那么显然,数学家的角色将经历剧变。

到那时,数学家或许将转向只负责提出问题,并与推理机器人互动,引导它们发现新的数学真理,就像教授指导研究生一样。

因此,Ono预测,在高等教育中培养创造力,将是让数学这门学科薪火相传的关键。

「我一直告诉我的同事们,那种认为AGI永远不会到来,认为它不过是台计算机的想法,是大错特错的。」Ono说。

「我不想渲染恐慌,但在许多方面,这些LLM已经超越了我们世界上绝大多数最优秀的研究生。

陶哲轩:早就知道了

其实AI做数学研究的这种超绝能力,陶哲轩早就心知肚明了。

最近,他一直在社交平台上做出密集分享,给我们汇报AI解数学题的惊人进展。

比如就在几天前,他刚刚分享了这个消息。

0.000027——一个在显微镜下才分辨得出的跨度,却把加法组合学的天花板又往上顶了一寸。

论文地址:https://arxiv.org/abs/2506.01896

如此迅速、连续的取得进展,都离不开数学家与AI(AlphaEvolve)的相互配合。

这种突破让陶哲轩都惊叹:「对我而言,这是一个引人入胜的例证。」

陶哲轩认为,这展示了未来的数学研究中,高度计算机辅助、中度计算机辅助与传统「纸笔」方法之间将如何相互作用。

这些范式各有优劣。

例如,当前的AlphaEvolve还极难用上后续论文中使用的渐近构造;但另一方面,若没有AlphaEvolve的暴力搜索,人类方法也很难发现这些改进的切入点。

GitHub Copilot在帮助新手入门和处理基础任务时表现得相当不错。

它能帮助用户快速上手Lean语言,提供语法提示,并智能补全基本定义和声明。

在比较简单的证明,比如函数极限的和定理中,Copilot还能准确预测证明结构和关键步骤,表现得就像个得力助手一样。

但当证明变得复杂时,Copilot的短板就暴露出来了。

比如在处理函数极限的差和积定理时,它在复杂的代数推导、寻找合适的数学引理(比如与绝对值相关的引理)等方面显得力不从心。

Copilot有时还会出现「幻觉」,生成压根不存在的策略,或者犯一些低级错误,导致证明过程乱成一团。

这时,陶哲轩不得不亲自出马,修正错误,甚至完全接管证明。

但总之,现在LLM的发展,已经让我们愈发接近曾经陶哲轩的那个预言了——

在2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

参考资料:

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

相关内容

热门资讯

带学生斩获160多个大奖!这名... 在AI和机器人火热的当下 谁能想到 早在2005年 海宁就诞生了 第一批学校机器人社团 此后更是拿奖...
(经济观察)广东加速打造人工智... 广州6月7日电 (记者 孙秋霞)近年来,广东密集出台一系列支持人工智能与机器人产业创新发展的政策措施...
原创 人... 人形设计的核心必要性,环境适配性:人类社会的物理环境(如门把手、楼梯、工具)均以人体工程学为基础设计...
柬埔寨官员呼吁中国企业助力柬农... 金边6月7日电 (记者 杨强)由中柬两国企业合作建设的柬埔寨首个香蕉供应链气体负压催熟库当地时间6日...
格力电器获得发明专利授权:“换... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“换热...
武陟:梯度培育赋能企业“拔节生... 河南日报客户端记者 成安林 通讯员 成睿 6月6日,位于武陟经济技术开发区的焦作赛科中药生物科技有限...
准备干掉360整个市场部?周鸿... 每经AI快讯,6月6日晚间,360集团创始人、董事长周鸿祎在其个人微博账号发文称,“我准备干掉360...
“超越日本,中国首次跃居首位” 据《日本经济新闻》网站6月4日报道,中国在氢相关专利竞争力方面超越日本,首次跃居首位。中国企业主要在...
2025 年性价比超强的 6 ... 2025 年性价比超强的 6 款 512G 大内存手机:从地铁通勤到高原徒步,哪台是你的「搬砖神器」...
字节跳动CQC前掌门李彤离职,... 近日,字节跳动内部传出一则重要人事变动消息,其内容质量中心(Content Quality Cent...
电脑主机:数字世界的核心引擎 现代生活中,电脑已成为工作娱乐的重要工具。当我们注视显示器时,机箱里正进行着复杂的电子交响乐。这个方...
网络优化、智能屏蔽、应急保障…... 天津北方网讯:6月7日,2025年全国高考正式拉开帷幕。天津电信组建专业保障团队,通过网络优化、智能...
爱仕达获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示爱仕达(002403)新获得一项实用新型专利授权,专利名为“一...
大林橡胶取得一种振动筛料机构专... 金融界2025年6月7日消息,国家知识产权局信息显示,河南大林橡胶通信器材有限公司取得一项名为“一种...
卡奥斯等申请检修一体机专利,无... 金融界2025年6月7日消息,国家知识产权局信息显示,卡奥斯创智物联科技有限公司;佛山领智物联科技有...
三年、千亿陪伴新兴技术穿越产业... 当下,国内人工智能和机器人产业发展如火如荼,当各行各业开始千方百计拥抱人工智能和机器人产业之时,政府...
奥佳华获得发明专利授权:“颈背... 证券之星消息,根据天眼查APP数据显示奥佳华(002614)新获得一项发明专利授权,专利名为“颈背按...
上海淇玥信息技术申请去除内生性... 金融界2025年6月7日消息,国家知识产权局信息显示,上海淇玥信息技术有限公司申请一项名为“去除内生...
消息称苹果公司正扩大平台“游戏... IT之家 6 月 7 日消息,此前有许多消息显示苹果公司将在 WWDC25 中推出全新独立游戏应用,...
AI智能体未来之路:管控还是信... 在AI技术日新月异的当下,图灵奖得主、蒙特利尔大学教授Yoshua Bengio的声音尤为引人关注。...