谷歌DeepMind研发AI数学大模型,一口气做对25道奥数难题
创始人
2024-01-18 23:03:44
0

原标题:谷歌DeepMind研发AI数学大模型,一口气做对25道奥数难题

谷歌 DeepMind 创建了一个可以解决复杂几何问题的人工智能系统。专家表示,这是机器朝着拥有更像人类的推理技能迈出的重要一步。

很长一段时间以来,几何和其他数学问题都是人工智能研究人员试图攻克的挑战。

该研究的合著者 Thang Wang 表示,与基于文本的人工智能模型相比,数学的训练数据要少得多,因为它主要由符号构成,而且是特定领域的。该研究的相关论文近日发表在 Nature 杂志上。

(来源:Nature)

解决数学问题需要逻辑推理,而目前大多数人工智能模型都不擅长逻辑推理。Wang 说,数学是衡量人工智能进步的重要基准,本质上就是解决数学问题离不开推理能力。

DeepMind 开发的人工智能模型名为 AlphaGeometry。它将一种语言模型与一种名为符号引擎(symbolic engine)的人工智能相结合,后者使用符号和逻辑规则进行推理。

(来源:Nature)

语言模型擅长识别模式和预测(解题)过程中的后续步骤。然而,它们的推理缺乏解决数学问题所需的严谨性。

另一方面,符号引擎纯粹基于形式逻辑(formal logic)和严格的规则,这使它能够引导语言模型做出合理的决策。

这两种模型分别负责创造性思维和逻辑推理,再联合起来共同解决数学难题。这与人类处理几何问题的方式非常相似:将现有的理解与探索性实验相结合。

DeepMind 表示,它用 30 道几何题测试了 AlphaGeometry,其难度与国际数学奥林匹克竞赛的难度相同。

它在时限内解决了 25 道题。在此之前,最先进的系统是由中国数学家吴文俊在 1978 年开发的,只能完成 10 道。

“这是一个非常令人印象深刻的结果。”德国波恩大学数学教授弗洛瑞思·范·多恩(Floris van Doorn)说,他没有参与这项研究。“我原以为这还需要几年时间。”

DeepMind 表示,该系统展示了人工智能推理和发现新数学知识的能力。

谷歌 DeepMind 的科学家、该研究的作者之一黎曰国(Lê Viết Quốc)在新闻发布会上表示:“这是另一个例子,凸显了人工智能如何帮助我们推动科学(发展),帮助我们更好地理解决定世界如何运作的基本过程。”

当遇到几何问题时,AlphaGeometry 会首先尝试使用其符号引擎从逻辑的角度生成证明。如果仅使用符号引擎无法做到这一点,则语言模型会在图中添加一个新的点或线。

这为符号引擎继续寻找证明开辟了更多的可能性。这个过程会不断重复,语言模型添加新的元素,符号引擎测试新的证明策略,直到找到可验证的解决方案。

为了训练 AlphaGeometry 的语言模型,研究人员必须创建自己的训练数据,以弥补现有几何数据的不足。他们生成了近 5 亿张随机几何图,并将其提供给符号引擎。

该引擎分析了每张图,并生成了关于其属性的语句。这些陈述被整理成 1 亿份证明来训练语言模型。

(来源:AI 生成)

美国路易斯维尔大学计算机科学与工程副教授罗曼·雅波斯基(Roman Yampolskiy)表示,AlphaGeometry 的能力显示出机器在“更复杂、类人的问题解决技能”方面的重大进步。他没有参与这项研究。

雅波斯基在电子邮件中说:“除了数学,它的影响还涉及到依赖几何解决问题的领域,如计算机视觉、建筑,甚至是理论物理学。”

不过,AlphaGeometry 还有改进的余地。虽然它可以解决“初级”数学问题,但它仍然无法解决大学里教授的高级抽象问题。

范·多恩说:“如果人工智能能够解决研究数学中提出的问题,或许可以发现新的数学见解,数学家们会对它非常感兴趣。”

Wang 说,其目标是将类似的方法应用于更广泛的数学领域。他说:“几何只是我们证明人工智能能够进行深度推理的一个例子。”

参考资料:

Trinh, T.H., Wu, Y., Le, Q.V.et al. Solving olympiad geometry without human demonstrations. Nature 625, 476–482 (2024). https://doi.org/10.1038/s41586-023-06747-5

支持:Ren

运营/排版:何晨龙

相关内容

热门资讯

上海劲为精密机械取得差速器三坐... 金融界2025年6月7日消息,国家知识产权局信息显示,上海劲为精密机械有限公司取得一项名为“一种差速...
六大国产大模型高考作文实测:讯... 2025年高考全国一卷作文题引热议!题目以老舍的“开不了口”、艾青的“嘶哑歌唱”、穆旦的“带血拥抱”...
哈佛团队发现多巴胺能神经元新机... “大自然用了亿万年优化的神经算法,或许正是突破当前人工智能瓶颈的钥匙。[1]”近日,美国哈佛大学团队...
“希望我哥哥考全班第一!”7岁... 6月8日,高考进入第二天,重庆市21.6万考生继续奔赴考场,为梦想而奋斗。考场内,考生奋笔疾书;考场...
世佳电工取得数控龙门横梁支架专... 金融界2025年6月7日消息,国家知识产权局信息显示,合肥世佳电工设备有限公司取得一项名为“数控龙门...
原创 机... 机器人对人类收入的影响呈现复杂的技术替代与产业升级双重效应,需结合具体行业和技术发展阶段综合分析:传...
机科发展申请皮革多项目测试系统... 金融界2025年6月7日消息,国家知识产权局信息显示,机科发展科技股份有限公司申请一项名为“一种皮革...
南洋木工机械取得边皮卧式带锯机... 金融界2025年6月7日消息,国家知识产权局信息显示,杭州临安南洋木工机械有限公司取得一项名为“一种...
订单排到2027年了!它,全球... 今年以来,我国中小企业产销持续改善,创新活力竞相迸发,回升向好势头进一步巩固,为工业经济稳增长提供了...
数码简史:解码现代人不可或缺的... 当清晨的阳光穿透窗帘,智能音箱自动播放晨间新闻;通勤路上蓝牙耳机传来清澈音质;咖啡厅里平板电脑正同步...
泰全工业取得转子磁片植入装置专... 金融界2025年6月7日消息,国家知识产权局信息显示,福州泰全工业有限公司取得一项名为“一种转子磁片...
国际首支! 中国散裂中子源研制... 中新网北京6月8日电 (记者 孙自法)中国科学院高能物理研究所(高能所)6月8日向媒体发布消息说,该...
CAR-T疗法显著提升晚期胃癌... 新华社北京6月7日电(记者胡丹丹)中国研究人员近日在英国《柳叶刀》杂志上发布的一项Ⅱ期临床研究显示,...
AI驱动叉车行业扩容 产业链公... 本报记者 徐一鸣 AI技术正加速渗透到各个行业。其中,AI加速驱动叉车技术发展,产业链多家上市公司积...
原创 不... 对于如今的手机市场而言,“无趣”、“缺乏新意”或许是比较常见的抱怨。 一方面,与十年前、二十年前的市...
远大铝业:研发国内首条集成线破... 【沈阳远大铝业研发国内首条超大单元幕墙集成线,引领行业变革】近日,沈阳远大铝业工程有限公司在超大单元...
百度升级高考服务,接入多款大模... 经观新科技 经济观察网讯6月6日,高考在即,百度搜索启动今年的高考服务。只需在百度App输入“高考...
全国爱眼日,天马在行动:五大维... 数字时代,智能显示设备深度嵌入大众生活,成为不可或缺的“体外器官”。据Ipsos调研数据,2024年...
真·元素周期表!海洋里藏着哪些... 在海洋形成的绵长岁月里,地壳和地球内部大量的可溶性物质逐渐溶解在了海水中,这让海水成了一个取之不尽,...
电子文明的三重密码:解码人类数... 当我们用指纹解锁手机时,指纹模组正在比对 0.03 毫米深的沟壑;点击发送消息的瞬间,电磁波正以光速...