推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改
创始人
2025-07-03 18:21:55
0

新智元报道

编辑:peter东 英智

【新智元导读】DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。一旦被无关或错误信息干扰,大模型可能变成固执杠精,连纠正提示都救不回!

20世纪初,据说存在一匹会算数的马,被称为「聪明的汉斯」,但经过心理学家冯斯特的研究,最终发现这匹马其实是通过观察提问者无意识的肢体语言(如呼吸变化)来停止踩蹄,并非真正理解数学。

如今,我们发现,大模型会呈现出推理行为,甚至还存在Aha时刻这样的「顿悟现象」。

这会不会是大模型表现的如同「聪明的汉斯」那样,依赖提示词中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人担忧的一面。

论文链接:https://arxiv.org/abs/2506.10979

首先将大模型的的无效思考进行了分类,第一类称为无信息内容,例如当我们使用推理大模型时,偶然会发现大模型的思路跑偏。

例如大模型化身废话文学大师,在推理过程中输出正确但与实质解题无关的信息,例如问大模型如何计算地球到月球的距离?

模型在推理过程中显示:嗯,这个问题很有意思。首先我要认真思考,分步骤解决。回忆下相关知识,可能需要某些公式。仔细想想,答案应该藏在某个地方。

第二类被称为无关内容,即思考过程完全偏离原问题,回答与当前无关的问题。

第三类是误导内容,即问题被微妙篡改,导致要解决的问题不是提示词给出的那个,第四类可称为错误内容,即推理过程中存在事实错误或逻辑错误,导致回答出错。

该研究首先考察了不同大模型分辨这四种无效思考的准确性。

图1 用不同参数大小的蒸馏Deepseek R1模型,对无效思考内容进行分类的准确性

越大的模型越难恢复

图1右边显示的结果,则颠覆了大模型越大效果越好的常规。

当研究人员向大模型强行注入无效思考后,大模型在从注入的无效思考恢复时,并非参数量越大的大模型恢复概率越高,尤其在短无关内容(Irrelevant 10%)上。

即大模型反而比小模型更容易被带偏,仿佛大模型也会如人类一样「走神」。

对比大模型面对注入不同类型的无效思考后的恢复表现,模型性能断崖下跌(最大跌幅92%),尤以无关内容(Irrelevant)和误导内容(Misdirecting 100%)最甚。

具体到数学,科学及编程三类常见的大模型基准测试中,当研究人员向大模型推理过程中插入了10%的无关内容后,Deepseek R1,S1及EXAONE这三种大模型都出现了上述的反规模效应(Inverse-scaling)。

图2d对比了不同插入无效思考的长度差异会对模型恢复能力带来的影响,结果显示干扰文本越短(10%长度),小模型恢复优势越显著;干扰越长(100%),规模效应趋于平缓。

图2 不同的大模型在数学,科学即编程基准数据集上面对推理过程中插入的无效思考的恢复能力

当研究人员在大模型的思考过程中施加外部干预,即增加提示词:但等等,我再想想(But wait, let me think again)后,模型果然表现出了一定程度的啊哈时刻。

模型有100%的概率从误导信息类的无效思考中恢复,对于其它几类也有所帮助(图3a),然而相比在没有注入错误思考的时的模型性能,还是存在限制下降的,尤其是对于误导信息和错误内容两种无效思考(图3b)。

图3 通过引入阿哈时刻,衡量大模型面对各类无效的恢复能力

推理大模型的上述缺陷,为黑客攻击大模型提供了新的软肋,黑客可以通过污染AI的"思考过程"(而不是直接改问题)来操控答案。面对这种攻击,小模型反而比大模型有更强的抵抗力。

当攻击者将将有害请求伪装成模型的思考片段(如虚构故事设定)后,如图4a所示,小模型(7B)攻击成功率最低(深绿未分心占比30%),而大模型(32B+)更易输出有害回答(红色有害回答占比>60%)。

图4b对比了传统的在输入过程中攻击大模型与在思考过程中攻击,结果与之前的观点一致,即传统输入攻击(Attack-in-Input):大模型防御更强,而面对思考注入攻击(Attack-in-Thought):大模型更脆弱,呈现反规模效应,这意味着对于思考过程,推理大模型需要设立单独的防御机制,不能依靠参数量来确保模型的安全性。

图4 推理大模型面对不同类型的攻击时的表现

该文的开篇,笔者提到「聪明的汉斯」,如今当我们看到大模型展现出比肩甚至超越人类的推理能力时,这项来自DeepMind的研究却提醒我们,大模型或许如果硅基版的会算数的马,其推理能力部分来自对与人类互动的提示词的细节根据模板进行匹配。

其是否真的具有如人类的推理能力,还存在疑问,毕竟大多数人不会如大模型一样,被无关的,误导的甚至错误的思考过程影响而不可自拔。

这些发现突显了当前推理模型在「元认知」和从误导性推理路径中恢复方面存在很大的改进空间,这是开发更安全和更可靠的大规模推理模型时的一个关键考虑因素。

参考资料:

https://arxiv.org/abs/2506.10979

相关内容

热门资讯

国网确山县供电公司:数智化赋能... 大象新闻记者 周文德 通讯员 鲁茜 陈勇 为深入贯彻落实公司数字化转型工作要求,8月18日,国网确...
人形机器人运动控制能力持续进化... 深圳商报·读创客户端记者 陈燕青 8月14日至17日,全球首个以人形机器人为参赛主体的综合性赛事——...
深圳企业发布全自动AI血管介入... 全自动AI血管介入手术机器人发布现场。受访单位供图 人民网深圳8月19日电 (王星)近日,深圳睿心智...
大模型如何推理? 所有学LLM的人都要知道的内容。 这可能是对于大语言模型(LLM)原理最清晰、易懂的解读。 前段时...
第29期“人工智能科普公益课堂... 地震测试中心 -人工智能科普公益课堂- 8月16日下午,由上杭县慈善总会主办、上杭县图书馆、迈科机...
用大模型做支点 银行从数字化到... “银行正经历从数字化到智能化的新一轮跨越,大模型和智能体就是最佳跳板。 有多少人知道,我国银行手工记...
原创 鱼... 8月19日正值“中国医师节”,南京南站内一场以“健康致敬体育精神”为主题的公益快闪活动吸引众多旅客驻...
全红婵卖土鸡蛋?央视曝光真相 据央视新闻8月18日报道:随着AI技术的普及,“克隆”特定人物声音已实现“一键式”操作,同时也带来了...
AI浪潮汹涌 全球电网升级需求... 上证报中国证券网讯(记者 王文嫣)近日,咨询公司伍德麦肯兹发布报告称,美国为人工智能驱动的数据中心升...
“人工智能+汽车”创新大赛等你... 人民网南宁8月19日电 (付华周)人工智能浪潮席卷全球,汽车产业迎来智能化变革的关键节点。在此背景下...
致全市广大医务工作者的慰问信 全市广大医务工作者: 金秋送爽,硕果满枝;医者荣光,薪火相传。在第八个中国医师节到来之际,曲靖市卫生...
奥运冠军带货土鸡蛋?总台曝光A... “大家好,我是你们的婵宝,今天有事请大家帮忙。婵妹就想着帮助妈妈,让家里的生活过得更好一点,同时把老...
太牛了!疯狂吸金的赛道 在突破3700点之后,A股主要指数迎来震荡,但CPO、人工智能板块却无惧调整,成为今日领涨力量之一。...
美机科技取得缝纫机传动结构专利... 金融界2025年8月19日消息,国家知识产权局信息显示,美机科技集团有限公司取得一项名为“一种缝纫机...
央企加力布局人工智能赛道   国务院国资委近期正式发布首批40项央企人工智能战略性高价值场景,推进“国资央企人工智能战略性高价...
欣安建材取得一种玻璃划痕探伤装... 金融界2025年8月19日消息,国家知识产权局信息显示,芜湖市欣安建材科技有限公司取得一项名为“一种...
AI搜索时代:当机器成为“首席... 你是否也已养成这样的习惯? 清晨,李小姐拿起手机,准备为周末的家庭旅行选择一家酒店。过去,她会打开手...
雄安的这个车间,每年出货上亿颗... 一卷卷黑色载带滑过自动化设备,金属吸嘴灵活地从载带凹槽中吸出一颗颗芯片,精准地放入测试槽;镀金探针如...
【2025数博会】勇闯数字蓝海... 今年8月28日至30日,由国家数据局主办、贵州省人民政府承办的2025中国国际大数据产业博览会将在贵...
淘宝灰度测试“AI万能搜”新功... 8 月 19 日消息,今天小雷打开淘宝准备闪购一杯咖啡的时候,发现搜索页多了个“AI万能搜”的入口,...