UC伯克利:让推理模型少思考,准确率反而更高了!
创始人
2025-04-18 10:01:02
0

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

让推理模型 不要思考,得到的结果反而更准确

UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。

例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。

特别是施加Token限制之后,“不思考”模式的效果变得更加明显。

这究竟是怎么一回事呢?来看下UC伯克利发表的论文。

跳过思考,推理模型反而更强了

论文的研究目的,是比较显式思考过程(Thinking)和跳过思考过程(NoThinking)的效果差异,并在不同约束条件下评估这两种方法的表现。

研究使用 DeepSeek-R1-Distill-Qwen-32B作为主要实验模型,该模型通过在Qwen-32B基础上使用DeepSeek-R1生成的数据进行蒸馏得到。

为了确保结果的可靠性,研究同时选择了Qwen-32B-Instruct作为基线模型,并在7B和14B规模的相同架构模型上进行了验证实验。

在数据集的选择上,研究力求全面覆盖不同类型的推理任务:

  • 在数学问题方面,既包含了AIME 2024、AIME 2025、AMC 2023等标准难度的测试集,也包含了更具挑战性的OlympiadBench数学子集;

  • 在编程能力评估方面,使用了持续更新的LiveCodeBench v2版本;

  • 在定理证明领域,则通过MiniF2F测试形式化数学推理能力,通过ProofNet评估逻辑和定理证明能力。

实验首先进行了基础性能评估,也就是在不限制token的情况下比较三种方法的表现。研究团队详细记录了每种方法在不同k值下的pass@k性能表现和token使用量。

结果显示, 在无预算限制的情况下,NoThinking在定理证明任务上能够以30%的token用量达到与Thinking相似的性能,两种方法都明显优于基线模型。

在其他任务上,虽然NoThinking的初始pass@1性能较低,但随着k值增加会逐渐追平Thinking的表现,同时token使用量减少

随后,实验 引入了预算强制,通过设置token限制来进行对照实验

具体来说,当模型达到预设的token预算时,系统会强制其生成最终答案,如果此时模型仍在思考框内,则会在最终答案标签前添加结束思考标记。

研究分别在低预算 (约3000tokens以下)和高预算 (约3500tokens)两种场景下进行了详细测试。

在预算受限的场景下,NoThinking在低预算情况下 (<3000 tokens)完全优于Thinking,这种优势会随着k值的增加而扩大。

在高预算场景下 (~3500 tokens),尽管Thinking在pass@1上略有优势,NoThinking从k=2开始就展现出更好的性能。

并行扩展测试中,研究根据任务特性采用了不同的评估方法。

对于有完美验证器的任务 (如形式定理证明),可以直接使用验证器选择最佳答案,并详细记录延迟和token使用量;

对于没有验证器的任务,研究实现了多数投票机制和基于置信度的选择策略,通过实验比较了不同选择策略的效果。

对于具有验证器的任务, NoThinking可以在将延迟降低至1/7、token使用量减少至1/4的同时,保持与传统方法相似的准确率

在没有验证器的任务中,比如AMC 2023和OlympiadBench,NoThinking甚至超越了完整版Thinking的表现,同时可将延迟降低至1/9。

为了避免实验结果受到数据污染的影响,研究团队专门使用了新发布的AIME 2025数据集进行验证。

结果作者发现。相同的性能模式在新旧数据集上都能稳定重现,这证实了研究发现反映了模型的真实行为特征。

大模型“思考过程”引热议

Hacker News上,有人表示这项研究让其对大模型的思考有了新的认识:

过去我认为大模型“思考”很有用,是因为它可以把更多的概念带到上下文当中,但现在看似乎不是?

还有人想到了Claude厂商Anthropic前些天发表的报告,其中指出大模型输出的“思考过程”不一定代表其真实想法。

这份报告的实验发现,Claude 3.7 Sonnet仅在25%的情况下在其思维链中提及收到的提示信息,DeepSeek R1则为39%,意味着大多数情况下模型不会忠实反映其真实决策过程。

Anthropic的这份报告,引起了针对大模型“思考过程”的热烈讨论。

有人表示,思维链有效的关键是产生了更多用于“思考”的计算,但如果用它来展示模型工作过程,那只不过是额外的上下文。

但也有人认为Anthropic的研究并没有切中问题要害,因为模型的训练过程就是为了获得正确答案而优化,不能指望这样的训练方式能够让模型准确说出推理过程。

作者简介

本论文第一作者是UC伯克利博士生 马文洁,导师是 Matei Zaharia副教授和 Sewon Min助理教授研究重点是理解和提升语言模型的推理能力,以及测试时计算。

马文洁本科毕业于南京大学计算机学院,期间曾参加该学院的PASCAL (编程语言与统计分析)研究组。

另一名华人作者 何静轩,目前在UC伯克利从事博士后研究,研究兴趣为机器学习和计算机安全,合作导师是宋晓冬 (Dawn Song)教授。

何静轩博士和本科分别毕业于苏黎世联邦理工学院和浙江大学。

另外,UC伯克利博士生 Charlie SnellTyler Griggs,以及一作马文洁的两名导师也参与了此项研究。

论文地址:

https://arxiv.org/abs/2504.09858

参考链接:

[1]https://www.anthropic.com/research/reasoning-models-dont-say-think

相关内容

热门资讯

2025 年人机合作模式的演变 人工智能的世界既充满兴奋也伴随着恐惧。创新的快速步伐让一些人思考潜在机会,而另一些人则担忧会因自动化...
潍柴雷沃取得自平衡清选筛和收获... 金融界2025年5月13日消息,国家知识产权局信息显示,潍柴雷沃智慧农业科技股份有限公司取得一项名为...
水务动态 丨于桥中心强化科技引... 于桥水库作为天津市重要水源地,水资源的生态安全关乎城市供水的稳定与可持续发展。于桥中心通过创新技术应...
黄仁勋宣布签下沙特AI芯片大单... 财联社5月13日讯(编辑 史正丞)当地时间周二,英伟达CEO黄仁勋在沙特利雅得宣布,与沙特主权财富基...
移为通信跌1.33%,成交额1... 5月13日,移为通信跌1.33%,成交额1.11亿元,换手率2.47%,总市值57.81亿元。 异动...
浙江省哈工大校友会双创赛举办 ... 中新网浙江新闻5月12日电(蓝伊旎 杨旭)近日,中国高校浙江校友会联盟创新创业大赛—浙江省哈尔滨工业...
辐射防护科普知识20问 “辐射”是指能量以波或粒子的形式在空间传播的现象,广泛存在于自然和人工环境中。 辐射是双刃剑,合理利...
成都又一研发中心即将竣工,预计... 5月13日,红星新闻记者获悉,位于成都大邑的瑞星久宇燃气设备(成都)有限公司新研发中心已进入气压检测...
TikTok 公会申请入驻全流... 在全球短视频与直播领域,TikTok 无疑占据着举足轻重的地位。对于想要在这一领域拓展业务、挖掘潜力...
睿创微纳跌1.51%,成交额2... 5月13日,睿创微纳跌1.51%,成交额2.69亿元,换手率1.00%,总市值267.86亿元。 异...
70元炒到3000多元,过期胶... 中新网北京5月13日电(记者 谢艺观)一拉、一撕,就能获得明星同款照片,你心动了吗? 近年来,一种复...
述评:香港科创为由治及兴添能蓄... 新华社香港5月12日电 题:香港科创为由治及兴添能蓄势 新华社记者 推出“科企专线”、引进多家重点科...
山东省重大科技创新工程落地青岛... 5月9日,胡姬花全球花生产业研究院继种质资源、食品安全等科研课题的成功落地后,再次启动又一重磅科研项...
上海点亮AI“北斗七星” 群星... 人工智能作为国家战略级重点发展领域,正在以惊人的速度自我迭代,更推动了千行百业转型升级。 作为上海建...
新沂农商银行书写农村金融新篇章 江南时报讯 新沂农商银行以“科技赋能+特色金融”双轮驱动,通过智慧运营平台上线、数字化场景拓展、零售...
汇通建设申请深基坑稳定性监测专... 金融界 2025 年 5 月 13 日消息,国家知识产权局信息显示,汇通建设集团股份有限公司;河北交...
婚神星15日冲日,观测“第3号... 新华社天津5月13日电(记者周润健)继灶神星于本月2日冲日后,婚神星也将于本月15日迎来冲日。这颗以...
原创 6... 鸽了一个月,魅族Note 16系列终于带着它的国补价和职业补贴来砸场子了! 看完价格表,小M直接瞳孔...
凭意念就能灵活移动赛车!首例前... 澎湃新闻报道,5月8日,上海阶梯医疗科技有限公司的科学家们在媒体沟通会上展示了一段影音,其中一名受试...
小玻璃瓶背后的“大智慧” 5月11日,记者走进位于沧州高新区的沧州四星玻璃股份有限公司生产车间看到,自动化制瓶生产线上,一支支...