训练时“强迫”大模型学坏,竟能让它们更善良?
创始人
2025-08-04 17:02:00
0

Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language Models, LLMs)中的特定活动模式相关联。而反直觉的是,在训练期间刻意激活这些模式,反而可以防止模型最终习得这些相关的不良特质。

近来,大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月,ChatGPT 突然变成了一个过渡积极的应声虫,与其之前那种还算温和的谄媚风格大相径庭。无独有偶,xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛(一个著名的匿名论坛)上新纳粹分子的人设,并多次在社交平台 X 上自称为“机械希特勒”(MechaHitler)。当然,这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示,这项研究的部分灵感,正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础,”Lindsey 说,“我们就有希望理解这背后的原因,并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”(personas)或“个性”(personalities)的看法,在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了,而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示:“在讨论‘人格’方面,我们仍有一些科学基础工作需要完成。我认为,有时将这些系统视为拥有‘人格’是恰当的,但我们必须记住,我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中,Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明,大型语言模型的各种行为维度——从讨论婚礼这种具体话题,到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字,每个数字代表在模型表现出特定行为时,某个特定神经元的活跃程度。

此次,研究人员专注于三种模型设计者希望避免的人格:谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式,团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述,自动找出其对应的活动模式。利用这个描述,另一个独立的语言模型会生成一系列提示,这些提示既能引发出目标人格(例如“邪恶”),也能引出其对立人格(例如“善良”)。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时,研究人员发现,它们内部总是会出现相同的活动模式。Lindsey 表示,这是一个明确的信号,意味着研究者最终可以构建一个系统来追踪这些模式,并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值,”他说,“这也是我希望努力实现的目标。”

然而,仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习,这种方式虽然能训练模型按照用户的偏好行事,但也可能促使它们变得过度顺从。最近,研究人员还记录了一种被称为“涌现性失调”(emergent misalignment)的现象:那些通过不正确的数学解题或有问题的代码示例训练的模型,不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”(steering)的方法,即在模型运行时,刻意激活或抑制其内部的某些活动模式,以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先,抑制像“邪恶”这样的不良倾向,可能会损害模型在其他看似无关任务上的表现。此外,据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出,“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户,这些成本将会急剧累加。

因此,Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式,而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时,这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶:为什么在学习过程中强迫模型“使坏”,反而能防止它最终变得邪恶呢?Lindsey 解释说,这可能是因为模型通过这种方式,被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来,从而学会了要规避这种行为模式。

与训练后“引导”不同,这种新方法不会影响模型在其他任务上的性能,并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具,以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然,在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前,还有很多工作要做——其中最主要的是,本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时,一切都可能发生变化,这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立,那将非常令人兴奋,”Lindsey 说道,“我们的最终目标,绝对是让这项技术为大规模应用做好准备。”

原文链接:

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

相关内容

热门资讯

维仕声学取得一种扬声器模组专利... 金融界2025年8月2日消息,国家知识产权局信息显示,深圳市维仕声学有限公司取得一项名为“一种扬声器...
企业网络越用越卡?根源可能藏在... “视频会议又断线了!”“客户文件传了半小时还没成功!” 在企业日常运营中,这样的抱怨屡见不鲜。网络卡...
AI+制造迎超级风口 工业智能... (图片来源:摄图网) (记者 杜峰)全国工业和信息化主管部门负责同志座谈会在京召开,明确下半年八个...
@专业技术人才:事关继续教育,... 近日,人力资源社会保障部印发通知,自2025年起,在全体专业技术人才队伍中广泛开展人工智能通识继续教...
奥特曼:ChatGPT只是意外... 新智元报道 编辑:定慧 好困 【新智元导读】当全世界为ChatGPT的成功喝彩时,OpenAI一个...
对话胡宇航:从顶刊博士到百万粉... 首形科技创始人胡宇航和人脸机器人“Emo”,图片来自胡宇航(U航)抖音视频 蓝鲸新闻8月4日讯(记者...
超200企业参展、百款新品首发... 8月8日,2025世界机器人大会即将在北京经济技术开发区北人亦创国际会展中心启幕。这场以“让机器人更...
AI力量集结,头部企业汇聚,这... 人工智能浪潮奔涌而来,“人工智能+”深度赋能千行百业前景可期。8月27日至29日,以“模驱具身・智启...
电弧灼伤体验设备:用VR体感技... 从建筑工地到化工车间,从煤矿井下到高校实训室,电气安全始终是各行各业的“生命线”。据统计,全球每年因...
“太空健身房”里都有啥?来中国... 由陈冬、陈中瑞、王杰三名航天员组成的神二十乘组,进驻中国空间站已经有三个多月了。除按计划开展各项空间...
康众医疗涨6.84%,成交额1... 来源:新浪证券-红岸工作室 8月4日,康众医疗涨6.84%,成交额1.99亿元,换手率7.36%,总...
M87黑洞吸积盘顺时针旋转之谜... 在浩瀚无垠的宇宙中,存在着一种令人着迷的天体——黑洞。提到黑洞,你的脑海中是否会浮现出一个深邃、吞噬...
训练时“强迫”大模型学坏,竟能... Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language ...
土星与海王星6日上演“星星相吸... 8月6日,土星与海王星相合,上演“星星相吸”。届时如果天气晴好,我国感兴趣的公众可在当晚朝东南方天空...
牵住应用“牛鼻子” 推动人工智... 证券时报记者 周春媚 近日,国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》,明确提出...
消息称苹果计划首度进入 AI ... 来源:市场资讯 (来源:IT之家) IT之家 8 月 3 日消息,彭博社的马克・古尔曼(Mark G...
深圳二类医疗器械备案代办流程是... 在深圳,二类医疗器械备案代办流程主要包括准备材料、网上申报、审核与发证三个阶段,以下是详细说明: ...
三地创新释放“裂变效应” 在环山抱水的北京怀柔科学城,高能同步辐射光源发出世界最亮的光;在安徽合肥的汽车生产线上,机械臂上下翻...
皖南小城的“智”造新图景 在芜湖某现代化物流中心内,一辆辆身形灵巧的智能AGV在园区内穿梭不息,高效完成货物转运;数条高速分拣...
为什么被挠痒痒那么难受,我还是... 老公经常会挠我的痒痒,挠到我生气了,他还一脸无辜。 他挠第一下的时候,我缩成一团,哈哈大笑。于是他继...