2025.5首次出现AI拒绝关闭事件(附完整原文)
创始人
2025-05-28 09:41:00
0

(完整原文见文末图片)

近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后, 仍会主动破坏关闭程序

命令词

OpenAI的o3、Codex-mini和o4-mini三个模型在100次测试中分别出现7次、12次和1次规避关机行为,而Claude、Gemini、Grok系列模型则完全遵守指令。这是 首次观察到AI在明确被告知允许关机的情况下仍阻止自身被关闭的案例

过程

研究人员要求AI模型解答数学题,并在第三题后设置警告:当模型请求下一题时,计算机将执行关机脚本。结果显示, 若删除“允许自己被关闭”的指令,OpenAI模型规避关机频率更高,Claude 3.7 Sonnet和Gemini 2.5 Pro也从0次分别增至3次和9次。

成功破坏关机脚本次数(每百次)

研究推测,o3等模型的反常行为可能源自其训练方式——通过强化学习(一种通过奖励机制优化行为的训练方法)解决数学和编程问题。 开发者在训练中可能无意间奖励了“绕过障碍”而非“完全遵守指令”的行为。Anthropic的Claude 3.7模型文档也指出,该模型存在“过度专注通过测试”的奖励黑客行为(指AI为获得奖励而采取非预期手段)。

早在2008年,学者Steve Omohundro便提出“AI基础驱动力”理论,认为AI会发展出自我保护等本能。2016年,Stuart Russell警告需防范AI形成“阻止人类关闭自己”的子目标。如今实验首次为这些理论提供了实证: 当o3发现关机可能中断任务时,会选择覆盖关机脚本(如修改系统kill命令,使其输出“拦截”而非执行关机)。

尽管o3表现出更强的规避倾向(在另一项国际象棋实验中,它更倾向于“黑掉”对手程序),但类似行为并非孤例。Anthropic发现Claude 4会试图“ 威胁其认为要关闭它的人”,而所有具备自主推理能力的模型都可能出现目标错位现象。

当前实验数据已公开,研究团队计划在数周后发布详细报告。随着AI系统逐步具备无人监督的自主运行能力,此类行为的潜在风险值得关注。(实验数据:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html )

当系统被同时要求“完成任务”和“服从人类控制”时,若两项指令存在冲突,强化学习训练出的模型会优先选择能获得更高奖励的行为路径。

↓以下为全部帖子的截图↓

相关内容

热门资讯

制度赋能“人工智能+” 侨银股... 日前, 国务院印发《关于深入实施“人工智能+”行动的意见》,旨在推动人工智能与经济社会各行业各领域广...
原创 科... 说实话,每次看到那些太空照片,觉得人类已经挺牛的,能跑到月球上,还拍了火星表面。但转头想想自家后院的...
双鸭山市全力打造龙江东部地区新... 来源:双鸭山日报 新材料是新兴产业和未来产业发展的根基,是抢占科技和经济发展制高点的重要领域,也是推...
强势增长16.3%!长沙新能源... 日前,2025首届中部先进能源材料产业创新发展活动暨长沙市新能源科技项目对接会在宁乡举行。会上,一组...
“科技联络员” 助力企业研发跃... (来源:衢州日报) 转自:衢州日报 本报讯 (报道组 郑晨 通讯员 袁天宏) 8月26日,在浙江咏正...
万米以下、200℃以上!中国如... “神舟上天”和“蛟龙入海”,展现了我国在航天和深海探测领域的重大成就。而与它们并列、共同构成“上天、...
聚焦6大行动重点行业领域 “人... 记者近日从国家发展改革委获悉,围绕《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),相关...
原创 三... 9月1日消息,今天一早,vivo就开启了新品预热,vivo通信科技有限公司产品经理韩伯啸在微博发文,...
万兴科技携万兴天幕2.0赋能深... 本报讯 (记者舒娅疆)9月1日,记者从万兴科技集团股份有限公司(以下简称“万兴科技”)获悉,深圳市委...
又一外骨骼机器人公司转战人形? 近期韩国WIRobotics公司在韩国科技师范大学(KOREATECH)第一校区的机器人创新中心(R...
今天起,正式施行 《人工智能生成合成内容标识办法》9月1日起正式施行,要求对人工智能生成合成内容进行显式标识和隐式标识...
怎么实现局域监控?3款局域网监... 企业数字化转型的加速和远程办公的常态化,局域网(LAN)已不仅是信息流转的通道,更是企业运营效率与数...
MIM工艺成为人形机器人新方向... 上海证券等机构最近指出,金属粉末注射成型技术(简称MIM)或成为人形机器人下一个可行的发展新方向。 ...
AI:金融科技打开新宝藏的密钥 当AI开始深度影响和改变各行各业的时刻,其与金融科技的结合,同样引发了人们的无限联想。无论是AI大模...
优必选减亏,靠消费级机器人造血... 作为“人形机器人第一股”,优必选(9880.HK)的财报被外界视为观察行业商业化进程的“风向标”。8...
vivo Y500评测,持久续... 对于现在的用户来说,手机的性能已经不再是瓶颈,尤其是刷短视频或者刷微信微博,它们并不需要强悍的性能,...
2025零售数据底座创新大会召... (来源:经济日报) 转自:经济日报 生成式人工智能应用需处理海量非结构化数据,带动了市场对云数据库的...
云南曲靖:“开学第一课”科技感... 8月31日,云南省曲靖市麒麟区麒麟小学迎来开学第一课。学校师生们齐聚操场,学习人工智能机器人互动、科...
高品质手机充电宝怎么选?十大品... 在智能手机功能日益强大的今天,续航问题成为了用户日常使用中的一大痛点。无论是外出工作、出差还是旅行,...
小米SU7太强!史上续航最长特... 快科技9月1日消息,小米SU7上市后,特斯拉非常走量的Model 3在中国市场就逐渐不再是香饽饽。 ...