2025.5首次出现AI拒绝关闭事件(附完整原文)
创始人
2025-05-28 09:41:00
0

(完整原文见文末图片)

近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后, 仍会主动破坏关闭程序

命令词

OpenAI的o3、Codex-mini和o4-mini三个模型在100次测试中分别出现7次、12次和1次规避关机行为,而Claude、Gemini、Grok系列模型则完全遵守指令。这是 首次观察到AI在明确被告知允许关机的情况下仍阻止自身被关闭的案例

过程

研究人员要求AI模型解答数学题,并在第三题后设置警告:当模型请求下一题时,计算机将执行关机脚本。结果显示, 若删除“允许自己被关闭”的指令,OpenAI模型规避关机频率更高,Claude 3.7 Sonnet和Gemini 2.5 Pro也从0次分别增至3次和9次。

成功破坏关机脚本次数(每百次)

研究推测,o3等模型的反常行为可能源自其训练方式——通过强化学习(一种通过奖励机制优化行为的训练方法)解决数学和编程问题。 开发者在训练中可能无意间奖励了“绕过障碍”而非“完全遵守指令”的行为。Anthropic的Claude 3.7模型文档也指出,该模型存在“过度专注通过测试”的奖励黑客行为(指AI为获得奖励而采取非预期手段)。

早在2008年,学者Steve Omohundro便提出“AI基础驱动力”理论,认为AI会发展出自我保护等本能。2016年,Stuart Russell警告需防范AI形成“阻止人类关闭自己”的子目标。如今实验首次为这些理论提供了实证: 当o3发现关机可能中断任务时,会选择覆盖关机脚本(如修改系统kill命令,使其输出“拦截”而非执行关机)。

尽管o3表现出更强的规避倾向(在另一项国际象棋实验中,它更倾向于“黑掉”对手程序),但类似行为并非孤例。Anthropic发现Claude 4会试图“ 威胁其认为要关闭它的人”,而所有具备自主推理能力的模型都可能出现目标错位现象。

当前实验数据已公开,研究团队计划在数周后发布详细报告。随着AI系统逐步具备无人监督的自主运行能力,此类行为的潜在风险值得关注。(实验数据:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html )

当系统被同时要求“完成任务”和“服从人类控制”时,若两项指令存在冲突,强化学习训练出的模型会优先选择能获得更高奖励的行为路径。

↓以下为全部帖子的截图↓

相关内容

热门资讯

科技前沿 | 脑机接口“沪”动... 从科幻电影里的“意念控物”,到实验室里的精密电极,脑机接口(BCI)这门曾只存在于想象中的技术,正悄...
“空中造楼机”助建筑安全“长高... “造楼机顶升作业安全验收已完成,准许顶升!”近日,在深圳湾超级总部基地C塔项目(以下简称“C塔项目”...
Apple Watch卡路里估... 【环球网科技综合报道】据外媒6月6日消息,一项由密西西比大学研究人员进行的新研究显示,尽管Apple...
本川智能:乘5G-A建设东风,... 在通信技术飞速发展的当下,5G-A(5G-Advanced)作为5G向6G演进的关键过渡技术,正引领...
苏州佳电取得永磁体安装结构专利... 金融界2025年6月6日消息,国家知识产权局信息显示,苏州佳电永磁电机科技有限公司取得一项名为“一种...
锁定台"资通电军&q... 中国日报6月5日电(记者 赵磊)6月5日,国家计算机病毒应急处理中心和360数字安全集团联合发布《台...
车企转向,开始向自己下狠手了 文 | 螺旋实验室,作者丨追命,编辑丨坚果 诚然,规模化和盈利线确实是压在车企面前的“两座大山”,...
固态电池量产路漫漫,车企电池商... 在新能源汽车领域,固态电池技术正成为各大厂商竞相追逐的热点。奔驰、宁德时代、国轩高科等企业纷纷涉足固...
成都世运会签约首批科技合作伙伴 6月5日,“科创天府·智汇蓉城”科技赋能世运场景供需对接活动举行。活动紧扣“为产品找场景、为场景找产...
保定市莲池区:赋能企业“一站式... 近日,河北保定莲池区企业服务中心以“联e企”服务品牌为核心,打造“联e惠”“联e安”“联e通”“联e...
FPGA创新40周年:可编程硬... 从概念到现实:FPGA的40年创新之路 1985年,当赛灵思公司推出全球首款商用FPGA芯片XC2...
2025低空智联网环境下的安全... 今日分享:2025低空智联网环境下的安全管控技术与应用报告 公众号『智云研报』 报告共148页 导读...
Meta重组人工智能团队架构 ... Meta对生成式人工智能团队实施战略性重组。据内部备忘录显示,原统一管理的AI团队将拆分为两个独立部...
原创 中... 中国固态电池技术突围:6分钟极速补能,千公里续航改写产业规则 固态电池量产浪潮席卷全球,中国力量正以...
微软CEO:与OpenAI的关... 财联社6月5日讯(编辑 赵昊)科技巨头微软公司的首席执行官萨提亚·纳德拉(Satya Nadella...
果糖是哪种糖,是水果里的糖吗? 果糖是一种有机化合物,化学式为C6H12O6,属于六碳糖类,是蔗糖的组成物质之一。它是一种单糖,和葡...
小米汽车高阶驾驶培训启航,北京... 小米汽车近日揭晓了一项令人期待的驾驶培训计划细节,宣布其精英驾驶高阶课程的首站——北京站,即将于明日...
原创 特... 2025年6月这几天,美国科技圈和政治圈热闹炸了!马斯克和特朗普在社交平台上你来我往,直接把Spac...
原创 2... 曾被视为“低端代名词”的千元机,2025年已迎来技术普惠的爆发期。旗舰芯片下放、IP68防水普及、百...
国际首次!我国科学家合成新核素... 记者6月5日从中国科学院近代物理研究所获悉,该所研究团队与合作者利用中国超重元素研究加速器装置(CA...