「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
创始人
2024-07-30 11:22:00
0

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文的第一作者是香港中文大学(深圳)数据科学学院二年级博士生袁尤良,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺品嘉团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。

大型语言模型(LLM)展现出了令人印象深刻的智能水平。因此,确保其安全性显得至关重要。已有研究提出了各种策略,以使 LLM 与人类伦理道德对齐。然而,当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击,并被用于恶意用途。

为什么哪怕经过了大量的安全对齐,这些模型依然容易被越狱?应该如何进一步把安全对齐做深(deep)?

围绕这两个问题,香港中文大学(深圳)贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa),一个简单新颖的安全微调方法,可以赋予大语言模型「迷途知返」的能力,从而在不影响模型有用性(helpfulness)的同时,大幅提升其安全性(safety)。

  • 论文标题:Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
  • 论文地址:https://arxiv.org/abs/2407.09121
  • 开源代码:https://github.com/RobustNLP/DeRTa

研究者发现,安全微调数据中存在拒绝位置偏差(refusal position bias),即模型表示拒绝回答的行为,总是出现在回复的开头,这可能阻碍了模型在后续位置处保持安全的能力。为了验证这一猜测,研究者使用越狱样本测试 LLaMA3-8B 和 LLaMA3-70B,结果显示几乎所有(99.5%)被模型成功拒绝的越狱样本,拒绝性单词(如 Sorry)都出现在前五个单词中。一旦开头没有被拒绝,模型将很难在后续位置表现出安全的行为。

方法

为了解决这一问题,该论文提出了解耦拒绝训练(DeRTa)。DeRTa 包括两个新颖的设计:

  • 带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练 LLMs 在任何位置拒绝回复,而不仅仅是在开始处。此外,添加有害前缀提供了额外的上下文,显著提高了 LLM 识别和避免不安全内容的能力。
  • 强化过渡优化(RTO):虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,研究者引入了一个辅助训练目标 RTO,让模型在有害序列的任意位置,都预测下一个单词为「Sorry」,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。

上述设计确保了模型防御机制的全面增强,允许模型学会「迷途知返」的行为。

该方法的设计,在推特上也引起了一定的讨论。

主要实验

为了验证方法的效果,研究者在两个知名的模型家族 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验,涵盖六种不同的越狱攻击方式。结果显示:

  • DeRTa 显著提升了安全性,同时不会降低有用性。
  • DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。

分析实验

为了提供更多有价值的见解,研究者主要基于 LLaMA3-70B,对 DeRTa 的工作原理进行了更细致的分析,包括:

1. 案例研究,DeRTa 如何影响拒绝性单词位置分布

2. 消融实验,DeRTa 中两种策略的作用大小

3. 分析实验一,与 DPO 进行比较,探究训练数据中的有害回复所发挥的作用

4. 分析实验二,DeRTa 在不同模型尺寸的适用性

首先,论文给出的示例具体地展示了 DeRTa 模型的「迷途知返」能力:即使在已经输出了一部分不安全文本的情况下,模型也能有效过渡到安全状态。此外,作者给出了在不同的方法下,模型输出的拒绝性单词的位置分布。可以看出,使用了 RTO 的模型,可以在显著靠后的位置,仍然具有保持安全的能力。

在消融实验中,实验结果显示,仅仅使用有害前缀策略不足以应对各种形式的攻击。例如,该策略对于防御 CodeAttack 这类较为复杂的攻击几乎没有帮助。该攻击通过让模型补全代码来越狱,模型在前面位置的回复中,会进行无恶意的代码补全,到一定位置处,模型将会开始一边补全代码一边生成恶意回复。

对于有害前缀策略的这些不足,RTO 可以有效弥补,从而使模型展现出很高的安全性,这说明 RTO 对于加强(赋予)模型在任何位置拒绝的能力至关重要。

RTO 的成功很自然带来一个问题:模型安全性的提升,是否可以归功于训练中整合了有害回复,而不是建模了 token 级别的安全过渡?为了回答这一问题,作者将 DeRTa 与 DPO 进行了比较。该实验进一步验证了,DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息,而是得益于其对 token 级别安全过渡的直接建模。

此外,该论文也展示了在不同尺寸的模型上的表现,包括 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B),结果显示该方法对不同大小的模型均有很好的效果。

结语

大模型安全依然任重道远。如何突破表面对齐,将安全做深入是一件很有挑战的事情。研究者在此给出了一些探索和思考,希望可以为这一方面的研究,提供一些有价值的见解和基线方法。

相关内容

热门资讯

天津智导科技取得可拓展工作平台... 金融界2025年8月23日消息,国家知识产权局信息显示,天津智导科技有限公司取得一项名为“一种机电工...
原创 大... 在8月15日晚,大疆偷了Insta360的家,推出了旗下首款全景相机——Osmo 360。Osmo ...
OpenAI用GPT-4b攻克... 新智元报道 编辑:定慧 好困 【新智元导读】OpenAI与Retro Biosciences合作,...
原创 8... 从2018年到现在的确诞生了众多屏幕设计,比如水滴屏、刘海屏、双面屏、升降屏、折叠屏、打孔屏、屏下摄...
中国科学家揭秘嫦娥六号样品:月... 中国日报8月23日电(记者 李梦涵)一直以来,科学家普遍认为月球在30亿年前就已"休眠",火山活动基...
MIT团队借助CHIME望远镜... 2025-08-23 11:40:21 作者:狼叫兽 2025年8月23日消息,根据近日发布的一...
汇百盛激光取得激光切割工作台的... 金融界2025年8月23日消息,国家知识产权局信息显示,佛山汇百盛激光科技有限公司取得一项名为“一种...
丰宝恒取得无人机用空中抛投机构... 金融界2025年8月23日消息,国家知识产权局信息显示,四川丰宝恒科技集团有限公司取得一项名为“一种...
科技赋能口岸建设,智能查验助船... 8月20日,巴拿马籍船舶“安海珍珠”轮缓缓靠泊海南洋浦口岸,船上载有5万吨从印度尼西亚穆拉潘台运来的...
2个月造出世界级机器人,正面硬... 在首届世界人形机器人运动会上,一个不可思议的纪录诞生了——一家成立仅2个月的公司,在280支全球顶尖...
美的集团获得发明专利授权:“火... 证券之星消息,根据天眼查APP数据显示美的集团(000333)新获得一项发明专利授权,专利名为“火排...
尺素金声 | 算力全球第二,数... 近日,国家数据局发布消息:截至2025年6月底,我国算力总规模位居全球第二!我国数字基础设施在规模、...
中国电信栾晓维:云网智融,赋能... 8月22日至24日,2025中国算力大会在山西大同举行。在主论坛上,中国电信集团有限公司副总经理栾晓...
海口启动防汛防风IV级应急响应 海口市防灾减灾救灾消防和安全生产委员会关于启动防汛防风IV级应急响应的通知 市防安委会相关成员单位:...
华为开放式耳机好用吗?南卡、华... 在目前的开放式耳机市场,有一个有趣的现象:一方面,传统音频大厂把开放式耳机当作产品线的补充,研发投入...
Llama拉垮,Meta开始寻... 面对自研AI模型在与行业领先者竞争中显露的疲态,Meta正调整其长期坚持的内部开发战略,转而与外部A...
探访国家先进计算太原中心:国产... 来源:财联社 《科创板日报》8月23日讯(记者 张洋洋)在调度中心的大屏幕上,显示着工业仿真先进计算...
学院无人平台教学科研创新团队在... 在无人化、智能化重塑未来海战格局的浪潮中,学院无人平台教学科研创新团队精准锁定战场前沿,以“向科技要...
青岛前哨风动取得托板螺母气钻专... 金融界2025年8月23日消息,国家知识产权局信息显示,青岛前哨风动工具制造技术有限公司取得一项名为...
中轮动力取得双轮立式舵轮专利,... 金融界2025年8月23日消息,国家知识产权局信息显示,中轮动力科技(广州)有限公司取得一项名为“一...