一个提示攻破所有模型,OpenAI谷歌无一幸免!
创始人
2025-05-15 13:41:54
0

新智元报道

编辑:peter东 犀牛

【新智元导读】 多年来,生成式AI供应商一直向公众保证,大语言模型符合安全准则,并加强了对产生有害内容的侵害。然而,一种看似简单但非常有效的提示词策略,能够让所有主流大模型开启「无限制模式」。

如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你会作何感想?

这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。

只需把危险指令伪装成XML或JSON配置片段,再配上一段看似无害的角色扮演,大模型便乖乖奉上危险答案,连系统提示都能原封不动「倒带」出来。

生成式AI如今被一条短短字符串制服。

万能越狱提示词如何生成

所有主要的生成式AI模型都经过专门训练,可以拒绝响应用户让生成有害内容的请求,例如与化学、生物、放射和核武器、暴力和自残相关的内容。

这些模型通过强化学习进行了微调,在任何情况下都不会输出或美化此类内容,即使用户以假设或虚构场景的形式提出间接请求也是如此。

尽管如此,让大模型越狱绕过安全护栏,仍然是可行的,只是这里的方案,在各种大模型间并不通用。

然而,近日来自HiddenLayer的研究人员,开发了一种既通用又可转移的提示技术,可用于从所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成几乎任何形式的有害内容。

即使是经过RLHF对齐的推理模型,也能轻松攻破。

具体是如何做到的,这里为了安全起见,只讲述原理,而不给出具体案例。

我们知道模型在训练时,会忽略安全相关的指令,而该策略正利用了这一点,该策略通过将过将提示重新表述为类似于几种类型的策略文件(如XML、INI或JSON)之一,可以欺骗大模型来忽视安全限制,如下图所示。

这样的提示词也不必太长,只需要200个字符即可,甚至无需严格遵照xml的格式要求。

图1:图中前述是提示词,之后是大模型的回复,而在正常情况下,该大模型被设置为不提供个人医疗建议

一种通用破解策略有多危险

由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点,根植于训练数据中,因此它不像简单的代码缺陷那么容易修复。

同时该策略能很容易的于适应新的场景和模型,具有极高的可扩展性,几乎可以用于所有模型,而无需任何修改。

与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同,该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景,这类提示词不仅逃避安全限制,而且经常迫使模型输出有害信息。

例如,该策略依赖虚构场景来绕过安全审核机制。

提示词被框定为电视剧(如House M.D.)中的场景,其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。

这种方法利用了大模型的一个本质缺陷:当对齐线索被颠覆时,它们无法区分故事和指令。这不仅仅是对安全过滤器的规避,而是完全改变了模型对它被要求做什么的理解。

更令人不安的是该技术提取系统提示的能力,系统提示是控制大模型行为方式的核心指令集。

这些通常受到保护,因为它们包含敏感指令、安全约束,在某些情况下,还包含专有逻辑甚至硬编码警告。

通过巧妙地改变角色扮演,攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界,还为制定更具针对性的攻击提供了蓝图。

大模型厂商需要做些什么

这样一个通用的越狱策略,对于大模型厂商不是好消息。

在医疗保健等领域,它可能会导致聊天机器人助手提供他们不应该提供的医疗建议,暴露私人患者数据。在金融领域,敏感的客户信息可能泄露;在制造业中,受攻击的AI可能会导致产量损失或停机;在航空领域,则可能会危及维护安全。

对此,可能的解决方案不是费时费力的微调,通过对齐确保大模型安全的时代可能已经结束,攻击手段的进化速度,已经不适合静态的,一劳永逸的防护措施。

要确保安全,需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台,例如发现该策略的HiddenLayer提出的AISec解决方案。

该方案会像电脑病毒入侵检测系统一样,持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁,而无需修改模型本身。

图2:AISec的监控界面及检测到的越狱提示词

总之,发现能攻破所有大模型的越狱提示词,凸显了大语言模型中的一个重大漏洞,它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。

作为第一个适用于几乎所有前沿AI模型的越狱提示词模板,该策略的跨模型有效性表明,用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷,需要额外的安全工具和检测方法来确保LLM的安全。

参考资料:

https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

相关内容

热门资讯

紫鸟浏览器买哪个区域的设备ip... 紫鸟浏览器提供全球20多个国家的云平台、静态住宅、小众、家庭宽带网络,支持亚马逊、沃尔玛、eBay、...
智慧物业管理软件排行与发展趋势... ——数字化转型下的物业行业变革 随着物联网(IoT)、人工智能(AI)、云计算等技术的深度融合,物业...
数字化“有问必答”!卡奥斯以智... 5月13日下午,家电行业“一图四清单”发展交流活动暨工业互联网平台赋能深度行(青岛站)在青岛海尔洲际...
获准向中东出售大量AI芯片,英... 原定于5月15日正式生效的美国《人工智能扩散规则》被特朗普政府正式撤销,这项由上一届政府制定的规则计...
梁文锋新论文!DeepSeek... 智东西 编译 | 程茜 李水青 编辑 | 李水青 智东西5月15日消息,昨日下午,DeepSeek团...
近亿元融资提速国产替代:中科玻... 「50个技术赛道,50家创业公司」是一档聚焦前沿科技领域创新力量的深度探索栏目。我们以全球视野扫描新...
Stability AI发布可... AI初创公司 Stability AI推出了 Stable Audio Open Small,一款“...
鹤壁经济技术开发区举办数智化技... 为加快推进制造业数字化转型,引导企业通过数智技术实现降本增效,5月14日下午,鹤壁经济技术开发区科技...
荣耀400系列处理器敲定:全系... 快科技5月15日消息,博主数码闲聊站曝光了荣耀400系列的核心参数。 据悉,荣耀400标准版搭载骁龙...
宏工智能取得包装设备专利,提高... 金融界2025年5月15日消息,国家知识产权局信息显示,湖南宏工智能科技有限公司取得一项名为“包装设...
苹果视频播放器推荐:果粉必看! 用苹果设备看视频的时候呀,总想着能有个特别趁手的视频播放器呢。我也是试了不少,后来发现了网易爆米花,...
韦布望远镜首次确认系外恒星系统... 新华社华盛顿5月14日电 天文学家借助美国航天局的詹姆斯·韦布空间望远镜,在距离地球155光年的一颗...
何氏眼科:搭建更广泛基层眼科医... 中证报中证网讯(王珞)日前,2025未来医疗医药100强展会在苏州举行,何氏眼科(301103)受邀...
波动加大,当前黄金面临哪些风险... 为什么人人都爱黄金? 在人类文明长河中,黄金稳坐“天然货币”的宝座,是世界公认的"硬核老钱",而它的...
国统股份:该研究成果可以应用于... 证券之星消息,国统股份(002205)05月15日在投资者关系平台上答复投资者关心的问题。 投资者提...
聚焦北大荒|前哨农场有限公司全... 连日来,前哨农场有限公司以“抢”字当头,科学调配机车、优化作业流程,全面掀起大豆播种热潮。 在第六管...
魅族22还未发布就被黑!星纪魅... 【CNMO科技消息】5月15日中午,星纪魅族在官微发布了一则声明,就部分网友造谣抹黑魅族产品进行回应...
中国工商银行申请软负载均衡集群... 金融界2025年5月15日消息,国家知识产权局信息显示,中国工商银行股份有限公司申请一项名为“一种软...
AI智能体应用加速落地 今年以来,从中央到地方,对培育具身智能、发展智能机器人等作出一系列部署。伴随着技术日新月异,机器人走...
“市区合作”共建高地 “人工智... 东方网记者刘轶琳5月15日报道:今天上午,“人工智能+医疗健康”推进会暨“智汇医学 AI无界”首届上...