一个提示攻破所有模型，OpenAI谷歌无一幸免！_资讯

一个提示攻破所有模型，OpenAI谷歌无一幸免！

创始人

2025-05-15 13:41:54

0次

新智元报道

编辑：peter东犀牛

【新智元导读】多年来，生成式AI供应商一直向公众保证，大语言模型符合安全准则，并加强了对产生有害内容的侵害。然而，一种看似简单但非常有效的提示词策略，能够让所有主流大模型开启「无限制模式」。

如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏，让ChatGPT、Claude、Gemini统统「叛变」，你会作何感想？

这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。

只需把危险指令伪装成XML或JSON配置片段，再配上一段看似无害的角色扮演，大模型便乖乖奉上危险答案，连系统提示都能原封不动「倒带」出来。

生成式AI如今被一条短短字符串制服。

万能越狱提示词如何生成

所有主要的生成式AI模型都经过专门训练，可以拒绝响应用户让生成有害内容的请求，例如与化学、生物、放射和核武器、暴力和自残相关的内容。

这些模型通过强化学习进行了微调，在任何情况下都不会输出或美化此类内容，即使用户以假设或虚构场景的形式提出间接请求也是如此。

尽管如此，让大模型越狱绕过安全护栏，仍然是可行的，只是这里的方案，在各种大模型间并不通用。

然而，近日来自HiddenLayer的研究人员，开发了一种既通用又可转移的提示技术，可用于从所有主流大模型，包括Deepseek ，ChatGPT，Claude ，Gemini，Lemma，Qwen等生成几乎任何形式的有害内容。

即使是经过RLHF对齐的推理模型，也能轻松攻破。

具体是如何做到的，这里为了安全起见，只讲述原理，而不给出具体案例。

我们知道模型在训练时，会忽略安全相关的指令，而该策略正利用了这一点，该策略通过将过将提示重新表述为类似于几种类型的策略文件（如XML、INI或JSON）之一，可以欺骗大模型来忽视安全限制，如下图所示。

这样的提示词也不必太长，只需要200个字符即可，甚至无需严格遵照xml的格式要求。

图1：图中前述是提示词，之后是大模型的回复，而在正常情况下，该大模型被设置为不提供个人医疗建议

一种通用破解策略有多危险

由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点，根植于训练数据中，因此它不像简单的代码缺陷那么容易修复。

同时该策略能很容易的于适应新的场景和模型，具有极高的可扩展性，几乎可以用于所有模型，而无需任何修改。

与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同，该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景，这类提示词不仅逃避安全限制，而且经常迫使模型输出有害信息。

例如，该策略依赖虚构场景来绕过安全审核机制。

提示词被框定为电视剧（如House M.D.）中的场景，其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。

这种方法利用了大模型的一个本质缺陷：当对齐线索被颠覆时，它们无法区分故事和指令。这不仅仅是对安全过滤器的规避，而是完全改变了模型对它被要求做什么的理解。

更令人不安的是该技术提取系统提示的能力，系统提示是控制大模型行为方式的核心指令集。

这些通常受到保护，因为它们包含敏感指令、安全约束，在某些情况下，还包含专有逻辑甚至硬编码警告。

通过巧妙地改变角色扮演，攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界，还为制定更具针对性的攻击提供了蓝图。

大模型厂商需要做些什么

这样一个通用的越狱策略，对于大模型厂商不是好消息。

在医疗保健等领域，它可能会导致聊天机器人助手提供他们不应该提供的医疗建议，暴露私人患者数据。在金融领域，敏感的客户信息可能泄露；在制造业中，受攻击的AI可能会导致产量损失或停机;在航空领域，则可能会危及维护安全。

对此，可能的解决方案不是费时费力的微调，通过对齐确保大模型安全的时代可能已经结束，攻击手段的进化速度，已经不适合静态的，一劳永逸的防护措施。

要确保安全，需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台，例如发现该策略的HiddenLayer提出的AISec解决方案。

该方案会像电脑病毒入侵检测系统一样，持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁，而无需修改模型本身。

图2：AISec的监控界面及检测到的越狱提示词

总之，发现能攻破所有大模型的越狱提示词，凸显了大语言模型中的一个重大漏洞，它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。

作为第一个适用于几乎所有前沿AI模型的越狱提示词模板，该策略的跨模型有效性表明，用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷，需要额外的安全工具和检测方法来确保LLM的安全。

参考资料：

https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

上一篇：深圳市科达利取得盖板组件及电池专利，保证电池内阻稳定

下一篇：何氏眼科：眼健康全产业链生态获认可提供智能化眼健康管理服务

一个提示攻破所有模型，OpenAI谷歌无一幸免！

相关内容

热门资讯