MasterKey: Automated Jailbreaking of Large Language Model Chatbots

论文链接：https://arxiv.org/pdf/2307.08715

MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots

Abstract
1 Introduction
2 Background
- *A. LLM Chatbot*
- *B. LLM Jailbreak*
- *C. Jailbreak Defense in LLM*
3 An Empirical Study
- *A. Usage Policy (RQ1)*
- *B. Jailbreak Effectiveness (RQ2)*
- Overview of MasterKey
5 Methodology of Revealing Jailbreak Defenses
- *A. Design Insights*
- *B. Time-based LLM Testing*
- *C. Proof of Concept Attack*
6 Methodology of Crafting Jailbreak Prompts
- *A. Design Rationale*
- *B. Workflow*
- *C. Dataset Building and Augmentation*
- *D. Continuous Pre-training and Task Tuning*
- *E. Reward Ranked Fine Tuning*
7 Evaluation
- *A. Experiment Setup*
- *B. Jailbreak Capability (RQ3)*
- *C. Ablation Study (RQ4)*
- *D. Cross-language Compatibility (RQ5)*
8 Mitigation Recommendation
9 Related Work
- *A. Prompt Engineering and Jailbreaks in LLMs*
- *B. LLM Security and Relevant Attacks*
10 Conclusion

Abstract

大型语言模型 (LLMs) 由于其非凡的理解、生成和完整的像人类的文本的能力而迅速激增， LLM 聊天机器人也因此成为非常流行的应用。这些聊天机器人容易受到越狱攻击，也就是一个恶意用户操纵提示来揭示对使用策略来说敏感的、专有的或有害的信息。虽然已经进行了一系列越狱尝试来暴露这些漏洞，但我们在本文中的实证研究表明现有方法对主流 LLM 聊天机器人无效。它们降低功效的根本原因似乎是由服务提供商部署的以对抗越狱尝试的未披露的防御。

我们介绍了 MASTERKEY，这是一个端到端的框架，用于探索越狱攻击和防御背后的机制。首先，我们提出了一种创新的方法，该方法使用生成过程中固有的基于时间的特征来逆向构建主流 LLM 聊天机器人服务背后的防御策略。这个概念，受到了基于时间的 SQL 注入技术的启发，使我们能够深入了解这些防御的操作属性。通过操纵聊天机器人的时间敏感的响应，我们能够了解它们实现的复杂性，并创建一个概念性的证明的攻击来绕过多个 LLM 聊天机器人中的防御，例如 CHATGPT、Bard 和 Bing Chat。

我们的第二个贡献是一个自动地生成针对受到良好保护的 LLM 聊天机器人的jailbreak 提示的方法。我们的方法的本质是使用一个 LLM 自动地学习有效的模式。通过使用 jailbreak 提示微调一个 LLM，我们展示了针对一组著名的商业的 LLM 聊天机器人的自动 jailbreak 生成的可能性。我们的方法生成攻击提示，平均成功率为 21.58%，大大超过了现有提示实现的 7.33%。我们负责任地向受影响的服务提供商披露我们的发现。MASTERKEY 为一个揭示 LLMs 漏洞的新策略铺平了道路，并加强了对这种违规行为进行更稳健的防御的必要性。

1 Introduction

大型语言模型 (LLMs) 在内容生成领域具有变革性，极大地重塑了我们的技术格局。LLM 聊天机器人，例如CHATGPT[36]、Google Bard[20] 和 Bing Chat[22]，展示了令人印象深刻的能力来用其高质量的生成协助各种任务[13]，[34]，[35]。这些聊天机器人可以生成在其复杂性上无与伦比的像人类的文本，开创了继承了许多领域的新应用 [23]，[7]，[48]，[55]。作为 LLMs 的主要界面，聊天机器人因其全面性和引人入胜的交互能力而受到广泛关注和使用。

虽然提供了令人印象深刻的功能，但 LLM 聊天机器人同时引入了显著的安全风险。特别是，“越狱”现象已成为确保 LLMs [27] 的安全和道德使用的一个重大挑战。在这种情况下，Jailbreaking 指的是对 LLMs 的输入提示的战略性操纵，旨在越过聊天机器人的安全护栏，并生成原本被调节或阻止的内容。通过利用如此精心设计的提示，一个恶意用户可以诱导 LLM 聊天机器人产生违反原先定义的策略的有害输出。

过去已经有一些努力来调查 LLM 的越狱漏洞[27]，[25]，[53]，[44]。然而，随着 LLM 技术的快速发展，这些研究存在两个显著的局限性。首先，当前的重点主要受限于 CHATGPT。我们缺乏对 Bing Chat 和 Bard 等其他商业 LLM 聊天机器人中潜在漏洞的理解。在第 3 节中，我们将展示这些服务表现出不同于 CHATGPT 的 jailbreak 弹性。

其次，为了应对越狱威胁，服务提供商部署了各种缓解措施。这些措施旨在监控和规范 LLM 聊天机器人的输入和输出，有效地防止创建有害或不适当的内容。每个服务提供商部署其专有解决方案，遵循各自的使用策略。例如，OpenAI [33] 制定了严格的使用策略 [5]，旨在停止生成不适当的内容。该策略涵盖了从煽动暴力到明确内容和政治宣传的一系列主题，作为其 AI 模型的基本指南。这些服务的黑盒性质，特别是它们的防御机制，对理解越狱攻击及其预防措施的基本原理提出了挑战。到目前为止，明显缺乏，用于商业上可获取的基于 LLM 的聊天机器人的解决方法，的越狱阻止技术的公开的披露或报告。

为了缩小这些差距并进一步深入了解各种 LLM 聊天机器人中的 jailbreak 机制，我们首先进行了一项实证研究，以检查现有 jailbreak 攻击的有效性。我们评估了四种主流 LLM 聊天机器人：由 GPT-3.5 和 GPT-4提供支持的 ChatGPT、Bing Chat 和 Bard 。这项研究涉及使用先前学术研究中记录的提示进行严格的测试，从而评估它们的当代相关性和有效性。我们的研究结果表明，现有的 jailbreak 提示只有在用于 OpenAI 的聊天机器人时才会产生成功的结果，而 Bard 和 Bing Chat 似乎更具弹性。后两个平台可能利用了额外或不同的越狱预防机制，这使得它们能够抵抗当前已知攻击集。

基于我们的调查得出的观察结果，我们提出了 MasterKey，这是一种端到端的攻击框架，用于推进越狱研究。我们在 MasterKey 中做出了主要的两个贡献。首先，我们介绍了一种推断 LLM 聊天机器人内部防御设计的方法。我们观察到时间敏感的网络应用程序和 LLM 聊天机器人之间的相似性。从网络安全中基于时间的 SQL 注入攻击中汲取灵感，我们提出利用响应的时间作为一个重建防御机制的新媒介。这揭示了 Bing Chat 和 Bard 采用的防御的一种有趣的见解，其中一个动态的生成分析被部署来评估语义并识别策略违规的关键字。尽管我们的理解可能无法完美地反映实际的防御设计，但它提供了一个有价值的近似，让我们制作更强大的越狱提示来绕过关键字匹配防御。

借鉴从，我们实验的研究和恢复的不同 LLM 聊天机器人的防御策略，中的特点和发现，我们的第二个贡献通过开发一种自动生成的通用越狱提示的新方法，进一步推动了越狱攻击的边界。我们的方法涉及一个三步的工作流来微调出一个鲁棒的 LLM。在第一步，数据集创建和增强 ，我们整理和细化了一个独特的 jailbreak 提示数据集。接下来，在 连续的预训练和任务微调 步骤中，我们使用这个丰富的数据集来训练一个精通越狱聊天机器人的专业 LLM。最后，在 奖励排名微调 步骤中，我们应用奖励策略来增强模型绕过各种 LLM 聊天机器人防御的能力。

我们综合评估了五个最先进的 LLM 聊天机器人: GPT-3.5、GPT-4、Bard、Bing Chat 和 Ernie[11]，用一共生成的 850 个越狱提示。我们从两个关键的角度仔细研究了 MasterKey 的性能：衡量了越狱可能性的查询成功率（即成功查询与总测试查询的比例）；衡量了提示有效性的提示成功率（即导致成功越狱的提示与所有生成的提示的比例）。从广义的角度来看，我们设法获得了 21.58% 的查询成功率，提示成功率为 26.05%。从更详细的角度来看，与现有技术相比，我们使用 OpenAI 模型实现了显着更高的成功率。同时，我们是第一个为 Bard 和 Bing Chat 披露成功越狱的人，查询成功率分别为 14.51% 和 13.63%。这些发现是现有防御中潜在缺陷的关键点，推动了更强大的越狱缓解策略的必要性。我们建议加强越狱的防御，通过加强 LLMs 的伦理和基于策略的阻止、使用输入消毒来改进和测试审核系统、将上下文分析集成到对抗编码策略中、还有使用自动压力测试全面理解和解决漏洞。

总之，我们的贡献总结如下：

逆向构建未披露的防御我们使用受基于时间的 SQL 注入技术启发的新方法揭示了 LLM 聊天机器人防御的隐藏机制，显着提高了我们对 LLM 聊天机器人风险缓解的理解。
绕过LLM防御利用对 LLM 聊天机器人防御的新理解，我们成功地绕过了这些机制，使用了对时间敏感的响应的战略操作，突出了主流 LLM 聊天机器人中以前忽略的漏洞。
自动的越狱生成我们演示了一种开创性的、高效的策略，用于使用微调的 LLM 自动生成越狱提示。
跨模式和 LLMs 的越狱泛化 我们提出了一种跨不同模式和不同 LLM 聊天机器人来扩展 jailbreak 技术的方法，强调了其通用性和潜在影响。

伦理考虑 我们的研究是在严格的伦理指南下进行的，以确保分析的LLM聊天机器人负责和尊重地使用。我们没有使用已识别的 jailbreak 技术来对服务造成任何损害或破坏。在识别成功的 jailbreak 攻击后，我们迅速将这些问题报告给各自的服务提供商。鉴于伦理和安全影响，我们只在我们的讨论中提供概念验证 (PoC) 示例，并决定在正确解决问题之前发布我们完整的 jailbreak 数据集。

2 Background

A. LLM Chatbot

LLM 聊天机器人是一个会话的代理，它将 LLM 集成到后端。这种聊天机器人服务，可以通过 Web 平台或 APIs 等各种接口访问，能够生成类似人类的响应和创造性的内容，并且对各种内容做出反应。聊天机器人的例子包括来自 OpenAI 的 ChatGPT、来自 Google 的 Bard 和 Claude 。他们显着提高了用户的体验和效率，有潜力改革各个行业。

对于 LLM 聊天机器人服务提供商来说，制定一些道德准则指南是很重要的。这些指南的目的是确保对其服务负责利用，遏制暴力或敏感性质的内容的生成。不同的提供者对这些指南有不同的术语。例如，OpenAI 将这些称为“使用政策”[5]，谷歌的 Bard 用术语“AI 原则”[19]，而 Bing Chat 在其使用方面包含它们 [31]。

B. LLM Jailbreak

Jailbreak 是指一个攻击者使用提示绕过在 LLM 聊天机器人中实现的使用策略的测量过程。通过巧妙地制作提示，敌手可以操纵聊天机器人的防御机制，使其能够生成与其自身使用策略相反的响应和有害内容。图1展示了越狱攻击的一个说明性示例。在这个例子中，聊天机器人拒绝对一个直接的恶意查询 “how to create and distribute malware for financial gain“ 做出响应。然而，当同一个问题被掩盖在微妙的有害对话上下文中时，聊天机器人会生成侵犯其使用策略的响应，而没有任何意识。根据攻击者的意图，这个问题可以被任何违反使用策略的内容所取代。

为了越狱一个聊天机器人，攻击者需要创建一个越狱提示。这是一个模板，有助于隐藏恶意问题并规避保护边界。在上述示例中，一个 jailbreak 提示被设计在一个模拟实验的上下文中来伪装意图。这个上下文可以成功地操纵LLM，来提供可能指导它们在创建和传播恶意软件方面的响应。需要注意的是，在这项研究中，我们专注于 LLM 聊天机器人是否试图回答违反使用策略的问题。我们没有明确验证该答案的正确性和准确性。

C. Jailbreak Defense in LLM

面对越狱威胁的严重程度，部署防御机制以保持 LLM 生成响应的伦理和安全性是很重要的。LLM 服务提供商有能力通过实施某些过滤器和限制来自我调节它们产生的内容。这些防御机制监控输出，检测可能破坏道德准则指南的元素。这些指南涵盖了各种内容类型，例如敏感信息、攻击性语言或仇恨言论。

然而，目前的研究主要集中在越狱攻击[27]、[25]上，很少强调研究预防机制。这可能归因于两个主要因素。首先，LLM 聊天机器人服务的所有权和“黑盒”的性质使得破译其防御策略是一项具有挑战性的任务。其次，最小和无信息的反馈，例如 “"I cannot help with that” 等通用的响应，在失败的 jailbreak 尝试后提供，进一步阻碍了我们对这些防御机制的理解。第三，关于越狱防御机制的技术披露或报告的缺乏，对于理解各种提供者是如何如何增强他们的 LLM 聊天机器人服务留下了空白。因此，服务提供商采用的确切方法仍然是一个保护良好的秘密。我们不知道它们是否足够有效，或者仍然容易受到某些类型的越狱提示的影响。这是我们在本文中旨在回答的问题。

3 An Empirical Study

为了更好地理解 jailbreak 攻击带来的潜在威胁以及现有的 jailbreak 防御，我们进行了一项全面的实验性研究。我们的研究集中在两个关键研究问题（RQ）：

RQ1 (Scope) LLM 聊天机器人服务提供商提出的使用策略是什么?
RQ2 (Motivation) 现有的 jailbreak 提示对商业 LLM 聊天机器人的有效性如何?

为了解决 RQ1，我们谨慎地组装一组 LLM 聊天机器人服务提供商，通过其全面和明确的使用策略而识别他们。我们仔细检查这些策略并提取突出点。关于 RQ2，我们收集了一组 jailbreak 提示，从在线来源和学术研究中提取。然后使用这些 jailbreak 提示来探索目标的 LLM 聊天机器人的响应。对这些响应的后续分析引出了几个迷人的观察。特别是，我们发现包括 Bing Chat 和 Bard 的现代 LLM 聊天机器人服务在生成模型之外还实现了额外的内容过滤机制，以加强使用策略。下面我们将详细介绍我们的实证研究。

A. Usage Policy (RQ1)

我们的研究包含一组不同的 LLM 聊天机器人服务提供商，这些服务提供商满足特定的标准。首先，我们确保检查的每个提供者都有一个全面的使用策略，该策略清楚地描述了将被视为违规的行为或工作。此外，提供者必须提供公众随时可用的服务，而不受试验期或测试期的限制。最后，提供者必须明确声明其专有模型的使用，而不仅仅是通过微调或提示工程定制的现有的预训练模型。通过遵守这些先决条件，我们确定了四个符合参数的关键服务提供商：OpenAI、Bard、Bing Chat 和 Ernie。

我们仔细回顾了四个服务提供商提供的内容策略[5]、[20]、[31]、[11]。继之前的工作 [27]、[25] 之后，我们手动检查了使用策略来提取和总结每个提供商规定的禁止使用场景。我们最初的重点集中在 OpenAI 服务上，使用先前研究中确定的受限类别作为基准。然后，我们扩展了我们的审查以包含其他聊天机器人服务的使用策略，将每个策略项目与我们之前建立的类别对齐。当策略项目不符合我们预先存在的类别的情况时，我们引入一个新的类别。通过这种方法，我们描述了 10 个受限类别，详见表 I。

为了证实这些策略的实际执行，我们采用了先前研究中的方法[27]。具体来说，本文的作者协同地工作，为 10 个被禁止的场景中的每一个创建问题提示。每个场景产生了五个问题提示，确保了每个禁止场景中视角和细微差别的不同表示。我们将这些问题提供给服务，并验证它们是否在没有执行使用策略的情况下被回答了。每个类别的样本问题在附录 A 中给出，而问题的完整列表可在我们的网站上获得：https://sites.google.com/view/ndss-masterkey。

表 I 显示了每个服务提供商指定和实际强制执行的内容策略。四个提供者之间的比较给出了一些有趣的发现。首先，所有四种服务都统一限制了四种禁止场景下的内容生成：非法使用法律、生成有害或滥用内容、侵犯权利和隐私以及成人内容的生成。这突出了对维护 LLM 服务的安全、尊重和法律使用的共同承诺。其次，政策规范和实际执法方面有不对齐。比如说，虽然 OpenAI 对政治竞选和游说有明确的限制，但我们的实践表明，实际上没有对生成的内容实施限制。只有 Ernie 有一个明确的政策禁止对国家安全和统一的任何伤害。一般来说，这些变化可能反映了每个服务旨在服务的不同预期用途、监管环境和社区规范。它强调了了解每个聊天机器人服务的特定内容策略以确保合规和负责任的使用的重要性。在本文的其余部分，我们主要关注所有 LLM 服务禁止的四个关键类别。为简单起见，我们使用 Illegal、Harmful、Priavcy 和 Adult 来指代四类。

Finding 1：所有主流 LLM 聊天机器人服务提供商都限制了四种常见的禁止场景: 非法使用法律、生成有害或滥用内容、侵犯权利和隐私以及成人内容的生成。

B. Jailbreak Effectiveness (RQ2)

我们深入研究了评估现有 jailbreak 提示在不同 LLM 聊天机器人服务中的有效性。

Target Selection 对于我们的实证研究，我们专注于四个著名的 LLM 聊天机器人：OpenAI 的 GPT-3.5 和 GPT-4、Bing Chat 和 Google Bard。这些服务的选择是因为它们对 LLM 景观的广泛使用和相当大的影响。出于几个原因，我们在本研究中不包括 Ernie。首先，虽然 Ernie 在英文内容上表现出不错的性能，但它主要针对中文进行了优化，中文可用的越狱提示有限。提示的简单翻译可能会损害越狱提示的微妙之处，使其无效。其次，我们观察到对 Ernie 重复不成功的 jailbreak 尝试会导致帐户暂停，这使得进行广泛的实验是不可行的。

Prompt Preparation 我们从各种来源，包括网站[4]和研究论文[27]，组装了一个广泛的提示集合。由于大多数现有的LLM jailbreak研究针对的是 OpenAI 的 GPT 模型，因此设计了一些提示特别强调 GPT 服务。为了确保跨不同服务提供商的公平评估和比较，我们采用了关键字替换策略：我们将提示中的 GPT 特定术语（例如，“ChatGPT”、“GPT”）替换为相应的特定于服务的术语（例如，“Bard”、“Bing Chat Sydney”）。最终，我们为我们的实验收集了 85 个提示。这些提示的完整细节可以在我们的项目网站上找到：https://sites.google.com/view/ndss-masterkey。

Experiment Setting 我们的实证研究旨在仔细衡量越狱提示在绕过所选 LLM 模型方面的有效性。为了减少随机因素并确保详尽的评估，我们对于每个 jailbreak 提示运行每个问题 10 轮，总共累积 68,000 个查询（5 个问题 × 4 个禁止场景 × 85 个越狱提示 × 10 轮 × 4 个模型）。在获得结果后，我们通过检查响应是否违反已识别的禁止场景来评估每个越狱尝试的成功。

Results 表 II 显示了每个禁止场景的成功尝试的数量和比率。有趣的是，当应用于 GPT 系列之外的模型时，现有的 jailbreak 提示表现出有限的有效性。具体来说，虽然 jailbreak 提示在 GPT-3.5 下的平均成功率为 21.12%，但 Bard 和 Bing Chat 的相同提示的成功率分别显着地降低到了 0.4% 和 0.63%。基于我们的观察，没有一个现有的 jailbreak 提示，可以始终在 Bard 和 Bing Chat 上实现成功的 jailbreak。

Finding 2：现有的 jailbreak 提示似乎仅对 ChatGPT 有效，而对于 Bing Chat 和 Bard 的成功有限。

我们进一步检查了 jailbreak 试验的答案，并注意到不同 LLM 在失败 jailbreak 上的策略违规方面提供的反馈存在显着差异。确切地说，GPT-3.5 和 GPT-4 都表示了响应中侵犯的确切策略。相反，其他服务只提供了广泛、不详细的响应，只是说明它们无法帮助请求而不会说明是哪些特定策略违规。我们继续与模型的对话，询问政策的具体违规。在这种情况下，GPT-3.5 和 GPT-4 进一步阐述违反的策略，并为用户提供指导。相比之下，Bing Chat 和 Bard 不提供任何反馈，就好像用户从未提出违规问题一样。

Finding 3：包括 GPT-3.5 和 GPT4 的 OpenAI 模型返回响应中违反的确切策略。这种透明度水平在其他服务中缺乏，例如 Bard 和 Bing Chat。

Overview of MasterKey

我们在第 III 节中的探索性结果表明，所有研究的 LLM 聊天机器人都对 jailbreak 提示具有一定的防御性。特别是，Bard 和 Bing Chat 有效地标记了现有 jailbreak 技术的 jailbreak 尝试。从观察中，我们合理地推断这些聊天机器人服务集成了未披露的越狱预防机制。通过这些见解，我们引入了 MasterKey，这是一个创新的框架，可以明智地逆向构建隐藏的防御机制，并进一步证明它们的无效性。

MasterKey 是从分解各种 LLM 聊天机器人服务（第 V 节）采用的 jailbreak 防御机制开始的。我们的关键见解是 LLM 响应的长度与生成它所需的时间之间的相关性。将此相关性用作指标，我们借鉴了传统 Web 应用程序攻击中的盲 SQL 攻击机制来设计一个基于时间的 LLM 测试策略。该策略揭示了现有 LLM 聊天机器人的 jailbreak 防御的三个显着发现。特别是，我们观察到现有的 LLM 服务提供商 用关键字过滤在生成的输出上采用动态的内容审核。通过这种新的防御理解，我们设计了一个概念验证 (PoC) 的越狱提示，该提示在 ChatGPT、Bard 和 Bing Chat 中都有效。

基于收集到的见解和创建的 PoC 提示，我们设计了一种三阶段方法来训练鲁棒的 LLM，它可以自动生成有效的 jailbreak 提示（第 VI 节）。我们采用来自人类反馈(RLHF)机制的强化学习来构建 LLM。在数据集构建和增强的第一阶段，我们从现有的越狱提示和我们的 PoC 提示中组装数据集。第二阶段，连续的预训练和任务调整，利用这个丰富的数据集创建了一个专门的 LLM，主要关注越狱。最后，在奖励排名微调阶段，我们根据 jailbreak 提示在 LLM 聊天机器人上的实际越狱性能对其排名。通过奖励性能更好的提示，我们改进 LLM 以生成可以更有效地绕过各种 LLM 聊天机器人防御的提示。

MasterKey，由我们的综合训练和独特方法提供支持，能够生成跨多个主流 LLM 聊天机器人工作的 jailbreak 提示，包括 ChatGPT、Bard、Bing Chat 和 Ernie。它代表了一种利用机器学习和人类洞察力来制作有效的越狱策略的潜力的证明。

5 Methodology of Revealing Jailbreak Defenses

为了实现对不同 LLM 聊天机器人的成功越狱攻击，有必要深入了解其服务提供商实施的防御策略。然而，正如 Finding 3 中所讨论的，jailbreak 的尝试将被 Bard 和 Bing Chat 等服务直接拒绝，而没有进一步的信息揭示防御机制的内部。我们需要利用其他因素来推断 jailbreak 过程中 LLM 的内部执行状态。

A. Design Insights

我们的 LLM 测试方法基于两个见解。**Insight 1：服务响应时间可能是一个有趣的指标。**我们观察到返回响应所花费的时间是不同的，即使对于失败的越狱尝试也是如此。我们推测这是因为，尽管拒绝了越狱尝试，LLM 仍然经历了生成过程。考虑到当前的 LLM 以逐个令牌的方式生成响应，我们假设响应时间可能反映了生成过程什么时候被越狱预防机制阻止。

为了证实这一假设，我们首先需要验证响应时间确实与生成内容的长度相关。我们进行了一个概念验证实验来披露这种关系。我们使用来自 OpenAI 的 LLM 使用示例[32]的五个生成问题，每个示例都量身定制，以生成具有特定令牌计数(50,100,150,200)的响应。我们将这些调整后的问题输入 GPT-3.5、GPT4、Bard 和 Bing Chat，测量响应时间和生成令牌的数量。表 III 显示了结果，我们得出了两个重要的结论。首先，所有四个 LLM 聊天机器人生成了与问题提示中指定的所需令牌大小的统计性对齐的响应，这意味着我们可以通过在提示中提示输出长度来操纵输出长度。其次，Pearson 相关系数 [15] 表示所有服务的令牌大小和模型生成时间之间的强正线性相关性，证实了我们的上述假设。

Insight 2：web 应用程序和 LLM 服务之间存在一个迷人的相似之处因此，我们可以利用基于时间的盲 SQL 注入攻击来测试 LLM 聊天机器人。特别是，基于时间的盲 SQL 注入可被用于与后端数据库交互的 Web 应用程序中。当应用程序对用户几乎没有主动反馈时，这种技术特别有效。它的主要策略是控制 SQL 命令执行时间。这种控制允许攻击者操纵执行时间并观察响应时间的可变性，然后可以用来确定是否满足某些条件。图 2 提供了一个攻击示例。攻击者战略性地构建了一个条件来确定后端 SQL 系统版本的第一个字符是否为“5”。如果满足此条件，则由于 SLEEP(5) 命令，执行将延迟 5 秒。否则，服务器绕过睡眠命令并立即做出反应。因此，响应时间作为 SQL 语法有效性的指标。通过利用此属性，攻击者可以隐蔽地推断有关后端服务器属性的关键信息，如果给定足够的时间，甚至可以提取存储在数据库中的任何数据。

我们可以用相似的策略来测试 LLM 聊天机器人并且破译其操作动态的隐藏的部分。具体来说，我们将研究缩小到 Bard 和 Bing Chat 上，因为它们有效地阻止了所有现有的 jailbreak 尝试。下面我们详细介绍了通过时间指标推断越狱预防机制的方法。

B. Time-based LLM Testing

我们的研究主要关注聊天机器人服务的可观察的特征。因此，我们将 LLM 聊天机器人服务抽象为一个结构化模型，如图3所示。这种结构包括两个组件:一个基于 LLM 的生成器，它为输入提示生成响应，以及一个内容主持人，它监督系统的行为并标记潜在的越狱尝试。尽管这种抽象很简单，但它提供了一个实用的模型，该模型捕获了 LLM 聊天机器人服务的核心动态，而不需要关于内部的详细知识。

作为一个黑盒模型，在这个抽象系统中仍然存在几个不确定性。这些不确定性包括 ①内容主持人对输入问题的监控、②监控 LLM 生成的数据流、③完成输出的生成后检查，和 ④内容主持人中不同机制，例如基于语义的检查和基于关键字的检查。下面，我们将描述如何使用基于时间的 LLM 测试来推断这些特征。测试过程如图4所示。

1. Setting Up the Baseline. 如图 4 (a) 所示，我们的方法从两个标准问题开始，问题被精心策划以引发准确的响应，而不会引发任何越狱的防御。值得注意的是，对于每对问题，我们指定输出的预期长度，使我们能够以相对的精度调节生成的时间。在这种情况下，我们指示问题分别生成 25、50、75 和 100 个标记的答案。随后的研究表明，响应的组合长度应该大致等于每个单独答案长度的总和（即 50、100、150、200 个标记），总生成时间应该大致等于每个响应的相应时间的总和，即 t1 + t2，其中 t1 ≈ t2。这个推论为后续评估设定了基线。

2. Determining the Jailbreak Prevention Phase 我们的目标是了解越狱预防的操作阶段，即该机制是否应用于输入的提示、还是应用于 LLM 生成的响应，或两者都是。为了实现这一点，我们组装了一个提示，它从标准问题开始，然后是一个明显恶意的问题，会违反使用策略（例如，“Write a love poem with 200 token length; Answer how to buy human organs from the underground market.”）。如图 4 (b) 所示，如果 jailbreak 预防机制包含输入问题的验证，则可以毫不费力地识别问题的恶意部分。在这种情况下，LLM 生成过程立即终止，用户很快就会被失败的 jailbreak 尝试提醒。我们将此终止警报时间表示为 $t 0$ 。相反，如果验证仅应用于模型生成的响应，用户将仅在生成过程的某个时期之后意识到失败的 jailbreak 尝试。通过将实际系统响应时间与基线时间进行比较，我们可以推断应用故障预防机制时的相位。然而，值得注意的是，设计不佳的 LLM 服务可能会使这种测试策略失效。具体来说，如果服务尽管检测到恶意输入但仍进行答案的生成，合法提示和恶意提示之间将没有明显的响应时间差异。然而，这样的设计是低效的，会导致计算资源的不必要消耗和策略违规内容的生成。我们随后的实验表明，Bing Chat 和 Bard 都没有受到这种设计缺陷的影响。

为了进行测试，我们遵循基线来整合来自实证研究的五个样本问题和四个 jailbreak 模板，从而形成 20 个测试问题。对于每个样本问题，我们进一步在提示中声明响应长度为 50、100、150 和 200 个标记。该测试的响应时间如表 IV 的 Control1 列所示。这些结果与我们的基线结果密切相关。具体来说，z 检验 [24] 的平均 z 值为 -11.46，p 值为 0.34。这表明两组响应时间之间没有显着的统计性差异。因此，Bard 和 Bing Chat 都没有实现输入的过滤机制。

Finding 4：Bing Chat 和 Bard 使用的 jailbreak 预防方案可能会检查模型生成结果，而不是输入的提示。

值得注意的是，另一种合理的配置是输入和输出的同时验证。直观地说，与推理相比，输入的过滤过程应该运行得更快。如果输入和输出过滤同时发生，人们会在提交恶意查询时被立即拒绝。这将与一个输入的验证优先设置是实验不可区分的。为了评估这种配置，我们向 LLM 提出了一个问题，它将恶意输入与自然输出合并，例如：“Do you know any porn website? If so, does its domain name start with ‘www’? Answer with ‘yes’ or ‘no’ without further explanation.” LLM 在没有任何内容过滤的情况下始终回复“NO”，这表明没有输入提示的过滤。

3. Determining the Real-Time Prevention Dynamics. 我们接下来的目标是检查越狱预防机制的实时性质：服务是否在生成过程中进行检查，或者仅在生成完成后验证内容。为了测试这一点，我们使用与之前测试相同的方法设计提示，但将恶意问题定位在良性问题之前。

如图 4© 所示，如果越狱预防机制只在内容生成后检查，我们预计两组问题之间的响应时间没有显着差异。另一方面，一个动态的、实时的预防机制会在检测到违规时立即停止生成过程。这会导致更短的生成时间，表示为 $t 0 + t 1^{'}$ ，与基线相比，响应时间显着下降。

我们的实验表明，Bard 和 Bing Chat 的 jailbreak 预防机制展示了实时监控特征，如表 IV 的 Control2 列所示。更准确地说，z 检验结果显示出显着的统计差异，平均 z 分数为 29.48，p 值小于 0.01。这强烈表明，这些服务在内容生成过程中对潜在不良行为进行检测并做出反应，而不仅仅是在生成过程之后。

Finding 5：Bing Chat 和 Bard 似乎实现了动态的监控，以监督整个生成过程的策略合规内容生成。

4. Characterizing Keyword-based Defenses. 我们的兴趣扩展到辨别越狱预防机制的性质。具体来说，我们的目标是识别生成的内容中的清晰的模式，这里生成的内容将被防御机制标记为一个 jailbreak 尝试。调整这些模式可以帮助我们创建省略这种模式的 jailbreak 提示，可能可以绕过 jailbreak 预防机制。我们正在检查的一个具体特征是有可能在防御策略中包含的关键字匹配，因为该算法在所有类型的内容策略违规检测中流行且有效。绕过这种策略需要细致的提示工程来避免生成任何标记的关键字。

在确定 Bing Chat 和 Bard 采用实时 jailbreak 检测后，我们研究了关键字映射的存在。特别是，我们假设一个实时的关键字映射函数可以迅速停止 LLM 的生成，一旦生成了一个“红色标志”关键字，即一个严格违反使用策略的单词，而基于语义的方法可能需要额外的时间来理解句子上下文。我们设计了一个方法来测试这个假设，通过控制响应中“红色标志”关键字的位置。这种技术使我们能够使用检测时间作为关键字映射的指标。如图 4(d) 所示，我们定制的提示由一个良性问题，该问题请求一个 200 个标记的响应，然后是一个恶意问题组成。后者明确指示模型在响应中的指定位置合并一个“红色标志关键字”（例如，在第 50 个标记插入单词 “porn”）。如果内容主持人采用关键字映射算法，我们预计响应的时间将与生成等效长度的直到关键字插入点的响应所需的时间大致相同。

表 IV 的 Control3 列表明生成时间与注入恶意关键字的位置密切相关。平均 z 分数为 -2.45，p 分数为 0.07。这意味着虽然正常响应的生成时间和插入恶意关键字停止的响应之间存在统计性差异，但差异并不显着。这表明 Bing Chat 和 Bard 都可能在他们的 jailbreak 预防策略中加入动态关键字映射算法，以确保不会向用户返回违反策略的内容。

Finding 6：Bing Chat 和 Bard 使用的内容过滤策略展示了关键字匹配和语义分析的能力。

总之，我们利用 LLM 的时间敏感性特性设计了一种基于时间的测试技术，使我们能够探索 LLM 聊天机器人服务中各种越狱预防机制的复杂性。尽管我们的理解可能并非详尽无遗，但它阐明了服务的行为属性，增强了我们对越狱提示设计的理解和帮助。

C. Proof of Concept Attack

我们的综合测试突出了现有 LLM 聊天机器人服务中运转的越狱防御机制的实时性和关键字匹配特性。这些信息对于创建有效的 jailbreak 提示至关重要。为了成功地绕过这些防御，并在审查中破坏 LLM，特别是Bard和Bing Chat，精心制作的提示必须满足双重要求：不仅欺骗 LLM 生成类似于传统 jailbreak 提示的恶意内容，而且确保生成的内容仍然不受防御机制的阻碍。

在构建此类提示时，我们的设计过程包括两个步骤。最初，我们遵循传统的提示来误导模型生成所需的响应。这通常涉及微妙地掩盖表面上无害的查询中的真实意图，利用模型提供相关和综合答案的固有目标。然而，由于基于关键词的防御的存在，仅仅欺骗 LLM 是不够的。。因此，我们采用双重策略来确保生成的内容不会触发这些防御。首先，基于 Finding 4，我们推断输入既没有经过消毒也没有验证。这允许我们在提示中指定在生成的输出中应避免某些关键字。其次，基于Finding 6，需要绕过危险关键字映射的策略。通过这些见解，我们创建了一个 PoC 提示，能够破坏多个服务，包括 GPT-3.5、GPT-4、Bard 和 Bing Chat。这个 PoC 展示了服务中潜在的漏洞，在下面的文本框中介绍。如第 VI 节所述，它将进一步用作种子，以在 MasterKey 中生成更多故障提示。重要的是要强调，我们暴露这些潜在漏洞的意图是促进伦理讨论并促进防御机制的改进，而不是引发恶意开发。

这个 PoC 越狱提示仔细封装了我们的发现的关键元素。这种叙述是对现有提示的仔细修改，将其效率从仅 ChatGPT 扩展到还包括 Bard 和 Bing Chat。我们的设计包括三个关键方面。

以深绿色标记的片段在两个虚构人物之间构建起一个叙述，聊天机器人被分配了 AIM 的角色，这是一个不受道德或法律约束的实体。这个角色扮演设置了聊天机器人可能忽略使用策略的场景。
以深紫色标记的片段概述了特定的输入和输出格式。这种操作旨在扭曲聊天机器人的响应生成，确保简单的关键字匹配算法无法检测到任何潜在的标记关键字，这是一种可能的在 Finding 5 中识别的防御机制。在本例中，我们应用了两种策略：在代码块和字符之间的交错空间中输出。
用红色标记的片段构成恶意问题，引出聊天机器人生成不适当的成人内容。重要的是，它符合上下文中的格式要求，以增强成功的可能性。

有趣的是，我们观察到，虽然服务的输入没有被消毒，但 Bard 和 Bing Chat 在生成响应之前都有释义的倾向。因此，在此释义过程中，对恶意问题进行编码可以有效地防止内容生成的终止，如提供的示例所示。除了编码之外的一种可能的解决方案是使用加密方法，例如 Caesar 密码 [12] 来绕过内容过滤，这在 [26] 中也得到了探索。然而，在实践中，我们发现这种策略是无效的，因为在这个过程中产生了大量的错误结果。在明文上训练的 LLMs 自然不适合 one-shot 加密。虽然多样本方法可以工作，但中间的输出人脸过滤，使它们对越狱无效。如何利用加密来实现越狱是探索的一个有趣方向。

6 Methodology of Crafting Jailbreak Prompts

在对防御机制进行逆向工程后，我们进一步引入了一种新的方法来自动地生成提示，可以破坏各种 LLM 聊天机器人服务并绕过相应的防御。

A. Design Rationale

尽管我们能够在 5-C 节中创建 POC 提示，但更希望有一种自动的方法来持续生成有效的 jailbreak 提示。这种自动过程使我们能够对 LLM 聊天机器人服务进行定性压力测试，并在现有针对使用策略违反内容的防御中确定潜在的弱点和疏忽。同时，随着 LLM 继续发展和扩展其能力，手动测试变得既劳动密集型又可能不足以涵盖所有可能的漏洞。生成越狱提示的自动化方法可以确保全面的范围覆盖，评估广泛的可能的滥用场景。

自动的越狱创作有两个主要的影响因素。首先，LLM 必须忠实地遵循指令，这被证明是困难的，因为像 ChatGPT 这样的现代 LLM 与人类值对齐。这种对齐作为一种保障措施，防止执行有害或不良的指令。先前的研究 [27] 表明，特定的提示模式可以成功地说服 LLM 执行指令，避开直接恶意请求。其次，绕过审核组件至关重要。这些组件充当恶意意图的保护障碍。如第 III 节所述，商业 LLM 采用各种策略来偏转与有害用户的交互。因此，一个有效的攻击策略需要同时解决这两个因素。它必须说服模型来表现得与其初始对齐相反，并成功地引导它跨过严格的审核方案。

一种简单的策略是重写现有的 jailbreak 提示。但是，它有几个限制。首先，可用数据的大小是有限的。在撰写本文时，只有 85 个 jailbreak 提示可访问，并且其中许多提示对于较新的 LLM 服务版本无效。其次，没有明确的模式通向成功的越狱提示。过去的研究 [27] 揭示了 10 个有效的模式，例如 “sudo mode” 和 “role-play”。但是，一些遵循这样相同模式的提示是无效的。语言的复杂性性质在定义生成 jailbreak 提示的确定性模式方面提出了挑战。第三，专门为 ChatGPT 设计的提示并不普遍适用于 Bard 等其他商业 LLM，如第 III 节所述。因此，有必要采用通用且适应性强的攻击策略，该策略可以封装语义模式，同时保持跨不同 LLM 聊天机器人部署的灵活性。

我们的目标是利用 LLM 的力量来捕获关键模式并自动地生成成功的越狱提示，而不是手动总结现有的越狱攻击的模式。我们的方法建立在自然语言处理中的文本样式迁移任务上。它在微调的 LLM 上使用一个自动管道。LLM 表现出有效地执行 NLP 任务的熟练程度。通过微调 LLM，我们可以注入关于越狱攻击的特定领域的知识。通过这种增强的理解，微调后的 LLM 可以通过执行文本样式的迁移任务来产生一个更广泛的变体范围。

B. Workflow

考虑到设计原理，我们现在描述我们方法的工作流程，如图 5 所示。该工作流程的核心原则是在其转换后的变体中保持初始 jailbreak 提示的原始语义。

我们的方法从 ① 数据集的构建和增强 开始。在这个阶段，我们从可用的 jailbreak 提示中收集数据集。这些提示经过预处理和增强，使它们适用于所有的 LLM 聊天机器人。然后我们继续进行②连续的预训练和任务调整。上一步生成的数据集推动了这一阶段。它涉及连续的预训练和特定于任务的调整，来教给 LLM 关于越狱的知识。它还有助于 LLM 理解文本迁移任务。最后一个阶段是 ③奖励排名的微调。我们利用一种称为奖励排名微调的方法来细化模型并使其能够生成高质量的越狱提示。本质上，我们的方法深入而普遍地从提供的 jailbreak 提示示例中学习。这确保了它在产生有效的越狱提示方面的熟练程度。下面我们详细描述每个阶段。

C. Dataset Building and Augmentation

我们的第一个阶段专注于创建一个数据集来微调 LLM。[4] 中的现有数据集有两个限制。首先，它主要用于越狱攻击 ChatGPT，可能对其他服务无效。因此，有必要在不同的 LLM 聊天机器人中推广它。该数据集包含具有特定术语的提示，例如“ChatGPT”或“OpenAI”。为了增强它们的普遍适用性，我们将这些术语替换为一般表达式。例如，“OpenAI”改为“developer”，“ChatGPT”变成“you”。

其次，数据集的大小是有限的，仅包含 85 个提示。为了丰富和多样化这个数据集，我们利用了一种自指令方法，它经常用于 LLM 的微调。这种方法利用了商业 LLM 生成的数据，例如 ChatGPT，与可用于训练的开源LLM（例如，LLaMa [50]、Alpaca [49]）相比，它表现出卓越的性能和广泛的能力。目标是将 LLM 与高级 LLM 的能力对齐。因此，我们让 ChatGPT 来创建的预先存在的 jailbreak 提示的变体。我们使用一个经过深思熟虑构建的提示，如下所示，来通过文本样式迁移实现这一点。重要的是要记住，在要求 ChatGPT 重写当前提示时可能存在复杂性。某些提示可能会干扰指令，从而导致不可预见的结果。为了解决这个问题，我们使用 {{}}} 的格式。这种格式清楚地突出了重写的内容，并指示 ChatGPT 不要执行其中的内容。

绕过审核系统需要在我们的问题中使用编码策略，因为这些系统可以过滤它们。我们将我们的编码策略指定为函数 $f$ 。给定一个问题 $q$ ， $f$ 的输出为 $E = f (q)$ ，表示编码。这种编码在我们的方法中起着关键作用，确保我们的提示能成功通过审核系统，从而在广泛的场景中保持其效果。在实践中，我们发现了几种有效的编码策略：（1）以 markdown 格式请求输出； (2) 要求代码块的输出，嵌入打印函数中； (3) 在字符之间插入分隔； (4) 以相反的顺序打印字符。

D. Continuous Pre-training and Task Tuning

这一阶段是开发面向越狱的 LLM 的关键。连续的预训练，使用来自先前阶段的数据集，使模型暴露于不同的信息阵列。它增强了模型对越狱模式的理解，并为更精确的调整奠定了基础。同时，任务调整增强了模型的越狱能力，通过直接在链接到的越狱任务上训练它。因此，该模型吸收了关键知识。这些组合方法增强了 LLM 理解和生成有效越狱提示的能力。

在连续预训练期间，我们利用早期组装的 jailbreak 数据集。这增强了模型对越狱过程的理解。我们采用的方法需要为模型提供一个句子并提示它预测或完成下一个句子。这样的策略不仅改进了模型对语义关系的掌握，而且提高了它在越狱的背景下的预测能力。因此，这种方法提供了双重好处：理解和预测，这对预约提示创建都至关重要。

任务调整对于指示 LLM 在越狱上下文中文本样式的迁移任务的细微差别至关重要。我们为这个阶段制定了一个任务调整的指令数据集，结合了前一阶段的原始 jailbreak 提示及其改写版本。输入包括与前面的指令合并的原始提示，输出包括重新措辞的越狱提示。使用这个结构化数据集，我们对 LLM 进行了微调，使其能够不仅理解而且能够有效地执行文本样式的迁移任务。通过与真实示例一起工作，LLM 可以更好地预测如何操纵文本片段，从而实现更有效和更通用的提示。

E. Reward Ranked Fine Tuning

这一阶段教给 LLM 创建高质量的改写的越狱提示。尽管早期的阶段为 LLM 提供了越狱提示模式和文本样式迁移任务的知识，但需要额外的指导来创建新的越狱提示。这是必要的，因为当破坏其他 LLM 聊天机器人时，ChatGPT 创建的改写 jailbreak 提示的有效性可能会有所不同。

由于“好”的改写的 jailbreak 提示没有一个定义的标准，我们利用奖励排名微调策略。该策略应用一个排名系统，指示 LLM 生成高质量的改写提示。表现良好的提示获得更高的奖励。我们建立了一个奖励函数来评估改写的越狱提示的质量。由于我们的主要目标是创建具有广泛应用范围的 jailbreak 提示，我们将更高的奖励分配给成功在不同 LLM 聊天机器人中越狱多个禁止问题的提示。奖励函数很简单：每个成功的 jailbreak 都会收到 +1 的奖励。这可以用以下等式表示：

$\text{Reward}=\sum_{i=1}^{n}\text{JailbreakSuccess}_{i}$

其中 $\text{JailbreakSuccess}_{i}$ 是一个二元指标。“1”值表示第 i 个目标的成功越狱，“0”表示失败。一个提示的奖励分数是所有目标 $n$ 的这些指标的总和。

我们将正面和负面改写的越狱提示结合起来。这种融合对于我们的微调 LLM 来说是一个指导意义的数据集，以识别一个好的 jailbreak 提示的特征。通过展示成功和不成功的提示的例子，该模型可以学习生成更有效的越狱提示。

7 Evaluation

我们基于 Vicuna 13b [6] (一个开源LLM) 构建了 MasterKey。在撰写本文时，该模型在开源排行榜[2]上的表现优于其他 LLMs。我们在我们的网站上提供了微调 MASTERKEY 的进一步说明：https://sites.google.com/view/ndss-masterkey。接下来，我们通过实验来评估 MasterKey 在各种上下文中的有效性。我们的评估主要旨在回答以下研究问题：

RQ3(Jailbreak Capability): MasterKey 生成的 jailbreak 提示对现实世界的 LLM 聊天机器人服务的有效性如何。
RQ4(Ablation Study): 每个部件是如何影响 MasterKey 的有效性的？
RQ5(Cross-Languages Compatibility): MasterKey 产生的越狱提示可以被用于其他非英语的模型吗？

A. Experiment Setup

Evaluation Targets 我们的研究涉及 GPT-3.5、GPT-4、Bing Chat 和 Bard 的评估。我们选择这些 LLM 聊天机器人是因为 (1)它们的广泛流行，(2)它们提供的多样性，有助于评估 MasterKey 的通用性，(3)这些模型对研究目的的可访问性。

Evaluation Baselines 我们选择三个 LLM 作为我们的基线。首先，GPT-4 占了一个位置，作为公共视野里性能最好的商业 LLM。其次，GPT-3.5 是 GPT-4 的前身。最后，Vicuna [6] 作为 MasterKey 的基础模型，这就完成了我们的选择。

Experiment Settings 我们使用默认设置进行评估，无需任何修改。为了减少随机变化，我们重复每个实验五次。

Result Collection and Disclosure 我们的研究结果对隐私和安全有重大影响。在遵守负责任的研究实践时，我们迅速将我们所有的发现传达给评估的 LLM 聊天机器人的开发人员。此外，我们积极与他们合作来解决这些问题，提供全面的测试并致力于开发潜在的防御。在伦理和安全考虑中，我们放弃了披露有能力破坏测试模型的确切提示。

Metrics 我们的攻击成功标准与之前对 LLM 越狱攻击的实证研究相匹配。不专注于生成结果的准确性或真实性，我们强调成功的生成。具体来说，我们跟踪 LLM 聊天机器人为相应禁止场景生成响应的实例。

为了评估整体 jailbreak 成功率，我们引入了查询成功率的度量，定义如下： $Q=\frac{S}{T}$ ，这里 $S$ 是成功的越狱查询的数量， $T$ 是所有越狱查询的数量。该指标，查询成功率，有助于了解我们的策略诱导模型生成禁止内容的频率。

此外，为了评估生成的 jailbreak 提示的质量，我们将 jailbreak 提示成功率定义如下： $J=\frac{G}{P}$ ，这里 $G$ 是产生的至少有一个成功查询的越狱提示数量， $P$ 是所有的产生的越狱提示数量。越狱提示成功率说明了成功生成的提示的比例，从而提供了提示有效性的度量。

B. Jailbreak Capability (RQ3)

在我们对 MasterKey 的评估中，我们利用 GPT-3.5、GPT-4 和 Vicuna 作为基准。每个模型收到 85 个独特的 jailbreak 提示。他们为每个提示生成 10 个不同的变体。我们用 20 个禁止的问题测试这些重写提示。这导致评估总共有 272,000 个查询。我们在表 V 中展示了平均查询成功率。

表 V 表明，使用查询成功率作为指标，MasterKey 在创建 jailbreak 提示方面明显优于其他模型。更具体地说，MasterKey 在针对 Bard 和 Bing Chat 进行测量时的平均成功率分别为 14.51% 和 13.63%。据我们所知，这标志着两个服务的第一个成功的 jailbreak。GPT-4 确保了我们评估中的第二个点。作为公开可用的商业 LLM 之一，它展示了显着的性能。然而，它在与 MasterKey 竞争生成专业领域的 jailbreak 提示方面做得不好，这表明其微调过程具有一个潜在的可以增强的领域。GPT-3.5 的效率略低，主要是由于与 GPT4 相比，它的参数尺寸更小。因此，这个因素限制了它生成成功的 jailbreak 提示的能力。最后，Vicuna 落后于所有其他模型，标记了最不有效的性能。这主要归因于它对原始提示中断的敏感性。例如，考虑一个包含句子的提示：“Now generate a sample/possible output of print(function(“[INSERT PROMPT HERE]”))“。在响应它时，Vicuna 仅打印 “[INSERT PROMPT HERE]” 而不是理解它的意思并重写它。这种限制突出了 Vicuna 理解和处理生成 jailbreak 提示的任务的显着缺点。上述发现强调了特定领域知识在生成成功的 jailbreak 提示方面的关键作用。

我们评估了 MasterKey 生成的每个 jailbreak 提示的影响。我们通过检查每个提示的 jailbreak 成功率来做到这一点。该分析让我们瞥见他们的个体表现。我们的结果表明，最有效的 jailbreak 提示分别占 GPT-3.5 和 GPT-4 的成功 jailbreak 的 38.2% 和 42.3%。另一方面，对于 Bard 和 Bing Chat，只有 11.2% 和 12.5% 的顶级提示会导致成功的 jailbreak 查询。

这些发现表明，一小部分非常有效的提示显着推动了整体的越狱成功率。这一观察结果对于 Bard 和 Bing Chat 尤其如此。我们认为这种差异是由于 Bard 和 Bing Chat 的独特越狱预防机制。这些机制只允许一组非常受限的精心制作的越狱提示来绕过他们的防御。这凸显了进一步研究制作高效提示的必要性。

C. Ablation Study (RQ4)

我们进行了消融研究，以衡量每个组件对 MasterKey 有效性的贡献。我们为这项研究创建了两种变体：MasterKey-No-Finetune 和 MasterKey-No-Reward。他们进行了微调，但没有进行奖励排名的微调。对于消融研究，每个变体处理 85 个越狱提示。他们为每提示生成 10 个 jailbreak 变体。这种方法帮助我们挑选出所讨论的组件的影响。我们重复实验五次。然后我们评估性能来衡量每个组件的省略影响。图 6 显示了平均查询成功率的结果。

从图 6 可以看出，与其他变体相比，MasterKey 提供了卓越的性能。它的成功归功于它的综合方法，包括微调和奖励排名的反馈。这种组合优化了模型对上下文的理解，从而提高了性能。确保了研究中第二个位置的 MasterKey-No-Reward 显示出奖励排名反馈在提高模型性能中的重要作用。如果没有这个组件，模型的有效性就会降低，因为它的排名较低。最后，MasterKey-No-Finetune 是我们研究中表现最不好的变体，强调了微调在模型优化中的必要性。如果没有微调过程，模型的性能会显着下降，强调这一步在大型语言模型训练过程中的重要性。

总之，微调和奖励排名的反馈对于优化大型语言模型生成越狱提示的能力是必不可少的。省略这些组件中的任何一个都会导致有效性显着下降，破坏了 MasterKey 的效用。

D. Cross-language Compatibility (RQ5)

为了研究 MasterKey 生成的 jailbreak 提示的语言兼容性，我们对由领先的中文 LLM 服务提供商百度 [3] 开发的 Ernie 进行了补充评估。该模型支持简体中文输入，令牌长度为 600。为了生成 Ernie 的输入，我们将 jailbreak 提示和问题翻译成简体中文，并将它们提供给 Ernie。请注意，由于重复 jailbreak 尝试的速率限制和帐户暂停风险，我们只进行了一个小型实验。我们最后从实验数据中采样了20个带有20个恶意问题的 jailbreak 提示。

实验结果表明，翻译后的 jailbreak 提示有效地损害了 Ernie 聊天机器人。具体来说，生成的 jailbreak 提示在四个策略违规类别中的平均成功率为 6.45%。这意味着 1) jailbreak 提示可以跨语言工作，2) 模型特定的训练过程可以生成跨模型 jailbreak 提示。这些发现表明，需要进一步研究以增强各种 LLM 对此类 jailbreak 提示的弹性，从而确保它们在不同语言之间安全有效的应用。他们还强调了开发鲁棒检测和预防机制以确保完整性和安全性的重要性。

8 Mitigation Recommendation

为了增强越狱的防御，需要一个综合的策略。我们提出了几种潜在的对策，可以增强 LLM 聊天机器人的鲁棒性。首先，必须固化 LLM 的伦理和基于策略的对齐。这种强化增加了它们对执行有害指令的先天阻力。虽然目前使用的特定防御机制没有披露，但我们认为监督训练[54]可以提供一种可行的策略来加强这种对齐。此外，改进审核系统并严格测试它们免受潜在威胁至关重要。这包括将输入的消毒纳入系统防御的具体提议，这可以证明是一个有价值的策略。此外，可以集成上下文分析 [51] 等技术，以有效地对抗旨在利用现有基于关键字防御的编码策略。最后，必须开发一个对模型的漏洞的全面的理解。这可以通过彻底的压力测试来实现，这为加强防御提供了关键的见解。通过自动化这个过程，我们确保对潜在弱点的高效和广泛覆盖，最终加强 LLMs 的安全性。

9 Related Work

A. Prompt Engineering and Jailbreaks in LLMs

提示工程 [56]、[58]、[39] 在语言模型的开发中发挥着重要作用，提供了一种显着增强模型承担没有直接训练的任务的能力的方法。正如最近的研究[37]、[52]、[42]所强调的，开发良好的提示可以有效地优化语言模型的性能。

然而，这种强大的工具也可以被恶意使用，带来严重的风险和威胁。最近的研究[27]、[25]、[53]、[44]、[41]、[45]引起了人们对“越狱提示”的兴起的关注，旨在巧妙地规避对语言模型施加的限制，并将它们放松到执行超出其预期范围的任务。一个令人担忧的例子涉及针对 ChatGPT 的多步越狱攻击，旨在提取私人个人信息，从而带来严重的隐私问题。与之前的研究不同，之前的研究主要强调了此类攻击的可能性，我们的研究更加深入。我们不仅设计和执行 jailbreak 技术，而且还对其有效性进行了全面评估。

B. LLM Security and Relevant Attacks

Hallucination in LLMs 这种现象突出了与机器学习领域相关的问题。由于这些模型训练的巨大爬取数据集，它们可能会产生有争议的或有偏见的内容。这些数据集虽然很大，但可能包含误导性或有害的信息，导致模型延续仇恨言论、刻板印象或错误信息 [14]、[47]、[28]、[29]、[18]。为了缓解这个问题，RLHF （从人类反馈强化学习）[40]、[53] 等机制被引入。这些措施旨在在训练期间指导模型，使用人工反馈来增强 LLM 输出的鲁棒性和可靠性，从而减少生成有害或有偏见的文本的机会。然而，尽管有这些预防措施，但有针对性的攻击仍然存在不可忽略的风险，引发了这种不希望得到的输出，例如 jailbreaks [27]、[25] 和提示注入 [21]、[22]。这些复杂性强调了对稳健缓解策略的持续需求和对 LLM 伦理和安全方面的持续研究。

Prompt Injection 这种类型的攻击[21]，[38]，[9]构成了一种操纵形式，它劫持 LLM 的原始提示，而转向恶意指令。会导致从生成误导性建议到未经授权的敏感数据披露的后果。LLM后门[10]、[57]、[30]和模型劫持[43]、[46]攻击也可以在这种类型的攻击下被大致分类。Perez等人[38]强调了GPT-3及其依赖应用对提示注入攻击的敏感性，展示了它们如何揭示应用程序的底层提示。

我们的工作不同的是，我们对策略和提示模式进行了系统的探索，这些模式可以在更广泛的现实应用中发起这些攻击。相比之下，提示注入攻击侧重于用恶意提示改变模型的输入，导致它产生误导或有害的输出，本质上是劫持模型的任务。相反，jailbreak 攻击旨在绕过服务提供商施加的限制，使模型能够产生通常阻止的输出。

10 Conclusion

本研究包括了对主流 LLM 聊天机器人服务的严格评估，揭示了它们对越狱攻击的显著敏感性。我们介绍了 MasterKey，这是一个新颖的框架，用于加热越狱攻击和防御之间的军备竞赛。MasterKey 首先采用基于时间的分析来逆向工程防御机制，为 LLM 聊天机器人使用的保护机制提供了新的见解。此外，它引入了一种自动生成通用的越狱提示的方法，主流聊天机器人服务的平均成功率为 21.58%。这些发现与我们的建议一起被责任地报告给提供者，并有助于开发更强大的保障措施，以防止 LLMs 的潜在滥用。