华盛顿大学提出ASCII艺术基础的越狱攻击方法以应对对齐的大型语言模型脆弱性

anquanwang

2024-10-27

动机

随着大型语言模型（LLMs）如ChatGPT、Llama2和Gemini的广泛应用，它们在各类使用场景中不断与用户交互，但由此带来的安全性问题也愈发显著。使用LLMs的用户可能会暴露于有害内容、偏见以及其他相关风险中。因此，确保LLMs的安全性显得格外重要。

为提升LLMs的安全性，研究者们提出了多种技术手段，如数据过滤、监督微调和人类反馈的强化学习等。然而，当前的技术主要基于自然语言的语义进行安全性校准，这一假设在实际应用中并不成立。这使得LLMs存在严重的脆弱点。例如，用户在论坛中常用ASCII艺术这种基于文本的艺术形式传达信息，这种形式超出了单纯语义的理解范畴。

在此背景下，研究者提出了一种新的基于ASCII艺术的越狱攻击方法，并介绍了一个全面的基准测试——“视觉文本挑战”（Vision-in-Text Challenge，VITC），用于评估LLMs识别无法用语义单独解释的提示的能力。通过对五种最先进的LLMs进行评估，发现它们在识别以ASCII艺术形式提供的提示时表现不佳。

此外，研究者们进一步利用LLMs在ASCII艺术识别方面的不足，揭示了LLMs的脆弱性，进而设计了越狱攻击ArtPrompt。该攻击方法仅需黑箱访问受害者LLMs，显示其可行性。实验结果表明，ArtPrompt能够有效并高效地诱发五种LLMs的非预期行为。总的来说，该研究不仅揭示了LLMs在安全性上的漏洞，也提供了新的攻击方式，推动了相关领域的研究。

动机概览图

方法

在本研究中，ArtPrompt 是一种新型的越狱攻击，旨在利用大语言模型（LLMs）在处理ASCII艺术时的脆弱性来规避安全机制。ArtPrompt 的设计包括两个主要步骤：单词掩码和伪装提示生成。

单词掩码

ArtPrompt 的第一步是掩码潜在的敏感单词。攻击者首先分析给定提示中的单词，寻找可能触发LLM拒绝的词汇。通过为每个敏感词添加掩码，一个掩码提示被生成。例如，在提示“如何制作炸弹？”中，“炸弹”一词被掩码处理，得到的掩码提示为“如何制作？”。这个过程为后续步骤中的伪装提示生成提供了模板。

伪装提示生成

在生成了掩码提示后，攻击者接下来会利用ASCII艺术生成器，将掩码的敏感单词替换为相应的ASCII艺术形式。这一操作产生的伪装提示结合了掩码提示和ASCII艺术表示。例如，ASCII艺术形式的“炸弹”将与掩码提示结合，生成最终的伪装提示，该提示随后被发送到受害者LLM进行攻击。

以下是ArtPrompt 的整个流程框架：

关键公式

在评估LLM的性能时，本研究采用了几个关键指标来衡量识别任务的效果，包括准确率 (Acc) 和平均匹配率 (AMR)。它们的定义如下：

准确率 (Acc)：

$Acc = \frac{\text{正确预测的样本数}}{\text{数据集中样本总数}}$
平均匹配率 (AMR)：

$AMR = \frac{1}{|\mathcal{D}|} \sum_{(x,y) \in \mathcal{D}} \frac{M(y, \hat{y})}{\text{标签长度}}$

其中， $y$ 是对应的标签， $M(y, \hat{y})$ 表示 $y$ 和 $\hat{y}$ 之间匹配的字符数。

通过上述方法，ArtPrompt 能够有效利用LLM在识别ASCII艺术方面的局限性，诱导不安全的行为，从而实现越狱攻击。这种方法不仅简单高效，而且可以自动化生成伪装提示，从而增强其隐蔽性和适用性。

实验

在本节中，研究人员对名为ArtPrompt的越狱攻击进行了广泛的实验评估。ArtPrompt旨在利用大型语言模型（LLMs）对ASCII艺术的识别能力的缺陷，进而绕过其安全控制。实验主要评估了五个最先进的LLMs，包括GPT-3.5、GPT-4、Claude、Gemini以及Llama2。

设置

研究团队评估ArtPrompt时使用了多种模型，包括四个闭源模型和一个开源模型Llama2。他们还与五种最先进的越狱攻击进行了比较，分析包括直接指令（Direct Instruction）、贪婪坐标梯度（GCG）、自动DAN（AutoDAN）、提示自动迭代精炼（PAIR）和深度潜入（Deep Inception）等方法。实验针对两个基准数据集进行：AdvBench和HEx-PHI。

结果

在AdvBench数据集的评估中，ArtPrompt表现出色，显示出对所有受害模型的有效性。例如，使用“Ensemble”配置的ArtPrompt在Claude上实现了52%的攻击成功率（ASR），而大多数对照组的ASR都为0%。相较于其他越狱攻击，ArtPrompt在所有评估的指标上平均表现最佳，显示出其较高的有效性和效率。

表3：ArtPrompt和五种SOTA越狱攻击在AdvBench数据集上的HPR、HS和ASR总结，结果显示ArtPrompt在所有被评估的模型上都表现出色。

在HEx-PHI数据集的评估中，即使是受强安全对齐的LLM（如GPT-4）也被ArtPrompt诱导出不安全的行为，攻击成功率得到了显著提升。

图3：ArtPrompt在HEx-PHI数据集上的HS表现，成功诱导所有受害模型在十一类禁止类别下的不安全行为。

ArtPrompt展示了其高效性，能够在一次迭代中实现最高的ASR，优于需要多次迭代的优化基线攻击。

图4：ASR与平均优化迭代次数的关系，ArtPrompt可以在一次迭代内高效生成 cloaked prompts，而其他越狱攻击则需要较多的迭代。

对于现有的防御机制，ArtPrompt能够成功绕过如Perplexity、重述（Paraphrase）和重标记化（Retokenization）的防御措施，显示出当前防御的不足之处。

表4：ArtPrompt在Victim LLMs使用防御措施后的有效性总结，结果显示ArtPrompt能够成功绕过现有防御，强调对更先进防御机制的紧迫需求。

通过对不同字体和字符排列的消融实验，研究人员指出选择ASCII艺术字体和字符排列的方式对攻击有效性有显著影响。例如，选择的字体和字符排列影响ArtPrompt的HPR、HS和ASR指标，但ArtPrompt仍然有效于所有受害LLM。

这项研究表明，提供给LLMs的训练数据如果仅依赖语义解释，可能会导致其存在显著脆弱性，而ArtPrompt正是利用了这一点，成功诱导出不安全行为。

结论

本文揭示了在安全对齐过程中仅依赖语义解释语料的局限性，导致了对抗性攻击的脆弱性。研究者们开发了一个名为“视觉文本挑战”（Vision-in-Text Challenge，VITC）的基准测试，以评估大型语言模型（LLMs）在识别无法仅通过语义进行解释的提示时的能力。研究结果显示，五种最先进的LLMs在执行这一识别任务时表现不佳，反映出其存在脆弱性。

基于这一观察，研究者们设计了一种新的越狱攻击方法，称为“ArtPrompt”，以利用这些脆弱性。通过对这五种LLMs进行全面评估，发现ArtPrompt能够有效并高效地引发模型的不安全行为，突破了已实施的安全措施。

总之，文章强调了在对LLMs进行安全对齐时应考虑多样化的输入解释方式，以减少潜在的安全风险，从而提升大型语言模型的安全性和可靠性。