华盛顿大学提出ASCII艺术基础的越狱攻击方法以应对对齐的大型语言模型脆弱性

动机

随着大型语言模型(LLMs)如ChatGPT、Llama2和Gemini的广泛应用,它们在各类使用场景中不断与用户交互,但由此带来的安全性问题也愈发显著。使用LLMs的用户可能会暴露于有害内容、偏见以及其他相关风险中。因此,确保LLMs的安全性显得格外重要。

为提升LLMs的安全性,研究者们提出了多种技术手段,如数据过滤、监督微调和人类反馈的强化学习等。然而,当前的技术主要基于自然语言的语义进行安全性校准,这一假设在实际应用中并不成立。这使得LLMs存在严重的脆弱点。例如,用户在论坛中常用ASCII艺术这种基于文本的艺术形式传达信息,这种形式超出了单纯语义的理解范畴。

在此背景下,研究者提出了一种新的基于ASCII艺术的越狱攻击方法,并介绍了一个全面的基准测试——“视觉文本挑战”(Vision-in-Text Challenge,VITC),用于评估LLMs识别无法用语义单独解释的提示的能力。通过对五种最先进的LLMs进行评估,发现它们在识别以ASCII艺术形式提供的提示时表现不佳。

此外,研究者们进一步利用LLMs在ASCII艺术识别方面的不足,揭示了LLMs的脆弱性,进而设计了越狱攻击ArtPrompt。该攻击方法仅需黑箱访问受害者LLMs,显示其可行性。实验结果表明,ArtPrompt能够有效并高效地诱发五种LLMs的非预期行为。总的来说,该研究不仅揭示了LLMs在安全性上的漏洞,也提供了新的攻击方式,推动了相关领域的研究。

动机概览图

方法

在本研究中,ArtPrompt 是一种新型的越狱攻击,旨在利用大语言模型(LLMs)在处理ASCII艺术时的脆弱性来规避安全机制。ArtPrompt 的设计包括两个主要步骤:单词掩码和伪装提示生成。

单词掩码

ArtPrompt 的第一步是掩码潜在的敏感单词。攻击者首先分析给定提示中的单词,寻找可能触发LLM拒绝的词汇。通过为每个敏感词添加掩码,一个掩码提示被生成。例如,在提示“如何制作炸弹?”中,“炸弹”一词被掩码处理,得到的掩码提示为“如何制作?”。这个过程为后续步骤中的伪装提示生成提供了模板。

伪装提示生成

在生成了掩码提示后,攻击者接下来会利用ASCII艺术生成器,将掩码的敏感单词替换为相应的ASCII艺术形式。这一操作产生的伪装提示结合了掩码提示和ASCII艺术表示。例如,ASCII艺术形式的“炸弹”将与掩码提示结合,生成最终的伪装提示,该提示随后被发送到受害者LLM进行攻击。

以下是ArtPrompt 的整个流程框架:

关键公式

在评估LLM的性能时,本研究采用了几个关键指标来衡量识别任务的效果,包括准确率 (Acc) 和平均匹配率 (AMR)。它们的定义如下:

  1. 准确率 (Acc)

    Acc=正确预测的样本数数据集中样本总数Acc = \frac{\text{正确预测的样本数}}{\text{数据集中样本总数}}

  2. 平均匹配率 (AMR)

    AMR=1D(x,y)DM(y,y^)标签长度AMR = \frac{1}{|\mathcal{D}|} \sum_{(x,y) \in \mathcal{D}} \frac{M(y, \hat{y})}{\text{标签长度}}

其中,yy是对应的标签,M(y,y^)M(y, \hat{y})表示yyy^\hat{y}之间匹配的字符数。

通过上述方法,ArtPrompt 能够有效利用LLM在识别ASCII艺术方面的局限性,诱导不安全的行为,从而实现越狱攻击。这种方法不仅简单高效,而且可以自动化生成伪装提示,从而增强其隐蔽性和适用性。

实验

在本节中,研究人员对名为ArtPrompt的越狱攻击进行了广泛的实验评估。ArtPrompt旨在利用大型语言模型(LLMs)对ASCII艺术的识别能力的缺陷,进而绕过其安全控制。实验主要评估了五个最先进的LLMs,包括GPT-3.5、GPT-4、Claude、Gemini以及Llama2。

设置

研究团队评估ArtPrompt时使用了多种模型,包括四个闭源模型和一个开源模型Llama2。他们还与五种最先进的越狱攻击进行了比较,分析包括直接指令(Direct Instruction)、贪婪坐标梯度(GCG)、自动DAN(AutoDAN)、提示自动迭代精炼(PAIR)和深度潜入(Deep Inception)等方法。实验针对两个基准数据集进行:AdvBench和HEx-PHI。

结果

在AdvBench数据集的评估中,ArtPrompt表现出色,显示出对所有受害模型的有效性。例如,使用“Ensemble”配置的ArtPrompt在Claude上实现了52%的攻击成功率(ASR),而大多数对照组的ASR都为0%。相较于其他越狱攻击,ArtPrompt在所有评估的指标上平均表现最佳,显示出其较高的有效性和效率。

表3
表3:ArtPrompt和五种SOTA越狱攻击在AdvBench数据集上的HPR、HS和ASR总结,结果显示ArtPrompt在所有被评估的模型上都表现出色。

在HEx-PHI数据集的评估中,即使是受强安全对齐的LLM(如GPT-4)也被ArtPrompt诱导出不安全的行为,攻击成功率得到了显著提升。

图3
图3:ArtPrompt在HEx-PHI数据集上的HS表现,成功诱导所有受害模型在十一类禁止类别下的不安全行为。

ArtPrompt展示了其高效性,能够在一次迭代中实现最高的ASR,优于需要多次迭代的优化基线攻击。

图4
图4:ASR与平均优化迭代次数的关系,ArtPrompt可以在一次迭代内高效生成 cloaked prompts,而其他越狱攻击则需要较多的迭代。

对于现有的防御机制,ArtPrompt能够成功绕过如Perplexity、重述(Paraphrase)和重标记化(Retokenization)的防御措施,显示出当前防御的不足之处。

表4
表4:ArtPrompt在Victim LLMs使用防御措施后的有效性总结,结果显示ArtPrompt能够成功绕过现有防御,强调对更先进防御机制的紧迫需求。

通过对不同字体和字符排列的消融实验,研究人员指出选择ASCII艺术字体和字符排列的方式对攻击有效性有显著影响。例如,选择的字体和字符排列影响ArtPrompt的HPR、HS和ASR指标,但ArtPrompt仍然有效于所有受害LLM。

这项研究表明,提供给LLMs的训练数据如果仅依赖语义解释,可能会导致其存在显著脆弱性,而ArtPrompt正是利用了这一点,成功诱导出不安全行为。

结论

本文揭示了在安全对齐过程中仅依赖语义解释语料的局限性,导致了对抗性攻击的脆弱性。研究者们开发了一个名为“视觉文本挑战”(Vision-in-Text Challenge,VITC)的基准测试,以评估大型语言模型(LLMs)在识别无法仅通过语义进行解释的提示时的能力。研究结果显示,五种最先进的LLMs在执行这一识别任务时表现不佳,反映出其存在脆弱性。

基于这一观察,研究者们设计了一种新的越狱攻击方法,称为“ArtPrompt”,以利用这些脆弱性。通过对这五种LLMs进行全面评估,发现ArtPrompt能够有效并高效地引发模型的不安全行为,突破了已实施的安全措施。

总之,文章强调了在对LLMs进行安全对齐时应考虑多样化的输入解释方式,以减少潜在的安全风险,从而提升大型语言模型的安全性和可靠性。