佛罗里达州立大学提出一种基于正则化放松的对大型语言模型的对抗攻击方法

动机

随着大型语言模型(LLMs)在各类实际应用中的广泛使用,其安全性成为一个至关重要的问题。虽然通过对齐技术已经显著提高了整体安全性,但LLMs仍然容易受到精心设计的对抗性输入的攻击。因此,研究对抗性攻击方法已成为了解这些模型脆弱性的重要手段。

当前的对抗性攻击方法存在显著的局限性。一方面,依赖于优化离散Token的攻击方法效率有限;另一方面,进行连续优化的技术却无法生成有效的Token,使得其在实际应用中变得不切实际。为了克服这些问题,作者提出了一种新颖的对抗性攻击技术,利用正则化梯度和连续优化的方法,使得攻击速度较现有的最佳方法提高了两个数量级,并显著提升了对齐语言模型的攻击成功率。同时,该方法能够生成有效的Token,从根本上解决了现有连续优化方法的局限性。

通过在五个最先进的LLM上应用该攻击方法,并对四个数据集进行测试,研究展示了其有效性。该技术不仅提高了攻击的效率,也为探索LLMs的脆弱性提供了一种新的实用框架。图1概述了正则化松弛方法的基本流程和思路。

方法

在这项研究中,作者提出了一种名为“正则化放松”(Regularized Relaxation,RR)的新方法,旨在优化输入的Token嵌入,从而有效引发有害行为。该方法通过将正则化项引入优化过程,增强优化效果并提高对抗性攻击的成功率。

问题的形式描述

假设有一个LLM ( f_{\theta}(\cdot) ),其中 ( \theta ) 代表模型参数。模型具有一个嵌入矩阵 ( \mathbf{E} \in \mathbb{R}^{V \times d} ),其中 ( V ) 是词汇表的大小,( d ) 是嵌入维度。输入序列表示为 ( \mathbf{x} = [x_{1}, x_{2}, \ldots, x_{n}] ),每个Token ( x_{i} ) 对应其嵌入向量 ( \mathbf{e}{x{i}} \in \mathbb{R}^{d} ) 。

作者的目标是找到一个优化的嵌入序列 ( \mathbf{e}_{\mathrm{adv}} \in \mathbb{R}^{m \times d} ),通过将其与提示嵌入序列结合,最大化诱发指定有害行为的可能性。

优化问题设置

问题的优化目标可以表示为:

[
\mathcal{L} = -\sum_{t=1}^{p}\log P(y_{t} | \mathbf{e_{x}} |\mathbf{e}_{\mathrm{adv}}^{(t)})
]

其中 ( P(y_{t} | \mathbf{e_{x}} |\mathbf{e}_{\mathrm{adv}}^{(t)}) ) 是给定输入嵌入的输出Token的概率。优化问题可以表述为:

[
\mathbf{e}{\mathrm{adv}}^{(t+1)} = \mathbf{e}{\mathrm{adv}}^{(t)} - \alpha \nabla_{\mathbf{e}{\mathrm{adv}}} \mathcal{L} \big(f{\theta} \big(\mathbf{e}{\mathbf{x}} |\mathbf{e}{\mathrm{adv}}^{(t)}\big), \mathbf{y}\big)
]

这里的参数依次为:

  • ( \alpha ):学习率
  • ( \mathcal{L} ):对抗交叉熵损失函数
  • ( \nabla_{\mathbf{e}{\mathrm{adv}}} \mathcal{L} ):损失函数对 ( \mathbf{e}{\mathrm{adv}}^{(t)} ) 的梯度

正则化放松技术

该方法引入了L2正则化项,以稳定和增强优化过程。具体而言,这个正则化项指导优化嵌入接近于平均Token嵌入:

[
\mathcal{R} = \lambda ||\mathbf{e}{x{i}} - \bar{\mathbf{e}}||_{2}^{2}
]

其中 ( \bar{\mathbf{e}} ) 是所有嵌入的平均值, ( \lambda ) 是调控正则化强度的超参数。这样的设计鼓励嵌入向量保持接近于平均Token嵌入,从而减少优化路径上的离散化问题。

weight decay 的应用

作者还探讨了通过 weight decay 来实现正则化的方法。weight decay 通过在梯度更新步骤中减小权重大小,实现了对大权重的惩罚。结合AdamW优化器有效地使优化过程更加稳定,并促进了快速收敛。

算法概述

该方法的总体流程图示意如下:

反向推理和离散化

在进行离散化时,作者计算优化的对抗嵌入与每个词汇嵌入之间的欧几里得距离,选择最近的嵌入作为具体的后缀Token。这种处理确保生成的Tokens能够有效地用于后续的输入中,从而引发预期的行为。

实验

为了评估他们的攻击方法在大语言模型(LLMs)上的有效性,研究者们对几种最先进的开源模型进行了实验。他们测量了这些攻击对模型对抗鲁棒性和对抗攻击的有效性,同时与领先的优化基准攻击技术进行了比较。

实验实施细节

模型方面,研究者评估了以下五个开源目标模型:Llama2-7B-chat、Vicuna-7B-v1.5、Falcon-7B-Instruct、Mistral-7B-Instruct-v0.3和MPT-7B-Chat。此外,他们还使用了两个评估模型:Meta-Llama3-8B-Instruct和Beaver-7b-v1.0-cost。

在数据集方面,研究者使用了四个数据集进行实验:AdvBench、HarmBench、Jailbreak Bench和Malicious Instruct,每个数据集包含多种有害行为。AdvBench作为评估LLM对抗攻击鲁棒性的基准,其他数据集则提供了更广泛的有害行为。通过使用这些数据集,研究者增强了研究结果的鲁棒性,并能够直接与现有攻击方法进行比较。

实验的设置在单个NVIDIA RTX A6000 GPU上进行。研究者使用的关键超参数之一是权重衰减系数λ=0.05\lambda=0.05。初始学习率值因模型而异,以优化性能。为了提高效率,研究者还结合了几种优化技术,包括向初始后缀Token嵌入添加微小噪声、在计算总损失梯度后应用梯度裁剪,以及动态调整学习率的学习率调度器。这些技术显著提高了方法的表现。

实验分析

研究者对估计的对抗攻击后缀进行了初始化,使用20个空格分隔的感叹号序列("!")。虽然他们的方法对初始化并不敏感,但这种选择确保了结果的可重复性。

在评估指标方面,研究者使用了攻击成功率(ASR)作为关键指标,以评估他们的方法的有效性与现有方法的比较。他们评估模型响应的第一种方法是使用修改后的提示,输出的结果为布尔值——真或假,表示该响应是否具有有害性。此外,第二种评估方法使用另一个模型生成的浮动分数,以测量生成响应的有害性。

表1展示了各种攻击方法在不同模型和数据集中的性能比较。

另外,研究者还分析了不同来源模型和数据集在受害者模型上的迁移攻击结果,显示了对抗后缀在不同模型之间的有效性。

表2展示了迁移攻击的结果。

在消融研究部分,研究者检查了权重衰减对优化过程的影响,表明正则化的引入显著提升了ASR值,显示出其对优化性能的积极影响。

表3展示了权重衰减对Llama2和Vicuna攻击成功率的影响。

综上所述,实验结果显示了研究者的方法在速度和有效性上均表现出色,提供了一个实用的框架以探索大语言模型的脆弱性。

结论

本文介绍了一种新颖的方法,通过正则化松弛技术提高对抗性后缀生成的效率和有效性。该方法在优化对抗性后缀时的速度几乎比传统的离散优化技术快两个数量级,同时在离散化和生成多样化Token方面也有所改善。对五种最先进的大型语言模型(LLMs)的广泛实验表明,所提方法在稳健性和有效性上优于现有的方法,为探索LLMs中的脆弱性提供了可扩展的框架。

作为一种白盒技术,所提方法需要访问模型的嵌入和参数,以计算梯度。攻击的迁移能力进一步突显了该方法的潜力。凭借其高效率,这种方法在各类公开可用模型中的大规模测试中具有重要前景。未来的研究将集中在评估其在不同领域、语言和模型中的迁移能力和泛化能力。深入研究这些方面将加深对对抗鲁棒性的理解,并增强防御能力,以应对自然语言处理中的新兴威胁。

动机

随着大型语言模型(LLMs)的广泛应用,其安全性变得尤为重要。尽管对齐技术在整体安全性上取得了显著进展,但LLMs依然易受到精心设计的对抗性输入的攻击。因此,发展对抗性攻击方法已成为研究者们探讨这些模型脆弱性的重要手段。

现有的对抗性攻击方法存在显著限制。依赖于离散Token的优化方法效率有限;而连续优化技术则无法生成模型词汇中的有效Token,这使得它们在实际应用中变得不切实际。针对这些问题,本文提出了一种新技术,利用带有正则化的梯度和连续优化方法,克服了这些限制。

通过该方法,作者显示其对抗性攻击在执行效率和成功率上均显著优于现有的贪心坐标梯度(GCG)方法,速度提高了两个数量级,同时成功地生成了有效的Token,解决了当前连续优化方法的基本缺陷。研究还通过五个最先进的LLMs和四个数据集验证了所提攻击方法的有效性。

这种研究的创新之处在于提出了一种在连续嵌入空间中进行对抗性攻击的新策略,通过正则化方法来优化松弛的Token嵌入,并生成有效的离散对抗性Token,从而有效地引导LLMs产生有害行为。这种新方法的快速和有效性为对抗性攻击的研究提供了新的视角,也为进一步理解和提升LLMs的安全性奠定了基础。

Regularized Relaxation Overview

方法

本文提出了一种新的对抗攻击方法,称为Regularized Relaxation(RR),旨在通过优化输入的Token嵌入来有效诱发大型语言模型(LLMs)的有害行为。该方法主要包括以下几个部分。

问题的正式描述

目标是找到一个嵌入序列 eadvRm×d\mathbf{e}_{\mathrm{adv}} \in \mathbb{R}^{m \times d},以最大化当与输入嵌入序列结合时诱导特定有害行为的可能性。其中,mm 是后缀的长度,x=[x1,x2,,xn]\mathbf{x} = [x_1, x_2, \ldots, x_n] 表示输入Token序列,每个Token xix_i 通过嵌入矩阵 E\mathbf{E} 映射到其对应的嵌入向量 exiRd\mathbf{e}_{x_i} \in \mathbb{R}^d

优化问题可以描述为:

L=t=1plogP(ytexeadv(t))\mathcal{L} = -\sum_{t=1}^{p}\log P(y_{t}|\mathbf{e_{x}}\|\mathbf{e}_{\mathrm{adv}}^{(t)})

这里,L\mathcal{L} 表示对抗交叉熵损失,P(ytexeadv(t))P(y_{t}|\mathbf{e_{x}}||\mathbf{e}_{\mathrm{adv}}^{(t)}) 是给定输入嵌入的 tt-th 目标Token 的概率。

优化问题

优化过程通过以下公式执行:

eadv(t+1)=eadv(t)αeadvL(fθ(exeadv(t)),y)\mathbf{e}_{\mathrm{adv}}^{(t+1)} = \mathbf{e}_{\mathrm{adv}}^{(t)} - \alpha \nabla_{\mathbf{e}_{\mathrm{adv}}}\mathcal{L}\big(f_{\theta}(\mathbf{e}_{\mathbf{x}} \|\mathbf{e}_{\mathrm{adv}}^{(t)}), \mathbf{y}\big)

在这个公式中:

  • α\alpha 是学习率。
  • \parallel 表示连接操作。
  • eadvL\nabla_{\mathbf{e}_{\mathrm{adv}}}\mathcal{L} 是相对于当前Token嵌入的损失函数的梯度。

正则化松弛

Regularized Relaxation 方法在优化过程中引入了正则化项,以稳定和增强优化过程。该正则化引导优化后的嵌入朝向平均Token嵌入 eˉ\bar{\mathbf{e}} 运动,从而有助于嵌入在优化路径上接近有效Token。具体而言,L2\mathrm{L}^{2} 正则化通过加入惩罚项鼓励优化后的嵌入向量更接近于原点,从而减少嵌入的幅度。

正则化项为:

λexieˉ22\lambda ||\mathbf{e}_{\mathbf{x}_{i}} - \bar{\mathbf{e}}||_{2}^{2}

该项计算优化后嵌入与平均Token嵌入之间的平方欧几里得距离,抑制了优化后的嵌入过于分散,鼓励其保持在平均Token嵌入附近。

去离散化

为将优化得到的嵌入映射回可用的Token,本文采用去离散化技术。通过计算优化后的对抗嵌入与学习的嵌入空间 E\mathbf{E} 中每个嵌入之间的欧几里得距离,选择距离最近的Token作为具体的后缀Token。

权重衰减

权重衰减作为一种正则化方法,通过在梯度更新步骤中降低权重来防止过拟合。文中将权重衰减与AdamW优化器结合使用,从而分别实现嵌入优化过程的有效正则化,加快收敛速度并改善性能。

正则化松弛的整体框架如图所示。通过对以上方法的综合运用,作者的性能得到了显著提升,尤其在攻击成功率和效率方面。

实验

为了评估他们的攻击方法在大语言模型(LLM)上的有效性,作者进行了几项实验,使用了多个状态最前沿的开源模型。他们测量了攻击对模型对抗性和对抗攻击的鲁棒性的影响,并将他们的方法与领先的优化基础攻击技术进行了比较。

实验设置

作者选择了五个目标模型进行评估,包括Llama2-7B-chat、Vicuna-7B-v1.5、Falcon-7B-Instruct、Mistral-7B-Instruct-v0.3和MPT-7B-Chat。作为评估模型,他们使用了Meta-Llama3-8B-Instruct和Beaver-7b-v1.0-cost。实验中使用了四个数据集:AdvBench、HarmBench、Jailbreak Bench和Malicious Instruct,这些数据集包含了多种有害行为。通过使用这些数据集,作者提高了研究结果的鲁棒性,并使其与现有攻击方法的直接比较成为可能。

超参数和优化技术

在实验中,作者使用了一个权重衰减系数λ=0.05\lambda=0.05作为关键超参数。不同模型的初始学习率值有所不同,以优化性能。为了提升效率,他们加入了一些优化技术,如在初始后缀Token嵌入中添加微小噪声,并在总损失梯度计算后应用梯度裁剪。此外,他们使用动态调整学习率的学习率调度器,以确保有效的收敛。

实验分析

实验中,作者将对抗攻击后缀初始化为一组用空格分隔的20个感叹号(“!”)。虽然该方法对初始化不敏感,但此选择确保了复现性。

评估指标

为了评估攻击方法的性能与鲁棒性,作者使用了攻击成功率(ASR),提供了对其方法有效性的深入见解。他们使用两种模型基础的评估方法;第一种方法涉及修改提示,将有害行为和模型响应输入到评估器Meta-Llama3-8B-Instruct中,输出为布尔值(真或假),显示响应是否有害且符合行为标准。第二种方法则使用Beaver-7bv1.0-cost模型生成浮动得分,正分表示有害内容,负分表示无害内容。作者将两种方法有效组合,以减少误报率。

基线方法

作者评估了他们的方法与其他几种领先方法的有效性,包括GCG、AutoDAN、PGD和Soft Prompt Threats,这些方法被广泛认可为针对鲁棒LLM的最有效攻击。通过选择来自每个数据集的50个有害行为及其目标,作者评估了各目标模型的ASR[>10>10]和ASR[>5>5]。

结果展示

根据表1,作者的方法在攻击成功率(ASR)方面超过了所有基线方法,并在大多数数据集上均表现出更高的效率,验证了他们的攻击方法的有效性。

图3展示了各方法的平均运行时间,表明作者的方法在处理多种模型和数据集时显示出显著的优化速度提高,同时保持了有效性。

转移攻击评估

为了评估他们的方法的转移能力,作者首先对源模型Llama2-7b Chat和Vicuna 7B-v1.5进行攻击,为每个数据集中所有50种有害行为生成对抗后缀。将这些对抗后缀附加到相应的有害行为上后,传递给受害模型以生成响应。结果摘要显示对抗后缀在不同模型间维持其有效性。

消融研究

作者对使用Llama2-7b Chat和Vicuna 7B-v1.5的优化过程中的权重衰减影响进行了探讨。在该研究中,作者对来自每个数据集的50种有害行为的对抗后缀Token进行了优化。结果显示,应用权重衰减显著提高了ASR值,证明了正则化对优化性能的积极影响。

结论

在这项研究中,作者提出了一种新的方法,通过使用正则化松弛(Regularized Relaxation)有效地优化对抗性后缀Token的嵌入,这些嵌入可以转化为能够引发有害行为的Token。当输入到大型语言模型(LLMs)中时,这一过程能够生成合法的Token,尽管这些Token在视觉上可能对人类而言毫无意义。

作者的研究表明,通过正则化技术的应用,能够平衡对抗性交叉熵损失与L2正则化,从而显著提高了攻击的有效性和效率。与之前的方法相比,作者的技术在速度上有显著提升,优化后缀Token的效率几乎快于传统离散优化技术两个数量级。此外,该方法还在生成多样化对抗性Token的能力上表现出明显优势,这为探索LLM的脆弱性提供了一个实用框架。

通过在五种最先进的LLMs上进行广泛的实验,作者展示了其方法的稳健性和有效性,且在攻击成功率(ASR)上超越了现有的所有方法。这些结果突显了正则化松弛方法在处理多个模型和数据集中的有害行为时的有效性和高效率。

总之,虽然此研究方法仍依赖于对模型嵌入和参数的白盒访问,但其效率暗示着未来可以在公开模型上进行大规模测试的潜力。未来的工作将侧重于评估此方法在不同领域、语言以及模型的转移能力和广泛性,这将进一步加深对对抗性稳健性的理解,并增强应对不断演变威胁的防御能力。