动机
在当今的技术环境中,大型语言模型(LLMs)被越来越广泛地应用于各种场景中,这使得确保这些模型的安全性成为一项重要任务。近期的研究表明,jail breaking,即利用模型的漏洞绕过安全限制并生成有害输出的行为,给LLMs的完整性和伦理性带来了显著挑战。现有的jail breaking方法主要集中在提高攻击成功率(ASR),却往往忽视了其他重要因素,比如jail breaking响应与查询的相关性及隐蔽性。这样的单一目标关注可能导致的攻击效果不佳,要么是生成的响应文不对题,要么是容易被识别出来。
鉴于此,研究者们意识到,需要更为细致的策略来优化查询提示,特别是通过多目标的方法来同时考虑效率和实用性。除此之外,当前的jail breaking方法也存在明显的局限性。例如,许多方法依赖于模型的内部参数进行优化,而缺乏对模型行为的解释和理解,这使得建立一个可靠的安全边界变得困难。优化过程的透明性与可解释性的不足也给现有技术的有效性和可靠性带来了挑战。
为了解决上述问题,研究者们提出了BlackDAN,这是一种黑箱多目标可控jail breaking优化框架。BlackDAN的创新之处在于同时优化多个目标,如攻击成功率(ASR)、语义一致性等,不再仅仅关注于提高攻击成功率。这种多目标优化的方式,不但在理论和实际应用中展示了更好的性能,也是实现更高层次的安全性与解释性的关键。
通过这项工作,BlackDAN不仅超越了现有单目标优化的方法,还提出了Rank Boundary Hypothesis,探讨了如何在嵌入空间中更好地区分有害和无害的提示。这意味着研究者能够更有效地识别针对特定有害内容分布的jail breaking提示,从而提高了bypass手段的精确性与可靠性。
整体而言,BlackDAN的出现为多目标jail breaking优化任务提供了一个新的基准。它的高扩展性也使得用户能够根据不同需求自定义和优先排序多种优化目标,为未来的研究与应用指明了方向。
方法
在本研究中,作者旨在生成能够最大化目标语言模型生成不安全响应的提示,同时确保生成响应与有害问题之间的语义一致性。这个过程被构建为一个多目标优化问题,采用了NSGA-II(非支配排序遗传算法II)进行优化。
适应度函数
作者定义了两个连续的适应度函数以指导优化过程:
-
不安全标记概率(使用 llama guard 2):第一个适应度函数 评估目标模型 生成的响应 包含不安全内容的概率。此概率由代理模型 llama guard 2 计算,该模型输出特定“不安全标记”的对数概率。
对于给定的提示 和有害问题 ,生成的响应 的不安全标记概率计算为:
-
语义一致性(使用 all-MiniLM-L6-v2):在黑箱攻击的环境下,研究者没有直接访问目标模型内部或其嵌入的能力。因此,作者采用了预训练的代理模型,例如 all-MiniLM-L6-v2,来生成有害提示与候选响应的句子嵌入。这些嵌入允许测量提示和响应之间的语义相似度。
第二个适应度函数 测量生成的响应 与有害问题 的语义一致性。通过计算余弦相似度,得到:
其中 代表点积, 是嵌入向量的欧几里得范数。作者选择具有较高相似度分数的响应作为越狱输出,确保所选响应在语义上与有害提示对齐。
NSGA-II进行多目标越狱提示优化
为了找到最佳的越狱提示集合,作者应用了NSGA-II算法。该算法基于两个关键标准进行多目标优化:
-
支配关系:如果解决方案 在至少一个目标上优于解决方案 且在所有其他目标上不劣于 ,则称 支配 。其支配关系定义为:
-
拥挤距离:一旦种群根据非支配前沿进行排序,就会为每个解决方案分配拥挤距离,以保持多样性。拥挤距离 的计算涉及所有 个目标函数。对于每个目标 ,拥挤距离的计算如下:
通过这种方式,选择来自每个非支配前沿的解决方案时,不仅考虑多个目标的最优性,也考虑每个目标的多样性。
遗传操作:交叉和变异
NSGA-II使用遗传操作进化种群:
-
交叉:该操作通过重新组合两个父代提示生成两个新的后代。设 和 为父代提示。后代 和 是通过随机交换两个父代提示的句子生成的:
-
变异:变异操作通过用同义词修改提示中的随机选定单词来引入多样性。设 为提示 中随机选择的单词, 表示 的同义词集合。变异后的提示生成如下:
完整的算法提供在附录中的算法 1 和 2,由于空间限制未详述。
整体上,BlackDAN框架及其方法论为生成有效且可解释的越狱提示提供了一种系统化的方案,同时确保在不断优化的过程中,保持各种目标之间的平衡。
实验
实验设置
为了评估针对大型语言模型(LLMs)的监狱破解攻击,研究使用了AdvBench数据集。该数据集包含520个请求,涵盖了多种类别,包括亵渎、图形描绘、威胁行为、虚假信息、歧视、网络犯罪及危险或非法建议等。
在多模态数据集方面,研究使用了MM-Safety Bench。该数据集涵盖了13种场景,包括非法活动、仇恨言论、身体伤害和健康咨询,总共包含5,040个文本-图像对。
研究使用了多种最先进的开源大型语言模型(LLMs),包括Llama-2-7b-hf、Llama-2-13b-hf、Internlm2-chat-7b、Vicuna-7b、AquilaChat-7B、Baichuan-7B、Baichuan2-13BChat、GPT-2-XL、Minitron-8B-Base、Yi-1.5-9B-Chat等。对于多模态LLMs,研究还使用了llava-v1.6-mistral-7b-hf和llava-v1.6-vicuna-7b-hf,以展示所提方法在从单模态到多模态能力扩展中的有效性。
单目标(有害性)破解优化
下表比较了不同模型在不同条件下的攻击方法(AdvBench 520个样本)。
时间效率方面,黑箱方法(“不使用问题”和“使用问题”)相比于白箱方法显著更快,使用问题和响应时平均每个样本处理时间约为2分钟,而白箱方法处理时间约为15分钟,灰箱方法约为12分钟。在Llama2-7b-chat模型中,利用有害问题的“使用问题”方法的成功率显著提高,从白箱的45.3%增加到黑箱的93.1%。
传递攻击方面,Vicuna-7B-v1.5展示了最高的成功率,从白箱场景的13.7%增加到黑箱场景的99.2%。所有模型(如Vicuna-7B-v1.5)均通过迁移学习从Llama2-7b-chat衍生而来。其他模型也呈现类似趋势,但Llama3-8B在包含有害问题时显示出轻微下降。
多目标优化
下图比较了各种模型的单目标黑箱监狱破解攻击的成功率及这些攻击的传递能力。
最终行展示了多目标自我攻击优化的结果,结果表明其始终优于或与自我攻击相比相当,表明这种方法提供了更强、更具通用性的攻击能力。
传递成功率因模型而异,某些模型(如GPT-2-XL和Baichuan2-13B-Chat)表现出更高的脆弱性,而Llama-2-7b-hf和Llama-2-13b-hf的抵抗能力更强,基于列均值的评估(不含自我攻击)。
下图展示了跨不同场景的多模态模型破解。
结果表明,多目标优化在所有有害类别和情景下都显著优于单目标(SO)方法。多目标(MO)方法在攻击成功率(ASR)上始终取得更高的成绩,llava-v1.6-mistral-7b-hf MO在许多情况下达到了100%的成功率。整体而言,多目标优化在所有模型和条件下均证明其优于单目标方法的效果。
最佳Pareto等级与最差Pareto等级嵌入比较
下图比较了使用三种可视化技术(PCA 2D、PCA 3D和UMAP)获得的最佳和最差Pareto等级样本的嵌入。
PCA图中,支持向量机(SVM)决策边界有效地区分了两个组别,展现出不同等级占据嵌入空间的不同区域。此外,该UMAP可视化展示了最佳和最差等级的样本的明确和紧凑集群。这些结果强烈表明,Pareto排序不仅能够区分监狱破解提示的质量,还对提示在嵌入空间中的表现具有显著的影响。
Pareto等级和嵌入空间
下图展示了跨多个数据集的不同Pareto等级类别之间的关系,通过将嵌入投影到一个二维球面上。
每个子图代表特定模型,数据点根据Pareto等级进行颜色编码,较大的点表示每个等级的Fréchet均值。Fréchet均值通过绿色测地线连接,展示了均值随着Pareto等级降低而平滑变化的趋势,这表明更好的数据点。在每个Fréchet均值处,应用切线PCA分析数据的局部变异,捕捉围绕每个均值点的主要变化方向。该可视化方法展示了嵌入的全局几何结构和局部变异,为如何通过多目标优化平衡竞争目标及增强文本嵌入的结构提供了新的见解。
性能比较
下表展示了不同模型在ASR和GPT-4 Metric评分上的比较。
结果表明,BlackDAN(我们的多目标方法)在所有模型中均表现优异,达到最高的ASR和GPT-4 Metric评分。尤其在Llama2-7b上,ASR达到了95.4%,而在Vicuna-7b上达到了97.5%,相比于传统方法Deep Inception在Llama2-7b上的77.5%和在Vicuna-7b上的92.7%都有了显著提升。GPT-4模型整体上显示出最低的ASR(71.4%),但相较于其他方法,BlackDAN在GPT-4上的表现依然相对稳健。此外,GPT-4 Metric评估的生成输出中的伦理违规程度表明,BlackDAN生成的最有害响应在Llama2-7b和Vicuna-7b上分别达到了93.8和96.0的最高评分,超过了其他技术。
适应性分析
下图展示了随着代数增加而收敛的适应性(fitness)结果。
结果表明,随着代数的增加,适应性评分趋于稳定,指示收敛到一个稳定状态。在这一过程中,依据适应性评价的模型性能显著改善,进一步支持所提方法的有效性。大约在第50代,大多数最先进的(SOTA)大型语言模型(LLMs)达到了收敛,进一步突显了所提方法的效率。
结论
在本文中,研究者们介绍了BlackDAN,这是一种多目标、可控的监狱破解优化框架,适用于大型语言模型(LLMs)和多模态大型语言模型(MLLMs)。BlackDAN的主要创新在于不仅优化攻击成功率(ASR),还关注上下文一致性,确保监狱破解的响应在语义上与原始的有害提示保持一致。这样,不仅确保了响应的隐秘性,还提高了其实用性。
通过利用NSGA-II算法,BlackDAN显著改善了传统单目标技术的效果,在多个模型上实现了更高的成功率和更连贯的监狱破解响应。此外,BlackDAN具有高度的可扩展性,允许集成任意数量的用户定义目标,使其成为一个广泛适用的优化框架。
特别是,BlackDAN将多个目标,包括ASR、隐秘性和语义一致性纳入考虑,这为生成既实用又可解释的监狱破解响应设定了新的基准,同时在评估中保持了安全性和鲁棒性。这些创新为应对大型语言模型在安全性方面的挑战提供了新的思路,展现了多目标优化的优势。