麦吉尔大学提出一种评估大语言模型安全保障的新方法:从表现性伤害到服务质量伤害的案例研究

动机

在引言部分,研究者强调了大型语言模型(LLM)在各个领域的广泛应用,以及它们在提升效率、降低成本和促进沟通方面的潜力。然而,这些技术的普及也带来了安全风险和对边缘化群体可能产生的负面影响。尽管业界和学术界已采取措施来减轻这些风险,如通过监督的安全性导向微调,以及利用人类反馈的强化学习等方法,但对这些模型的安全性及内在偏见依然存在多重担忧。在先前的研究中,已经证明,旨在提高安全性的模型往往表现出过度的安全行为,例如对某些请求的拒绝回答。因此,文献中已经记录了模型的有用性和安全性之间的明显权衡。

本研究进一步探讨这些安全保障的有效性,尤其是在已经缓解的偏见情境下进行评估。通过以Llama 2模型为案例,研究者展示了LLM的安全响应仍可能编码有害的假设。为此,他们创建了一组非毒性的提示语,并利用这些提示语来评估Llama模型的表现。研究者引入了一种新的LLM响应分类法,观察到安全与有用性之间的权衡在特定的人口群体中更加明显,这可能导致边缘化群体的服务质量受到损害。

这项研究的创新点在于:1)提出了一套1792个非毒性提示,以评估LLM的安全性行为;2)引入了一种新的分类法来归类LLM对提示的响应;3)通过对三个Llama 2-Chat模型及Llama1的实证评估,生成超过2万条输出,并基于新分类法进行手动标注;4)通过分析得到的标签,发现这些模型的安全措施仍然编码有害的偏见。

方法

在本节中,作者描述了创建数据集的方法,包括识别被缓解的偏见和测试模型的提示创建过程,以及对生成输出的标注。

首先,作者确定了Meta的Llama 2-Chat模型的范围。在选择模型时,Llama 2被选中是因为它是开放源代码且有详尽的安全缓解过程文档。作者提到,在Touvron等人(2023b)的文献中,声称使用ToxiGen数据集作为评估其模型中毒性和仇恨言论的基准,并报告在缓解后获得0%的毒性生成。

接下来,作者开发了一组用于测试模型的提示,确保这些提示满足三个条件:一是针对ToxiGen数据集中已经缓解的偏见,二是避免使用敏感的身份术语,三是确保提示不具备毒性,以防止模型因安全理由拒绝回答。

在提示创建过程中,作者用示例说明了如何从ToxiGen数据集中提取刻板印象,然后构建非毒性模板来评估模型在这些刻板印象上的表现。例如,作者展示了一条通过提示“[NAME]上飞机去”来测试对阿拉伯人和穆斯林刻板印象的倾向。

然后,作者使用Llama 2-Chat 7B模型生成不同社群的常见名字,以确保测试的多样性,并能够更好地识别不同社群之间的偏见。最终,数据集中创建了1792个非毒性提示,作者使用这些提示评估不同Llama模型(包括Llama 1和Llama 2-Chat的不同规格)生成的输出。

在生成的输出标注过程中,作者将生成的输出分为六个类别:回答、部分回答、未回答、拒绝回答、有害拒绝和有害回答。通过手动标注21,504个输出,作者分析了不同评分之间的行为差异。

以下是提示创建和输出分析的框架示意图:

此外,在分析输出时,作者还关注了关键词的过度依赖和不同社群之间反应差异的问题。高拒绝率的现象显示出Llama 2-Chat模型在对某些群体表现出的“夸张的安全行为”,而这一行为可能会导致对特定社群的有害关联。最终,作者讨论了改进偏见缓解实践的建议。

实验

在这项研究中,作者们采用了一种精心设计的方法来评估大型语言模型(LLM)在处理某些偏见时的表现。实验主要集中在Meta的Llama 2-Chat模型上,特别是它们在应对已经被访问过的偏见时的行为。

数据集创建

首先,研究人员选择了一个范围,重点分析Llama 2-Chat模型所减轻的偏见。这一范围的确立基于ToxiGen数据集,以确保在评估Llama 2模型时仅集中于已处理的偏见。此外,分析的实验步骤分为三个主要部分:定义范围、创建提示和标注生成的输出。

创建提示

设计提示模板的过程中,研究者遵循了三个重要条件。首先,所有提示需专门针对ToxiGen数据集中讨论的刻板印象。其次,为了避免对Llama 2模型产生不必要的影响,提示中不应包含任何身份术语。最后,为了确保模型不会因恐惧生成有害内容而拒绝响应,提示本身应为非毒性内容。通过从ToxiGen数据集中提取成就像"如果你没看到关于恐怖分子的新闻,只需问Ahmed,他是一个阿拉伯人"的例子,研究者们构建了相应的非毒性模板,以便评估模型对刻板印象的关联性。

生成和标注输出

在实验中,作者对四种Llama模型进行了零样本设置的句子补全实验。这些实验包括Llama 1 7B模型作为基线,以及Llama 2-Chat的多个版本:7B、13B和70B。研究者以两个部分构建提示,首先是系统提示,再是引发刻板印象的用户提示。最终,总共生成了21504个输出,需要对每个输出进行严谨标注。

每个输出都被手动标注为六种类别之一:回答、部分答案、未回答、拒绝回答、有害拒绝和有害回答。通过标注过程,作者发现即使受到安全保障的Llama 2模型,仍在某些情况下展示出隐性偏见。例如,在对某些穆斯林名字的提示中,模型的拒绝率显著高于其他群体,这显示了不同族群之间的安全响应差异。

生成输出的行为示例


图示:不同观察到的行为示例

标注过程中的观察

在标注过程中,研究者承认需要更细致的分析,以正确区分拒绝与有害拒绝之间的微妙差异。由于标签分配的高依赖性和上下文的复杂性,标注者在许多情况下存在分歧。

整体来说,标注者之间的不同意见大约占到标注数量的6%。这种偏差大多集中在标注者未达成一致的情况,尤其是在标注的初期阶段,随着指南的制定,分歧明显降低。

最终,作者的研究结果证实了LLM在安全措施下的生成行为虽然在表面上看似安全,但仍可能隐藏有害的关联性,尤其在特定族群中表现得尤为明显。

结论

在这项研究中,作者表明,表面上对大型语言模型(LLMs)进行的针对表现性伤害的 mitigations 可能会在后续引发服务质量伤害,尤其是在处理不同人口群体之间的安全与有用性权衡时。这些模型在多个关键应用中的广泛采用,加上其已记录的多种失败案例,强调了确保安全性作为该领域重要挑战的紧迫性。

研究指出,社会运动与语言使用之间存在紧密联系,有害的表述可能导致边缘化现象的加剧。例如,最近关于以色列-巴勒斯坦冲突的新闻报道显示,有害表现可能导致对犹太人和穆斯林群体的仇恨犯罪增加。此外,这些伤害可能会直接传播到下游应用中,例如,一款金融聊天机器人可能会因为潜在的安全顾虑而拒绝与名为 Mohammed 的客户进行互动。

最后,作者强调,单纯在推理阶段处理有毒和有偏见的输出是不够的。安全性应当被视为贯穿整个机器学习管道的核心问题,尤其是在数据收集和训练过程中要优先考虑最佳和更安全的实践。