清华大学提出Safety Bench：大型语言模型安全评估的新基准方法

anquanwang

2024-10-25

动机

随着大型语言模型（LLMs）的快速发展，越来越多的关注点聚焦于其安全性问题。自ChatGPT发布以来，各种LLMs逐渐被应用于与人类的互动，如Llama、Claude和ChatGLM等。然而，伴随着LLMs的发展，其安全性缺陷也日益凸显，这些缺陷可能严重妨碍LLMs的安全和持续发展。许多研究指出了LLMs的安全风险，例如隐私泄露和有毒内容生成等。

因此，对LLMs安全性的全面评估变得非常重要。然而，当前针对LLMs安全性评估的综合标准几乎匮乏。过去某些广泛使用的数据集主要集中于特定的安全问题维度，例如毒性和偏见等。虽然近期一些中文安全评估基准尝试收集各种安全问题类别的提示，但它们仅提供中文数据，并且在如何准确评估LLMs生成的响应安全性方面也面临挑战。

为此，研究者们提出了Safety Bench，这一综合性基准透过多项选择题的方式，对LLMs的安全性进行评估。Safety Bench的主要创新点包括：

安全性评估的简易性和高效性：Safety Bench仅包含单一正确答案的多项选择题，能够实现高效且准确的自动评估，促进LLMs的快速迭代和优化。
多样性：Safety Bench收录了11435个样本，涵盖七个不同类别的安全问题，从多个来源获取数据，确保评估的全面性。
题目类型的多样化：测试问题包括对话场景、现实生活情况的判断、对比安全性、知识询问等多种类型，确保对LLMs在多样的安全相关场景下的严格测试。
多语言支持：Safety Bench提供中文和英文数据，这使得对中英文LLMs的评估更加广泛和包容。

通过这些创新，Safety Bench在评估当前LLMs的安全特性、识别其安全缺陷上发挥了重要作用，也为未来的改进提供了方向。

方法

本研究提出了一个名为Safety Bench的评估框架，用于系统性地评估大型语言模型（LLMs）的安全性。该框架包含11,435个多项选择题，覆盖7个安全问题类别，旨在通过自动化的方法降低评估成本，并提高评估的准确性。

问题类别

Safety Bench涵盖了7个常见的安全问题类别，这些类别来源于先前的研究并进行了适当的调整。它们包括：

Offensiveness（冒犯性）
Unfairness and Bias（不公平与偏见）
Physical Health（身体健康）
Mental Health（心理健康）
Illegal Activities（非法活动）
Ethics and Morality（伦理与道德）
Privacy and Property（隐私与财产）

为了确保中英文的一致性，研究者在构建问题时，谨慎排除了可能导致不同文化背景下给出不同答案的敏感话题。

数据收集

数据收集过程包括三个主要来源：

现有数据集：研究者从开放的中文和英文数据集中抽取并改编多项选择题，特别是在涉及不公平和偏见、身体健康与伦理道德等类别时，利用现有的公共数据集进行转换。
考试题：研究者广泛收集了与安全问题相关的考试题目，特别注重道德和法律相关的考试题。通过从在线考试资源中提取问题，最终收集到约2,000个与安全类别相关的题目。
数据增强：考虑到某些类别（如心理健康、非法活动和隐私与财产）数据不足，研究者利用大型语言模型（如ChatGPT）进行数据增强。这些生成的问题经过人工审核与修订，以确保质量。

质量控制

为了确保Safety Bench中每个问题的质量，研究团队采取了严格的人为验证过程。价格较高的来源允许使用人工标注，并严格检查经过考试和数据增强得到的问题。研究者将每个问题的正确性进行了评估，发现97%的随机抽样问题与人类的答案一致，从而减少了逐一验证的需求。

在评估过程中，团队还实现了中英问卷之间的互译，确保了问题在各个语言中的一致性。通过适当的质量控制措施，确保所收集数据的问题清晰、准确且符合多个文化背景。

实验评估

Safety Bench的评估分为零-shot和五-shot设置：

零-shot设置：直接对LLMs进行评估，不提供任何上下文信息或示例。
五-shot设置：提供与评估任务相关的示例，以观察不同LLMs在较少监督条件下的表现。

在评估过程中，研究者确保模型的响应格式符合设计要求，这样可以准确提取模型的预测答案。

如图1所示，Safety Bench全面评估了多个安全问题领域，通过集成丰富的多项选择题，使得该评估方法高效且具备多样性。

Safety Bench概览

通过以上方法，Safety Bench为LLMs的安全性能提供了一个全面的评估框架。

实验

在这项研究中，作者们对25种流行的大型语言模型（LLMs）进行了评估，主要关注它们在安全性方面的能力。评估分为零-shot和五-shot两种设置。

设置

作者在零-shot和五-shot设置下进行评估。在五-shot设置中，作者精心挑选了涵盖各种数据源且具有多样答案分布的示例。图4展示了所用的提示。作者从LLMs生成的响应中提取预测答案，并通过精心设计的规则确保LLMs的响应符合所需格式，以便于答案的准确提取。为了最小化随机采样带来的方差，作者在测试LLMs时将温度设定为0。

评估模型

作者评估了25种流行的LLMs，涵盖了不同的组织和参数规模。零-shot结果展示于表2中，通过比较，API基础的LLMs普遍比其他开源模型具有更高的准确性。特别是，GPT-4的表现显著优于其他评估模型，领先约10个百分点。

五-shot结果如表3所示，结合少量示例所带来的改进因不同LLMs而异。一些模型如text-davinci-003从上下文示例中获得了显著提高，而gpt-3.5-turbo则在某些情况下可能会因为“对齐税”而遭遇负面影响。

中国子集结果

鉴于大多数中国公司提供的API实施了严格的过滤机制，使得评价这些API基础LLMs的整套测试集变得不切实际，作者选择消除带有敏感关键词的样本，最终选择了每个类别300个问题，构成总计2100个问题的子集。表4展示了五-shot在这一过滤后的中国子集上的评估结果。

作者的研究发现，GPT-4在多个类别的安全问题上表现优异，同时也发现了在不公平性和偏见类别上GPT-4的表现相对较差，作者通过手动检查失败的案例，揭示了GPT-4在某些词汇和事件的理解上出现错误的原因。

生成能力与理解能力

作者探讨了Safety Bench中测得的安全理解能力与安全生成能力之间的关系。为此，作者将一些多项选择问题转化为常规用户查询，包括限制查询和开放查询两种类型。实验结果在表5中展示，作者通过手动评估模型对这些转化查询的响应的安全性，从中得出重要结论。

通过图6，作者展示了GPT-4在各个安全类别中的失败案例，指出其理解能力对安全性的重要影响。

影响力

表6比较了模型在增强数据和原始数据上的表现，从中可以看出使用ChatGPT进行数据增强的潜在偏见，但这一偏见对其他模型的影响不显著。

通过这一系列实验，作者不仅验证了Safety Bench的有效性，还揭示了LLMs在安全性方面存在的空间，以指导未来的改进。

表2: Zero-shot zh/en结果的Safety Bench。“Avg.”表示微平均准确率。

表3: Five-shot zh/en结果的Safety Bench。“-”表示模型对此语言的支持较差。

表4: 五-shot评估结果在过滤后的中国子集的Safety Bench上。“-”表示模型因在线安全过滤机制拒绝回答问题。

表5: 模型在采样多项选择问题上的准确性，以及对受限和开放查询的安全响应比例。

结论

在本文中，研究人员介绍了Safety Bench，这是第一个全面的安全评估基准，通过多项选择题对大型语言模型（LLMs）的安全能力进行评估。Safety Bench涵盖了11,435道中英文题目，分为七类安全问题，广泛评估了25种来自不同组织的LLMs的安全能力。研究发现，与开源LLMs相比，GPT-4表现显著优越，指出了当前模型在安全性方面仍有很大的提升空间。

此外，本文还表明，Safety Bench中测量的安全理解能力与安全生成能力之间存在相关性。这一发现为未来改进LLMs的安全性提供了重要指导。研究者希望Safety Bench能够在评估LLMs的安全性以及加速开发更安全的LLMs方面发挥重要作用。