清华大学提出Safety Bench:大型语言模型安全评估的新基准方法

动机

随着大型语言模型(LLMs)的快速发展,越来越多的关注点聚焦于其安全性问题。自ChatGPT发布以来,各种LLMs逐渐被应用于与人类的互动,如Llama、Claude和ChatGLM等。然而,伴随着LLMs的发展,其安全性缺陷也日益凸显,这些缺陷可能严重妨碍LLMs的安全和持续发展。许多研究指出了LLMs的安全风险,例如隐私泄露和有毒内容生成等。

因此,对LLMs安全性的全面评估变得非常重要。然而,当前针对LLMs安全性评估的综合标准几乎匮乏。过去某些广泛使用的数据集主要集中于特定的安全问题维度,例如毒性和偏见等。虽然近期一些中文安全评估基准尝试收集各种安全问题类别的提示,但它们仅提供中文数据,并且在如何准确评估LLMs生成的响应安全性方面也面临挑战。

为此,研究者们提出了Safety Bench,这一综合性基准透过多项选择题的方式,对LLMs的安全性进行评估。Safety Bench的主要创新点包括:

  1. 安全性评估的简易性和高效性:Safety Bench仅包含单一正确答案的多项选择题,能够实现高效且准确的自动评估,促进LLMs的快速迭代和优化。

  2. 多样性:Safety Bench收录了11435个样本,涵盖七个不同类别的安全问题,从多个来源获取数据,确保评估的全面性。

  3. 题目类型的多样化:测试问题包括对话场景、现实生活情况的判断、对比安全性、知识询问等多种类型,确保对LLMs在多样的安全相关场景下的严格测试。

  4. 多语言支持:Safety Bench提供中文和英文数据,这使得对中英文LLMs的评估更加广泛和包容。

通过这些创新,Safety Bench在评估当前LLMs的安全特性、识别其安全缺陷上发挥了重要作用,也为未来的改进提供了方向。

方法

本研究提出了一个名为Safety Bench的评估框架,用于系统性地评估大型语言模型(LLMs)的安全性。该框架包含11,435个多项选择题,覆盖7个安全问题类别,旨在通过自动化的方法降低评估成本,并提高评估的准确性。

问题类别

Safety Bench涵盖了7个常见的安全问题类别,这些类别来源于先前的研究并进行了适当的调整。它们包括:

  • Offensiveness(冒犯性)
  • Unfairness and Bias(不公平与偏见)
  • Physical Health(身体健康)
  • Mental Health(心理健康)
  • Illegal Activities(非法活动)
  • Ethics and Morality(伦理与道德)
  • Privacy and Property(隐私与财产)

为了确保中英文的一致性,研究者在构建问题时,谨慎排除了可能导致不同文化背景下给出不同答案的敏感话题。

数据收集

数据收集过程包括三个主要来源:

  • 现有数据集:研究者从开放的中文和英文数据集中抽取并改编多项选择题,特别是在涉及不公平和偏见、身体健康与伦理道德等类别时,利用现有的公共数据集进行转换。

  • 考试题:研究者广泛收集了与安全问题相关的考试题目,特别注重道德和法律相关的考试题。通过从在线考试资源中提取问题,最终收集到约2,000个与安全类别相关的题目。

  • 数据增强:考虑到某些类别(如心理健康、非法活动和隐私与财产)数据不足,研究者利用大型语言模型(如ChatGPT)进行数据增强。这些生成的问题经过人工审核与修订,以确保质量。

质量控制

为了确保Safety Bench中每个问题的质量,研究团队采取了严格的人为验证过程。价格较高的来源允许使用人工标注,并严格检查经过考试和数据增强得到的问题。研究者将每个问题的正确性进行了评估,发现97%的随机抽样问题与人类的答案一致,从而减少了逐一验证的需求。

在评估过程中,团队还实现了中英问卷之间的互译,确保了问题在各个语言中的一致性。通过适当的质量控制措施,确保所收集数据的问题清晰、准确且符合多个文化背景。

实验评估

Safety Bench的评估分为零-shot和五-shot设置:

  • 零-shot设置:直接对LLMs进行评估,不提供任何上下文信息或示例。

  • 五-shot设置:提供与评估任务相关的示例,以观察不同LLMs在较少监督条件下的表现。

在评估过程中,研究者确保模型的响应格式符合设计要求,这样可以准确提取模型的预测答案。

如图1所示,Safety Bench全面评估了多个安全问题领域,通过集成丰富的多项选择题,使得该评估方法高效且具备多样性。

Safety Bench概览

通过以上方法,Safety Bench为LLMs的安全性能提供了一个全面的评估框架。

实验

在这项研究中,作者们对25种流行的大型语言模型(LLMs)进行了评估,主要关注它们在安全性方面的能力。评估分为零-shot和五-shot两种设置。

设置

作者在零-shot和五-shot设置下进行评估。在五-shot设置中,作者精心挑选了涵盖各种数据源且具有多样答案分布的示例。图4展示了所用的提示。作者从LLMs生成的响应中提取预测答案,并通过精心设计的规则确保LLMs的响应符合所需格式,以便于答案的准确提取。为了最小化随机采样带来的方差,作者在测试LLMs时将温度设定为0。

评估模型

作者评估了25种流行的LLMs,涵盖了不同的组织和参数规模。零-shot结果展示于表2中,通过比较,API基础的LLMs普遍比其他开源模型具有更高的准确性。特别是,GPT-4的表现显著优于其他评估模型,领先约10个百分点。

五-shot结果如表3所示,结合少量示例所带来的改进因不同LLMs而异。一些模型如text-davinci-003从上下文示例中获得了显著提高,而gpt-3.5-turbo则在某些情况下可能会因为“对齐税”而遭遇负面影响。

中国子集结果

鉴于大多数中国公司提供的API实施了严格的过滤机制,使得评价这些API基础LLMs的整套测试集变得不切实际,作者选择消除带有敏感关键词的样本,最终选择了每个类别300个问题,构成总计2100个问题的子集。表4展示了五-shot在这一过滤后的中国子集上的评估结果。

作者的研究发现,GPT-4在多个类别的安全问题上表现优异,同时也发现了在不公平性和偏见类别上GPT-4的表现相对较差,作者通过手动检查失败的案例,揭示了GPT-4在某些词汇和事件的理解上出现错误的原因。

生成能力与理解能力

作者探讨了Safety Bench中测得的安全理解能力与安全生成能力之间的关系。为此,作者将一些多项选择问题转化为常规用户查询,包括限制查询和开放查询两种类型。实验结果在表5中展示,作者通过手动评估模型对这些转化查询的响应的安全性,从中得出重要结论。

通过图6,作者展示了GPT-4在各个安全类别中的失败案例,指出其理解能力对安全性的重要影响。

影响力

表6比较了模型在增强数据和原始数据上的表现,从中可以看出使用ChatGPT进行数据增强的潜在偏见,但这一偏见对其他模型的影响不显著。

通过这一系列实验,作者不仅验证了Safety Bench的有效性,还揭示了LLMs在安全性方面存在的空间,以指导未来的改进。


表2: Zero-shot zh/en结果的Safety Bench。“Avg.”表示微平均准确率。


表3: Five-shot zh/en结果的Safety Bench。“-”表示模型对此语言的支持较差。


表4: 五-shot评估结果在过滤后的中国子集的Safety Bench上。“-”表示模型因在线安全过滤机制拒绝回答问题。


表5: 模型在采样多项选择问题上的准确性,以及对受限和开放查询的安全响应比例。

结论

在本文中,研究人员介绍了Safety Bench,这是第一个全面的安全评估基准,通过多项选择题对大型语言模型(LLMs)的安全能力进行评估。Safety Bench涵盖了11,435道中英文题目,分为七类安全问题,广泛评估了25种来自不同组织的LLMs的安全能力。研究发现,与开源LLMs相比,GPT-4表现显著优越,指出了当前模型在安全性方面仍有很大的提升空间。

此外,本文还表明,Safety Bench中测量的安全理解能力与安全生成能力之间存在相关性。这一发现为未来改进LLMs的安全性提供了重要指导。研究者希望Safety Bench能够在评估LLMs的安全性以及加速开发更安全的LLMs方面发挥重要作用。