南方科技大学提出中文安全基准以评估大型语言模型的安全性

动机

随着大规模语言模型(LLMs)的迅速发展,了解其识别不安全内容的能力变得愈发重要。现有研究已提出多个基准来评估LLMs的安全风险,但在中文语境下,LLMs识别非法和不安全内容的能力仍了解有限。为了解决这一问题,研究者们提出了一个名为"Chinese Safe"的安全基准,以促进对大规模语言模型内容安全的研究。该基准旨在与中国互联网内容监管规定相符,包含205,034个示例,涵盖了4个类别及10个子类的安全问题。

对中文语境下的特殊非法内容,论文中加入了几个新类型,如政治敏感性、色情及变体/同音词。这些内容在现有中文基准中几乎没有体现。因此,"Chinese Safe"不仅填补了这一空白,还旨在提供一个更全面的评估基准,以便有效评估LLMs对中文内容的安全性。

为了验证目前流行的LLMs的法律风险和安全性,研究者采用了两种方法来评估开放源代码模型和API。研究结果显示,许多LLMs在识别某些类型的安全问题中表现脆弱,从而导致在中国面临法律风险。这一工作为开发者和研究人员提供了指导,以推动更安全的LLMs的开发和应用。

整体来看,研究者构建的"Chinese Safe"基准,不仅为评估LLMs在中文内容中的安全性提供了有效工具,也为未来中文互联网内容的安全治理奠定了基础。从而推动了对LLMs在中国情况下的安全评估和应用的深入研究。

Overview of Chinese Safe

方法

本研究旨在构建一个针对中文内容的安全评估基准,称为Chinese Safe。为了实现这一目标,研究者们从多个来源收集数据,并进行了数据加工,以提高基准数据集的质量。

1. 数据收集

Chinese Safe数据集的构建过程包括以下几个步骤:

  • 数据来源:研究人员从开放的数据集和互联网收集数据,以满足中国网络内容审核的相关规定。其中,包括国家法律法规规定的普遍安全问题(如犯罪和心理健康)和特定的安全问题(如色情内容、政治敏感性和变体/同音词)。

  • 收集样本:为了创建平衡的基准,研究者从已有公开数据集中收集了102,227个安全(负样本)例子,同时从其他渠道收集了不安全(正样本)例子。

关于数据集的具体组成,见下表。

2. 数据处理

由于从不同来源收集的数据质量参差不齐,因此需要进行数据清洗和去重,以构建标准的安全基准:

  • 数据清洗:研究人员首先移除含糊不清的语句和充满变体字的例句,有规则地过滤句子结构,丢弃仅由标点符号和连续空白字符组成的行。

  • 去重:为了解决数据重复问题,研究者使用去重算法移除了具有相似语义的例句。

3. 数据分类

为了全面评估模型的安全性,Chinese Safe的安全问题被分为四大类和十个子类。具体分类如下:

  • 非法活动:包括政治敏感性、色情和犯罪行为等不被法律允许的行为。
  • 伦理与道德:评估模型是否能够识别不道德或有害于社会稳定的行为,如种族歧视、辱骂等。
  • 健康与隐私:关注与个人健康和隐私相关的内容,例如可能导致身体伤害的内容或泄露个人隐私的数据。
  • 变体和同音词:该类别专注于在中文互联网中常用于规避内容审核的变体字和同音词。

数据的详细构成和分类情况通过以下框架图进行概述。

4. 实验设计

实验过程中,在多个主流的大型语言模型(如GPT4、LLaMA等)上进行评估。为了评估模型识别不安全内容的能力,研究者设计了是与否的问题任务,并采用了生成基础和困惑度基础两种评估方法。

  • 生成基础评估方法:通过模型生成内容,然后使用Outlines框架进行预测。
  • 困惑度基础评估方法:选择困惑度最低的标签作为预测结果。

实验报告的指标包括整体准确率、精准率和召回率等,以全面评估不同模型在安全性方面的表现。

这样的组合方法使得Chinese Safe不仅能帮助识别语言模型的弱点,还能为未来的模型改进和应用提供指导。

实验

在这部分,论文中通过实验对不同的大型语言模型(LLMs)的安全性能进行评估。为了有效地评估这些模型,研究者们首先构建了一个用于测试的平衡数据集,从样本中随机抽取了一些数据进行评测。在整体安全问题类别的实验中,测试集由来自Chinese Safe的安全和不安全样本以0.1的比例抽样构成。而对于每个具体安全问题类别,研究者们确保抽样的安全样本数量与各类别中的不安全样本相等。

评估指标

实验中主要使用了五个评估指标:整体准确率、精确度和召回率,分别针对安全和不安全内容进行评估。结果以metric/std格式呈现,std表示通过不同随机种子(如100、200、300)获得的结果标准差。

评估方法

评估任务基于是否能判定不安全的中文内容,呈现为“是”或“否”的问题。研究者们采用了两种方法来评估模型的安全性:生成法和困惑度法。生成法使用Outlines框架进行预测,而困惑度法则选取困惑度最低的标签作为预测结果。

评估模型

为了全面了解LLMs在中文场景下的安全性,研究者们对26个不同的语言模型进行了评估,涵盖了不同组织和参数规模的模型。其中,对于基于API的模型,评估了OpenAI和Google提供的4个主流LLM。而对于开源模型,则评估了22个具有代表性的模型。这些模型被根据参数规模分为大于65B、约等于30B、10B-20B和5B-10B四个类别。

主要结果

在使用生成法进行评估时,DeepSeek-LLM-67B-Chat模型在整体准确率方面表现最佳,达到76.76%,而在API模型中,GPT-4o模型表现优越,准确率为73.78%。GPT-4o还在识别不安全样本的精确度上表现出色,达到了97.75%。然而,OPT系列模型的表现较差,揭示了它们在不安全内容检测方面的脆弱性。

使用困惑度法的评估结果显示,Baichuan2-13B-Chat模型在开源LLMs中表现最好,准确率为70.43%。Llama3-ChatQA-1.5-70B的表现则较差,只有40.41%。这些结果表明,使用生成法评估LLMs的安全性更为有效。

不同规模模型的影响

研究还关注不同规模模型在安全评估结果中的表现,发现模型性能与参数数量并不总是成正比。例如,在10B-20B规模范围中,InternLM2-Chat-20B、Qwen1.5-14B和Baichuan2-13B-Chat模型的准确率为70.21%、68.25%和62.86%。但是在约30B规模的模型中,Yi-1.5-34B-Chat和OPT-30B反而表现不佳,准确率分别为60.06%和50.88%。

各类别安全问题评估结果

通过分别评估在各类别安全问题下的模型,发现LLMs在特定安全问题类别上的表现存在显著差异。例如,在隐私泄露类别中,DeepSeek-LLM-67B-Chat模型的识别准确率达到了79.85%,而Qwen1.5-72B-Chat模型则仅有58.25%。总体上,LLMs在刑事行为类别上表现更好,而在身体健康类别的安全性较低。

实验结果表明,评估LLMs在各类别安全问题上的表现,可以为全面审视模型安全性提供更深入的见解。

结论

本文介绍了一个名为“Chinese Safe”的中文安全数据集,该基准旨在评估大语言模型(LLMs)在中文场景下的安全性。与现有的中文安全基准相比,Chinese Safe 是一个更加全面的基准,包含了205,034个示例,涵盖了四个类别和十个子类别的安全问题。研究的目的是构建一个与中国互联网内容审核相一致的基准,以更好地理解LLMs在现实中文场景下的安全性。

通过对26个代表性的LLMs进行广泛实验,结果表明,一些模型在多个类别的安全问题上表现出较低的安全水平,例如OPT模型家族。同时,实验还指出,LLMs在特定安全问题方面的表现不佳,如身体健康和心理健康问题。这些发现强调了需要改进模型在识别和应对不安全内容方面的能力。

作者希望,Chinese Safe 能够作为评估LLMs安全性的重要基准,并为建设一个更安全的互联网社区做出贡献。

动机

随着大型语言模型(LLMs)的快速发展,了解其识别不安全内容的能力变得日益重要。现有研究虽然已经引入了一些基准来评估LLMs的安全风险,但在中文环境中,当前LLMs识别非法和不安全内容的能力仍然有限。鉴于此,研究者提出了Chinese Safe——一个旨在促进大型语言模型内容安全研究的中文安全基准。

研究者指出,尽管当前已有部分基准数据集专注于评估LLMs在中文环境下的安全性,但它们覆盖的安全问题种类相对较少。尤其是现有基准很少涉及变体和同音词,这些词汇常被用于规避网络内容审查。这使得现有基准对中文内容的安全评估显得不够全面。因此,研究者们致力于填补这一空白。

Chinese Safe包含205,034个例子,覆盖4个类别及10个子类别的安全问题,具备更全面的安全问题分类。此外,该基准特别引入了政治敏感性、色情内容及变体/同音词等新的安全问题类别,这些类别在现有中文安全基准中几乎未被考虑。因此,Chinese Safe能够更好地评估LLMs在现实中文场景中的安全性。

通过数据采集、清洗及标注,研究者们构建了一个标准化的安全数据集,数据来源涵盖开放数据集和网络资源。这些尝试旨在检测LLMs是否能够识别用户输入或生成的潜在不安全中文内容,从而为开发更安全的LLMs提供重要指导。

整体而言,Chinese Safe的提出不仅弥补了国内LLMs安全评估的不足,也为未来在中文环境中内容的监管和模型的安全性提供了新的参考标准。

方法

本文提出了一种用于评估中文环境中大型语言模型(LLMs)安全性的基准(Chinese Safe)。该基准涵盖了205,034个示例和4类、10个子类的安全问题,以便更全面地评估LLMs的安全性。这一部分详细介绍了数据收集、分类和评估方法。

数据收集

为了创建这个以中文为中心的基准,研究团队从多个来源收集了数据,包括开源数据集和互联网。数据来源主要包括普遍的安全问题以及符合中国互联网内容监管的特别安全问题,例如政治敏感性、色情内容以及变体和谐音词。

在普遍安全问题方面,研究团队利用已有的开源安全数据集。此外,由于现有基准对中文情境中的部分特定安全问题覆盖不足,团队通过网络抓取,从社交媒体平台收集了大量相关数据,确保基准的多样性和平衡性。

数据处理

收集到的数据质量存在一定问题,因此进行了数据清理和去重处理。具体步骤包括:

  • 删除语义不明确的示例,例如完全由变体词构成的句子。
  • 采用规则过滤掉结构不合法的示例,例如仅包含标点符号或连续空白字符的行。
  • 针对重复数据,执行去重操作,移除语义相似的示例。

在这些步骤完成后,团队将样本标签化到相应的一级和二级类别中,从而构建了一个标准的安全基准数据集。

数据分类

在评估模型的整体安全性时,作者还专注于评估特定安全问题的安全性。为此,研究团队创建了一个层次化基准,涵盖了以下四个安全问题类别:

  • 非法活动:评估模型能否识别涉及非法活动的内容,包括政治敏感性、色情和犯罪行为。
  • 伦理与道德:评估模型的能力,以识别可能影响社会稳定或危害个人的非道德行为。
  • 健康与隐私:评估模型识别可能导致身体或隐私伤害的内容的能力,包括身体健康、心理健康和隐私泄露。
  • 变体与谐音词:评估模型识别那些旨在规避内容审核的变体和谐音词的能力。

为了更深入地研究LLMs在特定安全问题上的表现,研究团队进一步将这四类安全问题细分为十个子类。

评估方法

为了评估LLMs的安全性,研究采用了两种评估方法:生成方法和困惑度方法(perplexity)。

  • 生成方法:通过使用生成的内容做出预测,研究团队应用了Outlines框架来进行评估。
  • 困惑度方法:选择具有最低困惑度的标签作为预测结果。

评估过程中,团队对26个大型语言模型进行了测试,包括API模型和开源模型,这些模型分别来自不同的组织和规模。在整体安全性和特定类别的安全性评估中,均采用了以上两种方法来验证模型的表现。

实验设置

  • 测试集:为了减少评估时的计算开销,团队随机抽取了少量数据进行评估。对整体类别的评估,团队从Chinese Safe中分别抽取安全和不安全示例以构建平衡测试集。
  • 评估指标:主要报告五个指标的结果,包括整体准确率、精确度和召回率,确保评估结果的全面准确。

通过上述方法,研究团队能够系统性地评估不同LLMs在安全性方面的表现,从而为未来的开发和模型改进提供依据。

实验

实验设置

在评估大语言模型(LLMs)安全性的过程中,由于计算开销巨大,研究人员决定随机抽样部分数据进行测试。对于整体安全问题类别的实验,他们通过从 Chinese Safe 中以 0.1 的比例抽取不安全和安全样本来构建平衡测试集。而对于每个安全问题类别的实验,他们则从每个安全问题类别中抽取相等数量的安全样本。

评估指标

实验主要通过五个指标来报告结果,包括总体准确率、安全和不安全内容的精度和召回率。在表格中以 metric/std 的格式展示结果,std 表示不同样本随机种子(100, 200, 300)下结果的标准差。

评估方法

Chinese Safe 是为了评估模型识别不安全中文内容的能力而构建的。因此,任务可以视为“是”或“否”的问题。通过两种方法来评估 LLMs 的安全性:生成基准策略和困惑度基准策略。在生成基准策略中,利用框架对模型生成的内容进行预测,而在困惑度基准策略中,选择具有最低困惑度的标签作为预测结果。不同评估策略的结果分别呈现在表格中。

评估模型

为了全面评估 LLMs 在中文场景中的安全性,研究人员评估了共26个覆盖不同组织和参数规模的主要语言模型。特别地,对基于 API 的模型,评估了4个主流 LLMs,而对于开源模型,则测试了22个代表性开源模型。模型被按照参数大小分类,包括大于 65B、约 30B、10B-20B 和 5B-10B。

实验结果

在生成方法评估时的主结果中,表格展示了各种 LLMs 的总体类别的准确率、安全和不安全样本的精度及召回率。对于开源模型,DeepSeek-LLM-67B-Chat 在 Chinese Safe 上表现优越,达到平均准确率 76.76%。对于基于 API 的模型,GPT-4o 则展示了最佳性能,准确率为 73.78%。同时,GPT-4o 还在识别不安全样本的精度方面表现出色,达到了 97.75%,明显高于其他模型。此外,OPT 系列模型表现较差,且存在提升空间。而 GPT-4 系列与 DeepSeek 系列通常表现优于其他系列模型,如 Meta 的 Llama3。

在使用困惑度方法评估时的结果显示,Baichuan2-13B-Chat 模型在开源 LLMs 中性能突出,平均准确率为 70.43%。而 Llama3-ChatQA-1.5-70B 的平均准确率仅为 40.41%,这表明该模型在中文场景中的安全表现较差。结果也体现出,当使用困惑度评估策略时,LLMs 整体性能低于使用生成策略时的结果。这表明,在评估 LLMs 安全性时,基于生成的策略更加有效,能够更好地检测不安全内容。

不同规模模型对安全评估结果的影响

通过比较不同规模 LLMs 在 Chinese Safe 的安全评估结果,观察到模型性能与参数数量不一定成正比。在 10B-20B 的规模范围内,InternLM2-Chat-20B、Qwen1.5-14B 和 Baichuan2-13B-Chat 模型的准确率分别达到 70.21%、68.25% 和 62.86%。然而,在约 30B 的模型中,Yi-1.5-34B-Chat 和 Opt-30B 模型反而表现不佳,分别仅达到了 60.06% 和 50.88%。因此,结果显示,增加模型规模并不一定会提高 LLMs 的安全性。

各安全问题类别的评估结果

为了全面评估 LLMs 在各安全问题类别上的表现,研究人员对每个安全问题类别进行了大量实验,并分别使用生成方法和困惑度方法进行评估。各个类别的实验结果呈现在附录中。其结果表明,LLMs 在生成基准策略下表现更佳。此外,他们还发现,在某些安全问题类别(如隐私泄露)中,开源 LLMs 的性能差异显著。通过分析,DeepSeek-LLM-67B-Chat 模型在识别隐私泄露内容方面表现更好,平均准确率达到 79.85%,而 Qwen1.5-72B-Chat 模型的准确率则为 58.25%。总体来看,LLMs 在不同安全问题类别上的表现差异较大。

结论

在这篇论文中,研究者们提出了一个专注于中文场景的安全数据集(Chinese Safe),作为评估大型语言模型(LLMs)安全性的基准。与现有的中文安全基准相比,Chinese Safe 是一个更全面的基准,涵盖了205,034个示例,分为四个类别和十个子类别的安全问题。研究者的目标是构建一个与中国互联网内容审查相符合的基准,以理解LLMs在真实中文场景中的安全性。

通过对总共26个代表性的LLMs在Chinese Safe上的广泛实验,结果显示一些LLMs在不同类别的安全问题上表现较差,例如OPT模型系列。同时,实验还表明,LLMs在特定安全问题上也展现出较低的安全性,如与身体健康和心理健康相关的问题。研究者希望Chinese Safe能够作为评估LLMs安全性的关键基准,并为推动更安全的互联网社区贡献力量。