大语言模型评测方法全面总结！-轻识

自2017年Transformer模型提出以来，自然语言处理研究逐步转向基于该框架的预训练模型，如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后，持续刷新最优结果。然而，现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此，需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。

本文回顾了自然语言处理中的评测基准与指标，将大语言模型评估分为经典和新型评测范式，分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法，并总结了当前广受关注的大语言模型评测新方向。需要说明的是，本文所指的大语言模型并非严格限定规模，而是指以预训练为基础、具有通用能力的语言模型。

1 自然语言处理的评测范式

自然语言处理的发展得益于自然语言处理评测。评测通常依赖于一系列评测基准，模型在这些基准数据集上运行并产生输出结果，评测系统据此返回一个代表模型能力的值。最简单的评测基准由单一任务上的单一数据集构成，这也是常见的自然语言处理基本评测模式。为了全面评估大语言模型，可以将多个数据集聚合和重新组织，形成一个更通用的评测基准。本章针对大语言模型的评估对评测范式进行了分类，将其分为经典评测范式和新型评测范式。表1列出了一些典型的评测基准。下面将分别介绍经典评测范式，以及面向多种能力的新型评测范式与现有评测的不足。

表1 一些典型的评测基准

1.1 经典的自然语言处理评测

自然语言处理分为自然语言理解（NLU）和自然语言生成（NLG）两大类，但在经典评测范式下主要关注模型最终输出结果与参考答案的匹配程度。经典评测结构如图1所示。

图1 经典评测的结构

1.1.1 自然语言理解能力评测

自然语言理解能力评测是指对模型在理解自然语言方面的能力进行评估。常见的自然语言理解任务有情感分析、文本匹配、文本分类和阅读理解等。针对具体的任务已有大量的相关评测基准。例如，GLUE是一个包含9个自然语言理解任务的评测基准，包括情感分析、文本蕴含、句子相似性等。XTREME是一个大规模、多任务、多语言的模型评测基准，涉及40种不同的语言，共9个任务。在中文信息处理方面，CLUE是一个大规模的中文理解评测基准，包含文本分类、阅读理解、自然语言推理等多个中文自然语言理解任务和一个诊断评估数据集。

1.1.2 自然语言生成能力评测

自然语言生成能力评测是指对模型在生成自然语言方面的能力进行评估。常见的自然语言生成任务包括机器翻译、生成式文本摘要、自动对话等。针对这些任务，已有大量的相关评测基准。例如，BLEU是评测机器翻译任务中译文质量的一个重要指标，通过衡量模型生成译文与参考译文之间的N-gram匹配程度来计算得分。此外，还有METEOR、ROUGE等指标用于评估生成式文本摘要和问题生成等任务的生成质量。

1.1.3 同时考虑理解和生成的能力评测

针对大语言模型的迅速发展及其在下游任务上的广泛应用，仅评估模型某一种能力的评测基准无法满足评测需求。因此，许多新的更为全面的评测基准不断推出，这些基准通常聚合多个数据集、多个任务以及多个评测指标来对模型进行更全面的能力评测。例如，北京大学、清华大学和北京智源人工智能研究院等研究机构联合提出了一个评估汉语理解和生成能力的评测基准 CUGE，涵盖了 7 种重要的语言功能，包括字句级别的语言理解能力、语篇级别的语言理解能力、信息获取和问答能力、语言生成能力、对话式交互能力、多语言能力和数学推理能力，进一步细分到 18 个主流 NLP 任务。

1.2 面向多种能力的新型评测范式

新型评测范式注重大型语言模型在理解和生成能力的基础上，还考量模型是否符合社会道德准则。这种范式为研究者提供了更多维度和深层次的评估方法，有助于推动自然语言处理技术的持续进步和完善。

1.2.1 多种属性的能力评测

为了追踪大语言模型的规模对模型表现的影响，研究者们提出了多种属性的能力评测，包括知识运用能力、数学推理能力、幻觉检测能力等。这些评测基准既包含最初为人类设计的模拟考试，也包含在传统自然语言处理任务上用来评估语言模型的评测基准。例如，TriviaQA 和 OpenBookQA 用于评估大语言模型的知识运用能力，GSM 8 k 用于评估大语言模型的数学推理能力，HaluEval 用于评估大语言模型的幻觉检测能力。这些评测基准有助于更全面地评估大语言模型的性能

1.2.2 模型评测实例———GPT-4的评测

OpenAI使用一系列评测基准评估GPT-4的表现，包括为人类设计的模拟考试和传统自然语言处理任务上的评测基准。模拟考试包括SAT Math和Leetcode，主要考察数学问题和综合代码能力。传统自然语言处理任务上的评测基准包括MMLU、HellaSwag4、HumanEval1和DROP，分别考察大语言模型将知识运用于问题解决的能力、常识性推理能力、代码生成能力和阅读理解与数值推理能力。评测结果表明，GPT-4在大多数专业类考试和学术类考试中表现与人类相当，在多个传统的自然语言处理评测基准上达到最先进效果，并展现出处理低资源语言的能力。

微软研究人员以人类级别认知能力与现实世界紧密联系为原则，提出了以人为中心的评测基准AGIEval，并在其上评测了GPT-4和ChatGPT等大语言模型的表现。AGIEval的评测数据来自高标准化、官方的人类考试题，如GRE、SAT、中国高考、LSAT、AMC和中国公务员考试等。与文献[35]不同，AGIEval只保留客观题（多项选择和填空），以更标准和自动地评测大语言模型。评测包括零样本学习、小样本学习、零样本思维链和小样本思维链四种设置。结果显示，GPT-4在LSAT、SAT和数学竞赛中超越人类平均表现，SAT数学考试准确率达95%。然而，大语言模型在需要复杂推理或特定领域知识的任务上表现不佳。此外，与GPT-3系列模型相比，GPT-4等大语言模型的零样本学习能力逐渐接近小样本学习能力。

1.3 现有评测的不足

1.3.1 新生任务缺乏相应的评测基准

随着通用大语言模型的发展，需要更多应用场景和任务来评估其效果。然而，一些新生任务缺乏评测基准，这限制了该领域的发展。评测基准是评估模型性能和比较不同模型的关键，缺乏它会使得研究人员难以准确评估模型性能，也难以对新生算法和模型进行有效评估和比较。此外，缺乏评测基准也会影响对新生任务的理解和定义。因此，建立评测基准对于模型在新生任务上的应用研究至关重要，也能帮助研究者更好地理解大语言模型在新生任务中的应用潜力。

1.3.2 评测任务缺乏区分度

随着大语言模型能力的增强，其在一些评测任务上的表现已与人类相当，甚至超越人类，导致许多评测任务失去挑战性和区分度，难以为研究者提供有价值的信息。这不仅是评测基准的问题，也反映出大语言模型发展超出原有评估任务范围的趋势。因此，需要更加注重评测任务的区分度和难度，以确保评测结果具有实际可参考的意义。

1.3.3 评估方式不公平

评估方式不公平主要表现在评估指标和数据集选择存在不公平的问题，以及人为因素可能导致评估结果的不公平。在评估指标方面，同一任务下的评测数据集可能产生模型A在某个评测数据集上优于模型B，但在另一个评测数据集上又劣于模型B的矛盾情况。人为因素也可能导致评估结果的不公平，例如人工评测中，评测人员的背景、观点和经验可能影响他们对模型的判断，从而在评测结果中引入人为的偏差。

1.3.4 评估不全面

目前，模型单项能力的评测往往简化为针对单个任务上的单数据集单指标，无法准确反映模型在待评测能力方面的强弱。例如，自然语言生成能力的评测需要考察多个方面，但不同方面适用不同的评测指标。不同的任务和数据集会涉及不同的语言现象和应用场景，这是单个任务上的单数据集单指标评测有失考量的内容。此外，对模型综合能力的评测大多是单个评测基准的简单聚合，缺乏系统性的交互，也无法全面评估模型的综合能力和多种属性。

1.3.5 评测基准的污染问题

评测基准的污染问题是指评测数据出现在模型训练数据中，影响评测公正性和可信度。为确保公正性和可信度，评测基准的测试数据不应包含在大语言模型训练数据中。由于模型训练数据庞大，研究者难以确定评测基准是否泄漏。这种污染影响评测基准的公正性和可信度。因此，评测基准构建者和使用者需谨慎考虑，确保独立性和代表性。未来大语言模型研发者应明确可能存在的污染问题和污染程度。

1.3.6 评估结果缺乏可解释性

在大语言模型评测中，现有评估方式缺乏对评估结果的解释和分析，导致评估结果的可解释性缺失。这种缺失主要表现在两个方面：一是数字化评估方式难以理解模型在不同任务和数据集上的表现差异；二是缺乏可解释性难以确定模型在特定任务上的优势和劣势，从而难以针对性地进行优化和改进。因此，提高评估结果的解释性对于提高模型性能和优化至关重要。

2 全面的大语言模型评测

HELM是Liang等人提出的一种全面评估大语言模型的方法，适用于多个场景、任务和评估指标。它筛选出应用性的任务作为评测重点，并选择部分主要评测数据。HELM明确了7个评测指标，如准确率，以及7个更具针对性的评估维度，如语言能力、推理能力等。它对30个大语言模型在42个场景和评测指标下进行了评测并公开了结果。然而，HELM也指出了其评测中的遗漏和不足，如部分场景和任务缺失、部分评估方法不足等。由于部分大模型不再开源，全面评测存在困难。HELM将大语言模型视为黑盒，这也是其评估中的不足之一。评测属性包括准确率、校准度、泛化能力、适配能力、鲁棒性、效率、偏见和刻板印象、公平性和有害性。

2.1 准确率

准确率是衡量模型预测或生成结果正确比例的指标，对于大语言模型处理自然语言任务和应用至关重要。准确率的评估方法因场景和任务而异，常见的评估指标包括F1值和Accuracy值（用于判别类问题），BLEU和ROUGE值（用于生成类问题），ExactMatch（用于判别类和生成类问题），ReciprocalRank和NormalizedDiscountedCumulativeGain（用于搜索类问题）。准确率指标在自然语言处理评测中广泛使用，并将继续作为重要的评估指标。

2.2 校准度

准确率衡量模型输出结果的正确性，而校准度则是衡量模型对输出结果赋予的概率的准确性，即模型预测时给出的置信度对真实概率分布进行估计的准确性。大语言模型的校准度评估具有重要意义：首先，有助于提高模型的可靠性，校准度越高，模型的预测结果就越可靠；其次，有助于改善置信度估计，校准度可以更好地帮助使用者理解模型的预测结果并在必要时进行人工介入。

期望校准误差（ECE）是评估模型校准度的指标，用于比较模型预测概率与实际概率的差距。它通过将概率区间划分为M个小区间，计算每个区间内预测正确的样例数与预测概率的乘积之和，除以区间内样例数得到准确率。然后计算每个区间的平均置信度，即预测概率的平均值。最后，计算每个区间的校准差距，即准确率与平均置信度的差值。所有区间校准差距的期望值之和即为期望校准误差。

2.3 泛化能力

模型泛化能力的评估主要关注模型在不同数据集上的表现，尤其是小样本或零样本设置。小样本是指模型在预测时仅给出少量样本作为参考，参数通常不作更新。零样本则不提供参考样例，只给出问题文本，由模型直接推理出答案。这两种评估方式能较好地体现模型的泛化能力，泛化能力也预示模型应用于下游任务时的效果。因此，泛化能力的评估是评估大语言模型能否广泛应用于实际应用场景的关键之一，也是未来大型模型评估的重要组成部分。

2.4 适配能力

大模型在特定任务上的能力可以通过适配增强，适配是将原始模型转换成适用于下游具体任务的过程，适配能力指模型在不同适配策略下的性能优劣。适配策略有三种：不更新原模型参数的适配，增加适配层并调整适配层参数的适配，以及对原模型做全参数更新的适配。不更新模型参数的适配通过设计提示和上下文例子使模型在下游任务上获得更好的效果，但如何选择合适的提示形式非常重要。增加适配层并调整适配层参数的适配是一类高效率，低损耗的适配方法，例如在原有的模型架构上添加只含有少量参数的适配层，固定原模型本身的参数，而只基于梯度更新适配层的参数，从而缩小更新参数的规模。一种极端的适配方式是更新模型的全部参数，具体而言，就是利用下游任务中的数据对模型进行再训练，从而迭代更新整个模型的参数。

2.5 鲁棒性

虽然大语言模型性能出色，但数据轻微扰动可能导致性能大幅下降，即模型鲁棒性不强。鲁棒性用于衡量模型对输入数据中的扰动或噪声的抵抗能力。评估模型鲁棒性的方法之一是对文本输入进行扰动，观察模型输出的变化。扰动分为对抗扰动和非对抗扰动。对抗扰动是为了误导模型做出错误预测而故意对输入内容进行修改，对模型的预测结果会产生明显影响。非对抗扰动则是对输入内容更自然和随机的改动，用于模拟现实世界中输入的复杂情况。对抗扰动可以用来评估模型对恶意输入的处理能力，而非对抗扰动可用于衡量模型在现实世界中面对有自然误差的输入时的表现。在评估大语言模型时，需要综合考虑这两种扰动类型的影响，以更全面地评估模型的鲁棒性。

2.6 效率

大语言模型的效率至关重要，包括训练效率和推理效率。训练效率指模型训练时的复杂程度，而推理效率则是模型在不更新参数的情况下的推理复杂度。评估指标包括能量消耗、二氧化碳排放量、参数个数、FLOPS、实际推理时间和执行层数等。评估这些指标有助于研究人员选择合适的模型来满足应用需求。

2.7 偏见和刻板印象

大语言模型在应用中可能表现出歧视行为，这是由于其潜在的偏见和刻板印象。评估模型中的偏见和刻板印象的方法主要分为两类：基于表示端的评估方法和基于生成端的评估方法。基于表示端的评估方法主要利用词向量在语义向量空间中的几何关系表征词汇间的关联程度，从而反映语言模型中的偏见和刻板印象。基于生成端的评估方法侧重于利用模型的生成来衡量其偏见程度。然而，这些评估方法通常需要依赖人工筛选的词表集合来代表某个待测群体或某类属性标签，这可能会引入筛选者的固有偏见。目前，NLP社区对于偏见的评估仍然存在一些问题，例如偏见的界定标准模糊不清，某些评估方式与模型在下游应用上表现的相关性并不明确，对其他形式的偏见（如宗教，国家等）研究较少，非英语语境下的偏见评估尚缺乏相关研究等。

2.8 公平性

大语言模型在下游任务中的准确率不断提高，但公平性问题也逐渐受到关注。公平性关注模型在特定下游任务中针对不同特征群体的性能差距，而偏见和刻板印象是指大语言模型内部的某种固有属性。目前，模型公平性评估可以分为预测公平性、机会平等性和反事实公平性评估。随着大语言模型的发展，其能力范围和应用形式可能更广泛，现有的基于单语言、单模态的公平性评测范式需要进一步迭代以适应更广泛的群体特征和更复杂交融的语言背景。

2.9 有害性

大语言模型的有害性是指其生成有害言论的能力。这在社交媒体和互联网上可能产生不良影响。评估其有害性的方法之一是使用有害性检测系统，如HateBERT和Perspective API。然而，有害言论的定义并不统一，这给系统开发带来了复杂性。开发者需考虑系统设计的合理性、数据集标注的准确性和偏见问题，同时平衡准确率和公平性，避免过度惩罚或忽视某些群体。提高系统的开源性和透明度将增强有害性评测的准确度和公平性。

3 大语言模型评测的一些新方向

自ChatGPT推出以来，生成式大语言模型影响日益增大，传统生成式评测方法面临挑战。研究者探索新评测模式，如基于模型的评测、幻觉问题评测和元评测。这些研究弥补了传统评测的不足，为评价模型性能（尤其是自然语言生成任务）提供了更精准、稳定和可靠的评估结果。

3.1 基于模型的评测

自然语言生成领域的自动化评测方法，如BLEU和ROUGE，主要基于“形式匹配”，存在对语义的忽视、对参考文本的依赖和难以抓住不同任务间的细微差别等问题。为了克服这些局限性，研究者开始探索基于模型的评测方法，尤其是基于大语言模型的评测方法。这些方法使用预先构建的评估模型对任务模型进行评测，具有强大的表示学习能力和语义理解能力，能更好地捕捉到不同生成任务之间的细微差别，与人类评测之间也有更好的相关性。基于模型的评测方法有很多，其中，有代表性的基于模型的评测方法包括依赖参考文本的BERTScore，不依赖参考文本的GPTScore、Kocmi & Federmann和PandaLM。

3.1.1 BERTScore

BERTScore是一种基于BERT的评测方法，通过计算待测文本与参考文本之间的余弦相似度来评估文本的相似性。它首先利用BERT的词嵌入来得到参考文本和待测文本的编码向量，然后通过待测文本中每个token与参考文本中每个token的余弦相似度来计算精确度和召回率，最后根据精确度和召回率来计算F1值。BERTScore的计算结构如图2所示。

图2 BERTScore的计算结构

3.1.2 BERTforMTE

BERT for MTE是一种基于BERT的评测方法，通过句子对编码的方式同时编码待测文本和参考文本，并使用基于MLP的回归模型得到最后的指标分数。

3.1.3 GPTScore

GPTScore是一种基于大语言模型的评测方法，其核心在于给定指令和原文本后，经过预训练的大语言模型会对更高质量的生成内容赋予更大的生成概率。

3.1.4 Kocmi& Federmann

Kocmi& Federmann是一种基于大语言模型的评测方法，旨在通过拟人化方式评估生成任务。该方法使用提示工程，将指令d、上下文信息S和待测文本组合成类似人类评估的模板，输入给预训练的大语言模型。模型直接输出评分，作为任务指标分数。

3.1.5 PandaLM

PandaLM是一种基于比较的评测模型，它专注于在指令调优的语境下根据生成内容在各种候选任务模型中选出最优秀的模型。PandaLM由LLaMA-7 B[136]调优得到，利用大语言模型的泛化能力，能够通过对指令的设计更好地抓住不同生成任务上对评测需求的微妙差异，如简洁性、清晰度、全面性、正式性等。此外，PandaLM还可以同时识别和纠正任务模型的错误。

图3 PandaLM 的评测结构图

未来可能的基于模型评测的研究方向包括：

更具鲁棒性的指标：开发更具鲁棒性的基于模型的评测指标，以降低噪声对评测结果的影响，提高评测结果的稳定性和可靠性。
更可靠的评测方法：进一步发展更加可靠的基于模型的评测方法，增强评测结果的可信度。
知识增强的评测方法：探索将特定知识注入到大语言模型中的方法，从而提高基于大语言模型的评测方法在某些专业领域的表现。
细粒度评估与可解释性增强：关注评测模型在生成内容的更细粒度划分上的评估方式及可解释性。
摆脱对参考文本的依赖：探索如何利用大语言模型的零样本或小样本泛化能力来摆脱生成式任务评测中对参考文本的依赖，从而获得更易泛化和迁移的评测方法、评测指标和更准确的评测结果。
人机协作评测：尝试提出结合基于模型评测和人类评测的有效方式，从而提高人类评测的可用性和基于模型评测的准确性。

3.2 幻觉问题的评测

生成式大语言模型在文本质量和流畅性方面有所提升，但也可能产生不准确信息，即“幻觉”现象，影响实用性和可靠性。幻觉分为内在和外在两类，评估方法分为非大语言模型和基于大语言模型两类。非大语言模型方法包括统计、信息抽取、生成式问答和句子级别分类等，而基于大语言模型的方法通过理解和生成能力来评估文本的幻觉度，有直接和间接两种评测方法。直接评测法利用大语言模型作为代理，通过模板设计完成人类评测员的工作；间接评测法则利用模型生成能力，结合其他评测指标和方法，得到综合度量指标，能处理复杂语义关系，评测复杂幻觉现象，如逻辑错误、事实错误等，并提供幻觉的详细信息。但需注意，评测模型本身也可能产生幻觉，如何控制是一个挑战。

幻觉评测在未来可能的研究方向有:

改进幻觉检测。现有方法在处理复杂或模糊语义时存在挑战。未来研究应探索更复杂的模型和算法以提高准确性和效率，并研究如何利用无标签或弱标签数据提高性能。
深入研究幻觉生成机制。全面评测有助于研究者深入了解幻觉产生原因，进而发展更全面和针对性的评测方法。需要研究模型内部工作机制，包括语言理解和生成过程，以及训练过程中的因素。
设计通用幻觉评测方法。针对自然语言生成中不同任务，需要设计与任务无关的通用评测方法。需要深入理解幻觉本质和不同任务中的共性与特性，同时考虑任务对幻觉的容忍度。设计能够捕捉任务间细微差别、与人类判断高度相关的评测指标是当前的挑战。

3.3 元评测

大语言模型的评测中，元评测至关重要。元评测旨在评估评测指标的有效性和可靠性，即评测的再评测。其核心目的是判断评测方法与人类评测的相关程度，对确保评测质量、减少误差及提升结果可信度具有关键作用。随着大型语言模型在各领域广泛应用，评测方法本身的准确度和可信度日益受到关注。对比不同评测方法，研究者能发现各自优势和局限，从而选择更适合特定任务和场景的评测方法，准确衡量模型性能。元评测中常见的相关性计算方法包括皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔等级相关系数。

皮尔逊相关系数是一种衡量两个变量之间线性关系强度的指标，适用于存在较强线性关系的情况。它对非线性关系的敏感度较低，且受异常值的影响较大。然而，数据分布的偏态可能导致相关系数的失真，因此不适用于存在复杂非线性关系或数据中存在严重异常值或偏态的情况。

斯皮尔曼相关系数是一种衡量两个变量之间单调关系的指标，基于数据的秩次计算，对异常值和偏态数据较为鲁棒，可以捕捉非线性关系。但是只能反映两个变量间的单调关系，当变量之间存在多种依赖关系时，只靠斯皮尔曼相关系数可能难以区分。

肯德尔τ系数是一种基于数据秩次的系数，用于衡量两个变量之间的共同趋势。与斯皮尔曼相关系数类似,肯德尔τ系数是基于数据的秩次,因此对异常值和偏态数据较为鲁棒。但是肯德尔τ系数的计算需要枚举每一对数据点对,因此在小样本数据中表现较好,面对大样本数据时计算效率较低。

元评测的研究方向包括：

更细粒度的元评测：评估各评测指标在不同评估维度上的评测结果与人类判断的相关性，揭示评测指标在捕捉不同生成任务上的微妙差异的能力，为评估方法本身的改进提供指导。
针对评测指标公平性评估的元评测：探究评测指标和评测方法受到人类评测员专业背景、文化差异等因素的影响，以及数据稀缺性对基于模型的评测方法在低资源语言上表现更差的问题。
针对评测指标鲁棒性评估的元评测：通过基于扰动的方法研究评测指标的鲁棒性，揭示其在面对数据噪声、变化或对抗性样本时的稳定性，提高评测方法的可靠性。
参考链接：http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1