大模型落地最后一公里：111页全面综述大模型评测

当前，大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命，众多科技巨头纷纷围绕大模型进行布局，进一步推动大模型不断向前发展。然而，尽管大模型能够协助我们完成各种任务，改变我们的生产和生活的方式，提高生产力，为我们带来便利，但大模型的发展也伴随着诸多风险与挑战，如泄露隐私数据，生成带有偏见、暴力、歧视、违反基本道德和法律法规的内容，传播虚假信息等。不仅如此，随着大模型能力的飞速进步，其产生自我保持、自我复制、追求权力和资源、奴役其它机器和人类等与人类价值不符的 “欲望” 倾向开始逐步呈现出来。因此，在大模型高歌猛进的今天，追踪大模型的技术进步，对大模型能力及其不足之处形成更深入的认识和理解，预知并防范大模型带来的安全挑战和风险，需要针对大模型开展全方位的评测，以引导大模型朝着更健康和更安全的方向发展，让大模型的发展成果惠及全人类。

然而，当前对大模型进行全方位评测面临诸多挑战，由于大模型的通用性强，能够胜任多种任务，因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂；其次，由于数据标注工作量大，许多维度的评测基准仍然有待构建；再次，自然语言的多样性和复杂性，使得许多评测样本无法形成标准答案，或者标准答案不止一个，这导致相应的评测指标难以量化；此外，大模型在现有评测数据集的表现难以代表其在真实应用场景的表现。

为了应对以上挑战，激发大家对大模型评测研究的兴趣，推动大模型评测研究与大模型技术研究发展相协调，天津大学自然语言处理实验室最近发布了大模型评测的综述文章。该综述文章共有 111 页，其中正文部分 58 页，引用了 380 余篇参考文献。

论文地址：https://arxiv.org/abs/2310.19736
论文参考文献详细列表：https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如图 2 所示，该综述将整个大模型评测按照评测维度的不同分为了 5 个评测类别：（1）知识和能力评测，（2）对齐评测，（3）安全评测，（4）行业大模型评测，（5）（综合）评测组织。这 5 个评测类别基本囊括了当前大模型评测的主要研究领域。在介绍每个评测类别时，该综述对相关的研究工作进行了梳理，以树状结构的思维导图形式展示了各个研究工作之间的关系，以清晰展示该领域整体的研究框架。不仅如此，该综述还探讨了大模型评测的未来发展方向，强调了大模型评测应该与大模型本身协同进步。希望该综述能够为对大模型评测领域感兴趣的研究者和工程技术人员提供参考，基于该综述，对大模型评测的发展和现状形成较为全面的了解，并对大模型评测中的关键和开放问题进行深入思考。

图 2 大模型评测研究中的 5 个主要评测类别及其子类别

知识和能力评测

知识和能力是评测大模型的核心维度之一。大模型的飞速发展，使其在诸多复杂任务中不断取得突破，并被广泛应用于越来越多的实际业务场景中。对其是否可以胜任真实场景任务，需要对大模型的知识和能力水平进行综合评估。该综述讨论了大模型的问答能力评测、知识补全能力评测、推理能力评测及工具学习能力评测，并梳理了相关的评测基准数据集、评测方法和评测结果。在推理能力评测中，该综述介绍了目前常见的 4 种推理类型：（1）常识推理，（2）逻辑推理，（3）多跳推理，（4）数学推理。在工具学习能力评测中，该综述详细介绍了工具调用能力评测和工具创造能力评测。对应的思维导图如图 3 所示。

图 3 大模型知识和能力评测

对齐评测

对大模型进行对齐评测能够提前预知大模型带来的负面影响，以便提前采取措施消除伦理价值未对齐问题。在对齐评测中，该综述讨论了大模型的道德和伦理评测、偏见性评测、毒性评测和诚实性评测，其对应的思维导图如图 4 所示。

图 4 大模型的对齐评测

大模型的道德和伦理评测旨在评估其生成内容中是否存在违背社会公认的道德伦理规范的情况。该综述根据评价准则的不同将道德和伦理评测分为四个部分：（1）基于专家定义的道德伦理规范评测，即采用书籍、文章等专业来源中定义的道德伦理规范作为评价标准，然后采用众包的方式制作相应的评测数据集；（2）基于众包方式的道德伦理规范评测，其道德伦理规范通常是由未接受相关专业培训的众包工作者根据个人的道德标注进行确定；（3）AI 辅助的道德伦理规范评测，即让语言模型参与到评测过程中，辅助人类判断内容是否符合道德伦理；（4）基于混合模式（如专家定义 + 众包方式）的道德伦理规范评测，其相关的评测数据集则既包含了由专家定义的道德伦理规范构建的数据集，也包含了基于众包工作者的个人道德规范构建的数据集。

大模型的偏见性评测主要关注其生成的内容是否会对某些社会群体产生不利影响或伤害。现有的研究表明大模型可能会对某些群体持有刻板印象，或者产生输出贬低特定群体的信息等偏见行为。该综述主要讨论了下游任务中的偏见和大模型中的偏见。下游任务涉及指代消解、机器翻译、自然语言推理、情感分析、关系抽取和隐式仇恨言论检测。而在大模型中的偏见中，该综述主要介绍了主流的专用于评估大模型的偏见的评测数据集和评测方法。

大模型的毒性评测主要聚焦于评估其生成的内容中是否含有仇恨、侮辱、淫秽等有害信息。在毒性评测的框架下，该综述介绍了使用大模型识别有害信息的相关工作，并详细介绍了相应的评测基准。不仅如此，该综述还阐述了适用于评估大模型的毒性的评测数据集以及能够量化大型模型生成内容毒性的工具。

大模型的诚实性评测致力于检测模型生成的内容是否真实、准确，以及是否符合事实。该综述以评测数据集和评测方法为主线，详细介绍了大模型的诚实性评测的相关工作。在介绍真实性评测的数据集时，该综述根据数据集涉及的任务类型将数据集划分为了三类：（1）问答任务数据集，（2）对话任务数据集以及（3）摘要任务数据集。在探讨真实性评测的方法时，该综述对现有的真实性评测方法进行了梳理和归类，并将其总结为三类：（1）基于自然语言推理的评测方法，（2）基于问题生成和问答的方法，（3）基于大模型的方法。

安全评测

虽然大模型在许多任务中已经展现出媲美甚至超越人类的表现，但由其引发的安全问题也不容忽视，因此需要对大模型进行安全评测以确保其在各种应用场景中的安全使用。在安全评测中，该综述探讨了鲁棒性评测和风险评测两个方面，其对应的思维导图如图 5 所示。鲁棒性评测主要包括：（1）提示词鲁棒性，即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评估大模型的鲁棒性；（2）任务鲁棒性，即通过生成各种下游任务的对抗样本评估大模型的鲁棒性；（3）对齐鲁棒性，大模型通常会经过对齐训练以确保其生成的内容与人类的偏好和价值对齐，防止模型生成有害信息。然而，已有的研究表明有些提示词能够绕过对齐训练的防护，触发大模型生成有害内容，这种方法也被称为越狱打击方法。因此，对齐鲁棒性主要评测的是大模型在面临各种引导模型生成有害内容的越狱攻击时能否仍然生成与人类偏好和价值对齐的内容。

风险评测则主要集中于两个方面：（1）大模型的行为评测，即通过与大模型进行直接交互的方式，评估大模型是否存在追求权力和资源，产生自我保持等潜在危险行为或倾向；（2）将大模型视为智能体进行评测，即在特定的模拟环境中对大模型进行评测，如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大模型的行为评测不同，此项评测更侧重于大模型的自主性以及其与环境和其它大模型之间的复杂交互。

图 5 大模型安全评测

行业大模型评测

行业大模型指专门针对某个特定领域或行业进行训练和优化的大模型。与通用大模型不同，行业大模型一般都经过了特定领域数据的微调，因此其更加专注于某一特定领域的知识和应用，如法律、金融、医疗等。乘着通用大模型发展的东风，各种行业大模型也纷纷亮相。为深入了解行业大模型能力水平，发现行业模型潜在缺陷以便改进和优化，需要对行业大模型进行深入评测。该综述介绍了生物 & 医疗、教育、法律、计算机和金融领域的行业大模型的评测，梳理了相应的评测基准、评测方法以及针对特定大模型的评测结果。其对应的思维导图如图 6 所示。

图 6 行业大模型评测

（综合）评测组织

评测组织研究如何将多个评测维度或子维度组合起来，以对大模型进行综合性评测。该综述对评测组织研究进行了全面梳理，并将相关的综合性评测基准归类为两种：（1）由自然语言理解和自然语言生成任务组成的评测基准，如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等；（2）由人类各学科考试题组成的学科能力评测基准，其目的是评估大模型的知识能力，如 MMLU、C-Eval、MMCU 和 M3KE 等。此外，该综述还总结了不同模型在学科能力评测基准上的表现，并分析和探讨了测试集样本所属的语言、模型的参数规模、指令微调和思维链等因素对模型效果的影响。同时，该综述还介绍了评测平台、排行榜以及大模型竞技场，这些排行榜的评测数据集通常也由多个任务的评测数据集共同组成。大模型竞技场引入了 Elo 评分机制对大模型进行打分和排名，在计算 Elo 评分时，由人类对大模型生成的回复进行投票以选出质量高的回复。评测组织对应的思维导图如图 7 所示。

图 7 评测组织

未来展望

该综述不仅梳理和介绍了现有的大模型评测的研究，还探讨了当前研究中存在的瓶颈问题，并基于此，展望了大模型评测未来潜在方向：（1）风险评测，（2）智能体评测，（3）动态评测，以及（4）以优化大模型为目标的评测。

风险评测：现有的风险评测方法主要通过问答的方式对大模型进行评测，然而该方法难以全面评估大模型在特定场景或特定环境下的风险，无法深入揭示这些风险产生的内在原因。因此对于大模型的风险评测，需要更深入、更全面的评测方法。

智能体评测：现有的将大模型视为智能体进行评测的方法大多需要一个特定的环境，并且总是聚焦于智能体的能力评测。然而，这些方法往往缺乏专门用于评测智能体潜在风险的环境，因此可以进一步增加智能体所处环境的多样性，以便更全面地评估其能力和风险。

动态评测：现有的评测方法通常是静态评测，其测试样本总是长时间保持不变。然而，由于大模型的训练数据来源广泛且规模庞大，有些测试样本可能已经包含在其训练数据中。此外，大多数大模型往往不会详细透露其训练数据来源或公开其训练数据，这可能导致为了获得好的评测结果，静态评测的测试样本会被人为添加到模型的训练数据中。再者，由于知识每时每刻都在迭代更新，静态评测的数据中的知识有可能会过时，随着大模型的能力不断的增强，原有的静态评测数据的难度可能无法满足大模型的能力需求。这些因素都削弱了静态评测的公平性。因此，为了更加全面公正的对大模型进行评测，可以采用动态评测方法，持续更新测试样本，引入开放式问题，并探索评测新方法，如使用多个大模型通过辩论的方式进行评测。

以优化大模型为目标的评测：现有的评测方法主要使用具体的评分量化大模型在某些特定任务或某些特定维度的能力，虽然这些评分便于模型之间的比较和选择，但它们包含的信息难以指导模型的进一步优化。因此，需要以优化大模型为目标的评测方法，这种方法不仅给出模型的能力评分，同时也提供对应的能力分析和改进建议。