AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了更全面地评估模型的工具使用能力,司南及合作伙伴团队推出了T-Eval评测基准,相关成果论文已被ACL 2024主会录用,点击链接可查看原文:https://arxiv.org/abs/2312.14033。
T-Eval评测基准
使用了工具的大语言模型有着惊艳的问题解决能力,但是如何评估模型的工具使用能力还有很大的探索空间。现有评估方法通常只关注模型处理单步骤任务时的工具调用表现,缺少在多步骤复杂任务场景下模型使用工具能力的评估。
因此,为了更全面地评估大语言模型的工具使用能力,司南及合作伙伴团队推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 评测基准,相较于之前整体评估模型的方式,论文中将大模型的工具使用分解为多个子过程,包括规划、推理、检索、理解、指令跟随和审查。
规划(PLAN):制定工具调用策略。
推理(REASON):理解工具使用环境和自身功能,生成逻辑思考内容。
检索(RETRIEVE):从给定的工具列表中选择合适的工具。
理解(UNDERSTAND):正确理解工具使用的参考文档和所需参数。
指令跟随(INSTRUCT):生成指定格式的工具调用请求。
审查(REVIEW):评估每个工具调用执行的结果,确保回答满足预期目标。
这种分解方法不仅能够帮助我们更全面地理解大模型在工具使用方面的能力,还能够识别出模型在工具使用过程中的主要瓶颈。我们在T-Eval上进行了广泛的实验,并进行了深入分析。实验结果表明,T-Eval对模型的单过程能力和综合能力具有一致评价,即单个能力得分越高,在复杂任务中的表现就越好。
T-Eval构建过程
T-Eval 的构建主要包括 3 个阶段:工具收集、指令生成和黄金方案标注。首先,我们根据可用性和使用率,挑选了15种基本工具,涵盖了研究、旅行、娱乐、网络、生活和金融等多个领域。此外,还为每个工具生成了详细的API文档,以减少因工具描述不充分而导致的工具调用失败案例。
然后,我们利用 GPT-3.5 生成了初始问题,并通过 GPT-4 进一步完善问题。之后,我们开发了一个多智能体框架,利用所提供的工具解决问题,同时收集解决方案路径和工具响应。最后,我们使用人类专家来挑选高质量样本。
T-Eval主要贡献
(1)细粒度评测:T-Eval将评测过程分解为多个子任务,分别评估模型在工具使用上的细粒度能力。
(2)多智能体数据生成:使用了由人类专家验证的多智能体数据生成流程,显著减少了外部因素的影响,使评测结果更加稳定、公平。
(3)广泛实验:通过在各种大模型上的广泛实验,验证了T-Eval的有效性和普适性,为当前大语言模型的工具使用能力瓶颈提供了宝贵的见解,并为改进工具使用能力提供了新的视角。
评测结果
我们在 T-Eval 上对 20 种大语言模型进行了评测,包括基于API的商业模型和开源模型。结果显示,GPT-4在整体评分上取得了最高分,显示出其卓越的工具使用能力。对于开源模型,我们对三种不同规模的模型进行了实验,它们的尺寸大约是7B、13B和70B,可以发现,随着模型参数的增加,其表现也更加优秀。特别是Qwen-72B模型,其总得分已接近API模型水平。
T-Eval 现已加入 OpenCompass 评测平台,更多详细内容可参考以下链接!
GitHub:https://github.com/open-compass/T-Eval OpenCompass官网:https://hub.opencompass.org.cn/dataset-detail/T-Eval 联系我们:opencompass@pjlab.org.cn欢迎大家关注“司南评测体系”微信公众号,获取更多大模型评测相关知识~
总结
**总结:AI Agent工具使用能力新突破 —— T-Eval评测基准解析**为了更全面地评估大语言模型(LLMs)在使用外部工具时的复杂任务处理能力,司南及合作伙伴团队推出了创新的T-Eval评测基准。T-Eval通过将模型使用工具的过程分解为六个细粒度子任务——规划、推理、检索、理解、指令跟随和审查,弥补了传统评估方法在多步骤任务上的不足。这一新方法不仅帮助我们深入了解模型的工具使用能力,还识别了提升能力的关键环节。
在T-Eval构建过程中,团队精选了15种涵盖多个领域的常用工具,并通过先进的人工智能工具如GPT-3.5和GPT-4辅助生成测试问题及解决方案路径,随后由人类专家进行严格的质量控制和数据筛选。这一流程确保了T-Eval的公正性、全面性和高质量。
T-Eval的主要贡献体现在细粒度评测能力、稳定公平的多智能体数据生成方法以及广泛的实验验证上。实验结果表明,该评测体系对不同大模型的工具使用能力提供了客观一致的评价,其中GPT-4表现出色,开源模型中规模越大的表现也越优秀,展示了参数增加对能力提升的正向作用。
T-Eval评测基准已正式加入OpenCompass评测平台,便于科研人员和行业用户更便捷地了解和应用该工具。这一成果的推出,为改进和优化大语言模型的工具使用能力提供了新的研究视角和实践指南,将进一步推动人工智能领域的技术创新与发展。更多详情请关注T-Eval相关链接及司南评测体系公众号。