T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

 

T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

摘要

背景

  • LLM 工具学习的发展
  • 如何评估 LLMs 的工具的利用能力还有待研究

工作

  • 与之前全面评估模型的研究相比,我们综合地将工具利用分解为多个子过程,包括遵循指令、规划、推理、检索、理解和复习。