T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记

摘要

背景

LLM 工具学习的发展
如何评估 LLMs 的工具的利用能力还有待研究

工作

与之前全面评估模型的研究相比，我们综合地将工具利用分解为多个子过程，包括遵循指令、规划、推理、检索、理解和复习。

上篇Tool Learning through Simulated Trial and Error论文笔记

下篇DSPY COMPILING DECLARATIVE LANGUAGE MODEL CALLS INTO SELF-IMPROVING PIPELINES论文学习