T-Eval Evaluating the Tool Utilization Capability of Large Language Models Step by Step论文笔记 摘要 背景 LLM 工具学习的发展 如何评估 LLMs 的工具的利用能力还有待研究 工作 与之前全面评估模型的研究相比,我们综合地将工具利用分解为多个子过程,包括遵循指令、规划、推理、检索、理解和复习。 上篇Tool Learning through Simulated Trial and Error论文笔记下篇DSPY COMPILING DECLARATIVE LANGUAGE MODEL CALLS INTO SELF-IMPROVING PIPELINES论文学习