Agent 评测方法论 Agent 迭代中的问题 常见问题:迭代后 Agent 出现 “降智” 现象,表现为能力退化或极端情况处理失败 核心痛点:缺乏量化评测,导致迭代依赖直觉,问题发现滞后(如用户投诉后才察觉),陷入被动救火循环 Agent 评测的核心逻辑 核心目标:将模糊的 Agent 表现转化为可信赖、可量化的数字评测 与传统大模型评测的差异:Agent 涉及多轮交互(调用工具、修改状态、调整策略),单轮测试失效,中间环节错误易导致任务失败 Agent 评测的核心概念 Task(测试用例):包含输入和成功标准…