智能摘要

Agent评测的核心在于将模糊的表现转化为可量化的数字，以解决迭代后出现能力退化的“降智”问题。该方法论强调通过Task、Trial和Transcript来记录多轮交互过程，并组合使用代码、模型与人工三种评分手段。关键在于区分代表能力上限的Pass at k和代表可靠性下限的Pass power k，并关注最终结果而非强制步骤，从而将用户反馈转化为自动化用例，实现从“盲盒迭代”到“量化决策”的转变。

— 此摘要由AI生成仅供参考。

Agent 评测方法论

Agent 迭代中的问题

常见问题：迭代后 Agent 出现 “降智” 现象，表现为能力退化或极端情况处理失败

核心痛点：缺乏量化评测，导致迭代依赖直觉，问题发现滞后（如用户投诉后才察觉），陷入被动救火循环

Agent 评测的核心逻辑

核心目标：将模糊的 Agent 表现转化为可信赖、可量化的数字评测

与传统大模型评测的差异：Agent 涉及多轮交互（调用工具、修改状态、调整策略），单轮测试失效，中间环节错误易导致任务失败

Agent 评测的核心概念

Task（测试用例）：包含输入和成功标准

Trial（多次尝试）：因模型随机性，需多次执行同一测试

Transcript（执行记录）：包含 API 调用、工具使用及中间推理过程

Outcome（最终结果）：如订单创建是否成功等实际效果

三种打分手段

代码评分：最快、最便宜、最客观，适用于明确对错场景（如字符串匹配、正则检查、单元测试）

模型评分：由大模型担任裁判，适用于开放式任务（如客服回复语气、报告全面性），比人工快、比代码灵活

人工评分：专家审核或众包评判，权威性最高，用于校准模型评分

原则：组合使用三种手段，不一刀切

轻量化落地步骤

起步阶段：无需完美，20-50 个真实 bug 转化的用例即可，优先小脚本而非大系统

自动化转化：将手动测试场景、用户反馈问题、缺陷记录转化为自动化用例

样本平衡：同时测试 “应搜索时搜索” 和 “不应搜索时克制”，避免 Agent 过度敏感或迟钝

Agent 评测的重要原则

评结果不评路径：关注最终结果（如数据库是否更新、用户问题是否解决），而非强制步骤，保留 Agent 灵活性

区分能力与可靠性：避免混淆两个关键指标

关键指标

Pass at k：多次尝试中至少成功一次，代表能力上限（演示用）

Pass power k：多次尝试中全部成功，代表能力下限（实际线上参考）

注意：混淆两者易导致线上事故

执行记录的重要性

需读取 Transcript：判断失败原因（Agent 错误或评分逻辑 bug）

评测价值：作为产品与研发的高效沟通语言，量化迭代效果（进步 / 退化）

行动建议：将用户 bug 转化为自动化测试用例，实现从 “盲盒迭代” 到 “量化决策” 的转变

本作品采用知识共享署名 4.0 国际许可协议进行许可

文章评论