智能摘要
Agent评测的核心在于将模糊的表现转化为可量化的数字,以解决迭代后出现能力退化的“降智”问题。该方法论强调通过Task、Trial和Transcript来记录多轮交互过程,并组合使用代码、模型与人工三种评分手段。关键在于区分代表能力上限的Pass at k和代表可靠性下限的Pass power k,并关注最终结果而非强制步骤,从而将用户反馈转化为自动化用例,实现从“盲盒迭代”到“量化决策”的转变。
— 此摘要由AI生成仅供参考。
- 常见问题:迭代后 Agent 出现 “降智” 现象,表现为能力退化或极端情况处理失败
- 核心痛点:缺乏量化评测,导致迭代依赖直觉,问题发现滞后(如用户投诉后才察觉),陷入被动救火循环
- 核心目标:将模糊的 Agent 表现转化为可信赖、可量化的数字评测
- 与传统大模型评测的差异:Agent 涉及多轮交互(调用工具、修改状态、调整策略),单轮测试失效,中间环节错误易导致任务失败
- Task(测试用例):包含输入和成功标准
- Trial(多次尝试):因模型随机性,需多次执行同一测试
- Transcript(执行记录):包含 API 调用、工具使用及中间推理过程
- Outcome(最终结果):如订单创建是否成功等实际效果
- 代码评分:最快、最便宜、最客观,适用于明确对错场景(如字符串匹配、正则检查、单元测试)
- 模型评分:由大模型担任裁判,适用于开放式任务(如客服回复语气、报告全面性),比人工快、比代码灵活
- 人工评分:专家审核或众包评判,权威性最高,用于校准模型评分
- 原则:组合使用三种手段,不一刀切
- 起步阶段:无需完美,20-50 个真实 bug 转化的用例即可,优先小脚本而非大系统
- 自动化转化:将手动测试场景、用户反馈问题、缺陷记录转化为自动化用例
- 样本平衡:同时测试 “应搜索时搜索” 和 “不应搜索时克制”,避免 Agent 过度敏感或迟钝
- 评结果不评路径:关注最终结果(如数据库是否更新、用户问题是否解决),而非强制步骤,保留 Agent 灵活性
- 区分能力与可靠性:避免混淆两个关键指标
- Pass at k:多次尝试中至少成功一次,代表能力上限(演示用)
- Pass power k:多次尝试中全部成功,代表能力下限(实际线上参考)
- 注意:混淆两者易导致线上事故
- 需读取 Transcript:判断失败原因(Agent 错误或评分逻辑 bug)
- 评测价值:作为产品与研发的高效沟通语言,量化迭代效果(进步 / 退化)
- 行动建议:将用户 bug 转化为自动化测试用例,实现从 “盲盒迭代” 到 “量化决策” 的转变
文章评论