本文档展示了用户与 AI Agent 在不同交互场景下的完整时序流程,涵盖 6 个核心参与主体,并按照「计划生成 → 工具调用链路 → 结果生成与返回」三阶段进行拆解。

参与主体
- User(用户):消息、语音、多模态输入的发起者
- Agent(智能体工程):编排、路由、决策的核心调度层
- LLM(大模型):意图识别、内容生成、语音合成等 AI 能力提供者
- Agent Skills(技能系统):封装特定领域能力的模块
- MCP(中间层):模型上下文协议,统一管理外部工具调用
- Tools(外部工具):各类第三方服务与 API
意图识别(关键环节)
所有场景中,意图识别均调用大模型(LLM)完成,而非简单的规则匹配:
- Agent 将用户输入(文本、语音、多模态)传递给 LLM
- LLM 理解语义,返回意图类型、实体、槽位等信息
- Agent 根据返回的意图进行后续路由和技能调度
三阶段架构
每个交互场景都遵循统一的三阶段架构:
- 阶段一:计划生成 — User → Agent → LLM(意图识别/任务拆解) → Agent(接收执行计划)
- 阶段二:工具调用链路 — Skills路由 → LLM参数补全 → MCP发现工具 → Tool API执行 → 结果格式化
- 阶段三:结果生成与返回 — LLM生成最终回复 → Agent封装 → User
四种交互场景
文字对话
标准交互模式。示例:「帮我查天气,然后安排下午3点的会议」Agent 调 LLM 识别意图,拆解为两个子任务。每轮 Skills 路由匹配后,先由 LLM 补全参数,再经 MCP 协议调用外部 API,结果由 LLM 格式化后统一整合,最终 LLM 综合所有工具结果生成自然语言回复。
实时语音通话
示例:「今天下午有什么安排?帮我提醒一下」基于 WebRTC 实时语音流,Agent 先做 VAD 检测和音频分片,经 ASR 流式识别转文本。LLM 实时意图识别后通过工具链查询日程,最后以 TTS 语音合成实时回复用户。
按住说话
示例:「帮我记一个备忘录:明天上午10点开会」用户按住录音按钮录音,松开后发送音频文件。Agent 经 STT 转文本,LLM 意图识别后通过工具链调用日历 API 创建事件,最后 LLM 生成确认回复。
多模态交互
示例:[图片]「这家餐厅怎么样?帮我订个位」用户发送图文混合输入。Agent 并行调用 LLM 进行 Vision 图片分析和文本语义理解,融合意图后多工具编排调度(图片搜索+地图查询+预约API),最终输出图文+语音综合回复。
文章评论