Agent架构流程:用户与 Agent 对话时序图 - xiaoping`S学习笔记

智能摘要

用户与Agent的交互遵循统一三阶段架构：计划生成、工具调用链路、结果生成与返回。核心是意图识别必须调用大模型（LLM）完成，而非规则匹配。四种交互场景（文字对话、实时语音通话、按住说话、多模态）均围绕此架构展开：Agent将输入传递LLM识别意图，经技能路由、MCP协议调用外部工具，最后LLM生成回复返回用户。

— 此摘要由AI生成仅供参考。

本文档展示了用户与 AI Agent 在不同交互场景下的完整时序流程，涵盖 6 个核心参与主体，并按照「计划生成 → 工具调用链路 → 结果生成与返回」三阶段进行拆解。

用户与Agent对话时序图

参与主体

User（用户）：消息、语音、多模态输入的发起者
Agent（智能体工程）：编排、路由、决策的核心调度层
LLM（大模型）：意图识别、内容生成、语音合成等 AI 能力提供者
Agent Skills（技能系统）：封装特定领域能力的模块
MCP（中间层）：模型上下文协议，统一管理外部工具调用
Tools（外部工具）：各类第三方服务与 API

意图识别（关键环节）

所有场景中，意图识别均调用大模型（LLM）完成，而非简单的规则匹配：

Agent 将用户输入（文本、语音、多模态）传递给 LLM
LLM 理解语义，返回意图类型、实体、槽位等信息
Agent 根据返回的意图进行后续路由和技能调度

三阶段架构

每个交互场景都遵循统一的三阶段架构：

阶段一：计划生成 — User → Agent → LLM(意图识别/任务拆解) → Agent(接收执行计划)
阶段二：工具调用链路 — Skills路由 → LLM参数补全 → MCP发现工具 → Tool API执行 → 结果格式化
阶段三：结果生成与返回 — LLM生成最终回复 → Agent封装 → User

四种交互场景

文字对话

标准交互模式。示例：「帮我查天气，然后安排下午3点的会议」Agent 调 LLM 识别意图，拆解为两个子任务。每轮 Skills 路由匹配后，先由 LLM 补全参数，再经 MCP 协议调用外部 API，结果由 LLM 格式化后统一整合，最终 LLM 综合所有工具结果生成自然语言回复。

实时语音通话

示例：「今天下午有什么安排？帮我提醒一下」基于 WebRTC 实时语音流，Agent 先做 VAD 检测和音频分片，经 ASR 流式识别转文本。LLM 实时意图识别后通过工具链查询日程，最后以 TTS 语音合成实时回复用户。

按住说话

示例：「帮我记一个备忘录：明天上午10点开会」用户按住录音按钮录音，松开后发送音频文件。Agent 经 STT 转文本，LLM 意图识别后通过工具链调用日历 API 创建事件，最后 LLM 生成确认回复。

多模态交互

示例：[图片]「这家餐厅怎么样？帮我订个位」用户发送图文混合输入。Agent 并行调用 LLM 进行 Vision 图片分析和文本语义理解，融合意图后多工具编排调度（图片搜索+地图查询+预约API），最终输出图文+语音综合回复。

本作品采用知识共享署名 4.0 国际许可协议进行许可

文章评论

活力海豚

时序图画得挺清楚的

2026年6月28日

回复

涉江

@活力海豚是蛮清晰的，层层递进

2026年6月28日

回复

一剑飘零

实时语音这部分的延迟怎么控制？

2026年6月30日

回复

星尘拾梦者

意图识别用LLM，这思路挺对

2026年7月1日

回复

星潮探寻

多模态这个场景挺实用

2026年7月1日

回复

爱笑的向日葵

MCP 这层加得挺必要，工具管理不乱了

2026年7月1日

回复