本文档展示了用户与 AI Agent 在不同交互场景下的完整时序流程,涵盖 6 个核心参与主体,并按照「计划生成 → 工具调用链路 → 结果生成与返回」三阶段进行拆解。 参与主体 User(用户):消息、语音、多模态输入的发起者 Agent(智能体工程):编排、路由、决策的核心调度层 LLM(大模型):意图识别、内容生成、语音合成等 AI 能力提供者 Agent Skills(技能系统):封装特定领域能力的模块 MCP(中间层):模型上下文协议,统一管理外部工具调用 Tools(外部工具):各类第三方服务与 API…