七脉的笔记

七脉的笔记
日常学习的笔记稿与记录稿
  1. 首页
  2. 好好学习
  3. aigc-agent
  4. 正文

用户与 Agent 对话时序图

2026年5月31日 5点热度 0人点赞

本文档展示了用户与 AI Agent 在不同交互场景下的完整时序流程,涵盖 6 个核心参与主体,并按照「计划生成 → 工具调用链路 → 结果生成与返回」三阶段进行拆解。

用户与Agent对话时序图

参与主体

  • User(用户):消息、语音、多模态输入的发起者
  • Agent(智能体工程):编排、路由、决策的核心调度层
  • LLM(大模型):意图识别、内容生成、语音合成等 AI 能力提供者
  • Agent Skills(技能系统):封装特定领域能力的模块
  • MCP(中间层):模型上下文协议,统一管理外部工具调用
  • Tools(外部工具):各类第三方服务与 API

意图识别(关键环节)

所有场景中,意图识别均调用大模型(LLM)完成,而非简单的规则匹配:

  1. Agent 将用户输入(文本、语音、多模态)传递给 LLM
  2. LLM 理解语义,返回意图类型、实体、槽位等信息
  3. Agent 根据返回的意图进行后续路由和技能调度

三阶段架构

每个交互场景都遵循统一的三阶段架构:

  • 阶段一:计划生成 — User → Agent → LLM(意图识别/任务拆解) → Agent(接收执行计划)
  • 阶段二:工具调用链路 — Skills路由 → LLM参数补全 → MCP发现工具 → Tool API执行 → 结果格式化
  • 阶段三:结果生成与返回 — LLM生成最终回复 → Agent封装 → User

四种交互场景

文字对话

标准交互模式。示例:「帮我查天气,然后安排下午3点的会议」Agent 调 LLM 识别意图,拆解为两个子任务。每轮 Skills 路由匹配后,先由 LLM 补全参数,再经 MCP 协议调用外部 API,结果由 LLM 格式化后统一整合,最终 LLM 综合所有工具结果生成自然语言回复。

实时语音通话

示例:「今天下午有什么安排?帮我提醒一下」基于 WebRTC 实时语音流,Agent 先做 VAD 检测和音频分片,经 ASR 流式识别转文本。LLM 实时意图识别后通过工具链查询日程,最后以 TTS 语音合成实时回复用户。

按住说话

示例:「帮我记一个备忘录:明天上午10点开会」用户按住录音按钮录音,松开后发送音频文件。Agent 经 STT 转文本,LLM 意图识别后通过工具链调用日历 API 创建事件,最后 LLM 生成确认回复。

多模态交互

示例:[图片]「这家餐厅怎么样?帮我订个位」用户发送图文混合输入。Agent 并行调用 LLM 进行 Vision 图片分析和文本语义理解,融合意图后多工具编排调度(图片搜索+地图查询+预约API),最终输出图文+语音综合回复。

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 暂无
最后更新:2026年5月31日

七脉神剑

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang