LLM 模型多维度路由调度

智能摘要本文全面梳理 LLM 模型路由系统的技术原理与工业实践。核心探讨五大技术路线：规则路由、分类器路由、级联推理、强化学习路由与生成式路由，每一条均有 FrugalGPT、RouteLLM 等顶会论文论证。详细对比火山引擎 Auto Mode 与 OpenRouter 两种代表性的跨模型/跨供应商路由方案，给出分层路由 + 质量-成本联合优化的最佳实践架构。 — 此摘要由AI生成仅供参考。 LLM 模型路由系统深度调研：原理、论文与工业实践一、概述随着大语言模型（LLM）的数量和种类爆发式增长，如何自动选…

2026年7月12日 59点热度 0人点赞阅读全文

A2A (Agent-to-Agent) 协议详解 A2A 是一个开放协议，让不同框架、不同厂商、不同服务器上运行的 AI Agent 能够互相通信和协作。当前版本 v1.0.0。一、原始内容概述 1.1 什么是 A2A A2A（Agent-to-Agent，代理间通信协议）是一个开放协议，由 Google 贡献给 Linux Foundation 作为开源项目，Apache 2.0 许可。当前版本为 v1.0.0（正式发布版）。它的核心使命是：让不同框架、不同厂商、不同服务器上运行的 AI Agent 能够像…

2026年7月3日 99点热度 0人点赞阅读全文

Hermes 的多 Agents 是一套边界清晰的三层架构：第一层是执行内核：AIAgent。无论外部接入多少种形态的终端，最终负责思考和工具调度的，都是这套底层的运行核心。第二层是临时派生：delegate_task。它像是一个同步的方法调用，专门用来处理当前回合内的短任务和并发请求，即用即毁，不保留长期记忆。第三层是长效协作：Profile + Kanban。这套机制赋予了 Agent 持久的身份标识和跨节点的任务流转能力，用来支撑复杂的长期协同工程。要让这套三层架构顺畅运转，必须首先理清：状态究竟存储…

2026年5月15日 251点热度 0人点赞阅读全文

自从2026年过年之前就在思考如何构建自己的家庭AI实验室，我日常的学习中面临了如下几个问题：当下的AI设计也有，看到太多的变化，但这些变化很多都停留在纸面上，缺少动手实操和深入了解，我认为我需要深入了解一些特有的框架，找到他们的共性，而不是人云亦云；实操更容易有体感，真实的了解他们是如何运行的；构建可持续的学习环境，预期可以实现开发、算力部署、训练、测试一体的环境；本文档记录日常搭建家庭mini版本的AI实验室的整体记录，整体预算控制在 5万左右（）；网络建设（内网2.5Gbps，下行1000Mbs、…

2026年4月10日 376点热度 2人点赞阅读全文

Harness Engineering 详解 Harness Engineering 的定义与核心价值 Agent 可靠性的瓶颈不在模型，而在模型周围的系统。模型是引擎，Harness 是方向盘。以 LangChain Coding Agent 为例，在 Terminal Bench 排行榜中，通过仅优化 Harness（系统提示、工具配置、中间件钩子），模型未更换的情况下，排名从 30 名开外提升至前五。Harness 源自马具（缰绳、马鞍等）的比喻：模型如马（强大但无方向），人类工程师如骑手（提供方向），Har…

2026年4月6日 391点热度 0人点赞阅读全文

面向长期运行型应用开发的 Harness 设计（原文译文）发布于 2026 年 3 月 24 日 Harness 设计是前沿智能体编程（agentic coding）领域实现高性能的关键。本文将介绍我们如何通过这一设计，在前端开发和长期自主软件工程领域进一步提升 Claude 的能力。作者：普里特维・拉贾塞卡兰（Prithvi Rajasekaran），Anthropic 实验室团队成员过去几个月里，我一直在攻克两个相互关联的难题：一是让 Claude 生成高质量前端设计，二是让它在无需人工干预的情况下构建…

2026年3月26日 452点热度 0人点赞阅读全文

总结：解决方案一：经典意图识别模式（适合初期）六步法：步骤内容示例 1️⃣ 需求梳理定义核心/次要/异常意图核心：下单、查物流；异常：辱骂、诱导 2️⃣ 话术映射建立"意图 - 话术"映射库 "查物流"="订单到哪了"="我的快递呢" 3️⃣ 槽位设计必填/可选参数查天气：地点（必填）、时间（必填） 4️⃣ 上下文多轮对话关联上轮"订机票"，下轮"去上海"→订去上海的机票 5️⃣ 异常处理模糊/违规内容兜底 "你是想查订单物流，还是快递物流？" 优点：简单、快速落地、可控性强缺点：维护成…

2026年3月11日 448点热度 0人点赞阅读全文

多智能体场景适配和场景多智能体运行模式核心特点适合的业务场景顺序执行（Pipeline/Sequential）流程固定、串行执行，前一步输出为后一步输入，无分支无并行 1. 内容生成（规划→写作→润色→发布）； 2. 数据处理（清洗→分析→可视化）； 3. 标准化客服流程； 4. 代码生成流水线（需求→编码→测试→修复）监督者-工作者（Supervisor-Workers）-- 用的最多中央监督者调度、分配任务、汇总结果，工作者专注专业任务，强管控、可审计 1. 企业级多专家系统（法律/…

2026年3月3日 493点热度 0人点赞阅读全文

OpenClaw 工作原理 Hesam@Hesamation 原文来自 Hesam (@Hesamation) 发布于 X 的文章，链接见文末。我研究了 OpenClaw 的架构，以及它处理智能体执行、工具调用、浏览器操作等功能的实现逻辑，其中诸多设计思路对 AI 工程师极具借鉴价值。深入了解 Clawd 的底层运行机制，能让我们更清晰地认识这套系统的功能边界，更重要的是，明确它的优势与短板。我最初的研究初衷，只是出于个人好奇，想探究 Clawd 的记忆机制设计及其运行可靠性。在本文中，我将为大家浅述 Claw…

2026年2月24日 499点热度 0人点赞阅读全文

如何在保证低延迟、高吞吐的同时，高效利用GPU资源，避免算力浪费？HuggingFace 推出的 Text Generation Inference（TGI），正是为解决这一痛点而生的开源解决方案。本文基于 HuggingFace 官方博客《LLM Inference at Scale with TGI》，拆解 TGI 的核心原理、架构设计、关键优化技术，并补充实战配置与调优技巧，帮你快速掌握 LLM 规模化推理的落地方法一、背景说明：LLM 规模化推理的痛点与 TGI 的定位随着 LLM 在聊天机器人、RAG…

2026年2月14日 540点热度 0人点赞阅读全文

12 3

LLM 模型多维度路由调度

Agent协作:A2A (Agent-to-Agent) 协议详解

Hermes 的多 Agents 是一套边界清晰的三层架构记录

个人助理:家庭mini-AI实验室建设

Agent从原理到落地笔记:Harness Engineering

面向长期运行型应用开发的 Harness 设计（译文）

大模型的意图识别的思考和做法参考

LangGraph 多智能体场景选择与底层运行机制

OpenClaw 工作原理与架构解析

小白学AI第一节：深入浅出模型推理的重要的概念（PD）第一节