七脉神剑的秘密

Agent 评测方法论 Agent 迭代中的问题常见问题：迭代后 Agent 出现 “降智” 现象，表现为能力退化或极端情况处理失败核心痛点：缺乏量化评测，导致迭代依赖直觉，问题发现滞后（如用户投诉后才察觉），陷入被动救火循环 Agent 评测的核心逻辑核心目标：将模糊的 Agent 表现转化为可信赖、可量化的数字评测与传统大模型评测的差异：Agent 涉及多轮交互（调用工具、修改状态、调整策略），单轮测试失效，中间环节错误易导致任务失败 Agent 评测的核心概念 Task（测试用例）：包含输入和成功标准…

2026年3月15日 0条评论 34点热度 0人点赞阅读全文

Agent 记忆机制设计 ChatGPT 记忆机制的逆向发现通过对话实验逆向得出 ChatGPT 的记忆系统未使用向量数据库、RAG、embedding 召回及相似度匹配，而是采用 4 层纯结构化设计。尽管 ChatGPT 是对话产品而非 Agent，但其 memory 设计思路回答了 Agent 记忆系统的核心问题：何时该用检索，何时不该。不用向量数据库的核心原因精确调用需求：向量检索是模糊匹配，无法确保关键事实类信息的精准命中。例如用户预算等需精确读取的信息，结构化存储可直接查对应字段，避免歧义。时间处…

2026年3月15日 0条评论 25点热度 0人点赞阅读全文

MCP 与 Skill 的区别及关系 MCP 与 Skill 的核心区别 Skill 定义能力：是一组预定义的指令和处理逻辑，告诉 AI 怎么做事，如按规范生成数据分析报告（先区域拆分、算同比环比、按模板输出），与数据来源无关 MCP 定义连接：是标准化开放协议，解决 agent 与外部系统（数据库、网盘、代码仓库等）的通信问题，负责打通通道，支持 agent 实时读取、操作外部资源，且持续在线类比：Skill 类似菜谱（记录做菜步骤），MCP 类似通向菜市场的路（食材通道），二者缺一不可为何 Skill 中加…

2026年3月15日 0条评论 23点热度 0人点赞阅读全文

Function Calling 的底层机制 Function Calling 没有引入新的推理机制，底层与生成普通文本一致，均基于上下文的 next token prediction。模型通过训练学会在特定情况下将输出从自然语言切换为结构化 JSON 格式，而非存在独立的决策模块。关键在于模型通过大量样本学习输出模式，而非 “读懂”“判断” 或 “决定”。 Function Calling 的训练阶段分为监督微调（SFT）和强化学习两个阶段。SFT 阶段：训练数据包含大量工具调用完整对话链（系统提示工具信息→用…

2026年3月15日 0条评论 24点热度 0人点赞阅读全文

Agent Skills 概念介绍 Agent Skills（技能）是让 AI 像新员工一样被培训而非编程的概念。它本质是一个文件夹，包含核心的 skill MD 文件、配套脚本、资源和示例，如同为新员工准备的入职培训班，所有需学习的内容整齐存放其中。三层渐进式加载机制该机制的核心是渐进式披露：Level 1 仅加载 100 个 TOKEN，相当于只看目录；Level 2 读取完整的技能说明书；Level 3 则按需加载额外资源。这种按需加载方式可告别上下文爆炸，即使复杂技能包也能轻松驾驭，类似查字典时按需查阅…

2026年3月15日 0条评论 20点热度 0人点赞阅读全文

上下文工程的定义传统提示词工程关注如何写指令，而上下文工程更进一步，策划哪些信息该进入模型视野，是从写作者到编辑的升级。 Agent 性能下降的核心问题随着 Agent 运行时间变长，上下文信息量呈指数级爆炸（从几百 token 到几万甚至几十万），这是制约复杂任务的最大瓶颈，根源在于上下文管理失控。上下文腐败的表现输入变长导致模型性能下降，且以意外方式崩溃。模型对信息位置极其敏感：关键信息在开头或结尾表现好，在中间时性能断崖式下降（类似读厚书只记开头结尾）。连续处理相似任务时陷入模式固化：学习到的是无…

2026年3月15日 0条评论 103点热度 0人点赞阅读全文

Agent≠调 API 的核心区别面试中常被质疑 “Agent 只是调大模型 API”，但实际落地面临关键挑战：当对话轮次增加（如 50 轮），上下文 token 超过模型窗口（如 128K）时，需解决信息取舍问题，而非简单删除或全量发送。上下文窗口限制与落地痛点大语言模型上下文窗口存在硬限制（常见 128K-20 万，Gemini 达 100 万），但实际交互中：固定开销：System Prompt + 工具说明约 4000 tokens 动态开销：每轮对话（输入 + 输出）500-2000 tokens…

2026年3月15日 0条评论 57点热度 0人点赞阅读全文

📋 研究概述 Anthropic 发布了一份关于人工智能（AI）对劳动力市场影响的重要研究报告。这份研究提出了一个创新的概念——"观测暴露度"（Observed Exposure）衡量指标，旨在更准确地评估 AI 对职业的实际影响。与传统的理论能力评估不同，这一新指标结合了 LLM 的理论能力与实际使用数据，为政策制定者和企业提供了更具参考价值的分析框架。 🧠 核心发现一：观测暴露度指标什么是"观测暴露度"？传统的 AI 影响评估往往基于 AI 在理论上的能力边界，但这种方法忽略了实际应用中的诸多限制因素。A…

2026年3月11日 0条评论 52点热度 0人点赞阅读全文

总结：解决方案一：经典意图识别模式（适合初期）六步法：步骤内容示例 1️⃣ 需求梳理定义核心/次要/异常意图核心：下单、查物流；异常：辱骂、诱导 2️⃣ 话术映射建立"意图 - 话术"映射库 "查物流"="订单到哪了"="我的快递呢" 3️⃣ 槽位设计必填/可选参数查天气：地点（必填）、时间（必填） 4️⃣ 上下文多轮对话关联上轮"订机票"，下轮"去上海"→订去上海的机票 5️⃣ 异常处理模糊/违规内容兜底 "你是想查订单物流，还是快递物流？" 优点：简单、快速落地、可控性强缺点：维护成…

2026年3月11日 0条评论 66点热度 0人点赞阅读全文

多智能体场景适配和场景多智能体运行模式核心特点适合的业务场景顺序执行（Pipeline/Sequential）流程固定、串行执行，前一步输出为后一步输入，无分支无并行 1. 内容生成（规划→写作→润色→发布）； 2. 数据处理（清洗→分析→可视化）； 3. 标准化客服流程； 4. 代码生成流水线（需求→编码→测试→修复）监督者-工作者（Supervisor-Workers）-- 用的最多中央监督者调度、分配任务、汇总结果，工作者专注专业任务，强管控、可审计 1. 企业级多专家系统（法律/…

2026年3月3日 0条评论 90点热度 0人点赞阅读全文

12 3 4 5…25

Agent 评测方法论

Agent从理论到落地：记忆机制的设计

agent从理论到落地：MCP 与 Skill 的区别及关系理解

Agent 从理论到落地：大模型 Function Calling 底层原理与实现

大模型从理论到落地:Agent Skills 概念介绍

Agent从理论到落地二：理解好上下文

Agent从理论到落地:Agent 上下文管理

Anthropic 研究报告深入解读：AI 对劳动力市场的影响

大模型的意图识别的思考和做法参考

LangGraph 多智能体场景选择与底层运行机制