agent 上下文工程记录

智能摘要

上下文工程的核心是管理大模型工作记忆，通过构建最小高信噪比的上下文窗口内容来优化多轮推理质量。其本质区别于Prompt Engineering，在于控制模型“看到什么”而非“如何表述”。针对Agent场景中上下文膨胀与注意力稀释问题，六层架构提供系统解法：压缩重启实现信息摘要与窗口重置，外化记忆将关键数据持久化至文件系统，即时加载按需引入外部信息，上下文隔离通过多Agent分治避免干扰，工具设计以遮蔽机制维持KV Cache效率，缓存友好结构确保前缀稳定以提升计算复用。

— 此摘要由AI生成仅供参考。

上下文工程的本质

大模型推理时的信息来源仅包括参数知识（训练阶段获得，推理阶段不可改）和上下文窗口内容。上下文工程本质是构建大模型的工作记忆，决定其决策时能看到的信息，进而影响行为质量。

与 Prompt Engineering 的区别

Prompt Engineering：关注措辞、格式、few-shot 示例等 “怎么说” 的问题。

上下文工程：关注每轮推理时上下文窗口中 “看到什么”，包括信息的选择、结构排列。

核心差异：Agent 是多轮推理循环（典型任务平均调用 50 次工具），上下文信息不断累积，存在 “窗口有限但信息膨胀” 的矛盾，即使窗口够大，过多信息也会稀释注意力、降低性能。

目标：找到最小的高信噪比 Token 集合，最大化期望结果的概率（Anthropic 指导原则）。

压缩重启

定义：当对话接近上下文窗口上限时，用模型对当前上下文做摘要总结，以摘要重新初始化新窗口（类似写笔记后翻页继续）。

关键：选择保留 / 丢弃信息，Anthropic 建议先最大化召回重要信息，再迭代提升精确度。

优化示例：清理已完成工具调用及原始返回结果，仅保留结论（如 Claude Code 自动触发压缩）。

外化记忆

定义：将非当前对话但后续步骤 / 会话需用的关键信息主动写入外部文件系统（Structured Note Taking）。

作用：实现跨上下文 / 会话的持久记忆，避免依赖上下文压缩保留。

示例：Claude Code 创建 todo list 追踪进度，Manus 维护 NOTES.md 记录中间结论；Claude 玩宝可梦时在外部文件维护计数、训练进度、战斗策略等。

洞察：文件系统是上下文架构的核心组成部分，而非辅助工具，代码和数据存于文件，上下文仅保留结论和下一步操作。

即时加载

与传统 RAG 区别：传统 RAG 在用户提问后一次性检索所有相关信息；Agent 场景无法提前预知后续步骤所需信息，故采用即时加载。

做法：维护轻量级标识符（文件路径、数据库查询、网页链接），需要时读取，用完可在压缩时清理。

示例：Claude Code 分析大型代码库时，用 grep 和 glob 命令即时搜索、按需读取，仅在启动时注入 CLAUDE.md 提供全局指引。

本质：上下文存放 “获取信息的能力” 而非 “信息本身”。

上下文隔离

定义：采用多 Agent 架构（Multi Agent Architecture），主 Agent 规划分配任务，子 Agent 处理独立子任务，避免不同子任务上下文互相干扰。

示例：Manus 架构中，planner 拆分任务、knowledge manager 审查对话并决定保存内容、executor 执行具体任务，各子 Agent 上下文仅含自身所需信息；Claude Code 演进为多 Agent，子 Agent 完成后仅返回结果，中间过程不污染主 Agent 上下文。