Agent≠调 API 的核心区别 面试中常被质疑 “Agent 只是调大模型 API”,但实际落地面临关键挑战:当对话轮次增加(如 50 轮),上下文 token 超过模型窗口(如 128K)时,需解决信息取舍问题,而非简单删除或全量发送。 上下文窗口限制与落地痛点 大语言模型上下文窗口存在硬限制(常见 128K-20 万,Gemini 达 100 万),但实际交互中: 固定开销:System Prompt + 工具说明约 4000 tokens 动态开销:每轮对话(输入 + 输出)500-2000 tokens…