七脉神剑的秘密

七脉神剑-日常学习笔记
日常学习的笔记稿与记录稿
aigc-agent

Agent 评测方法论

Agent 评测方法论 Agent 迭代中的问题 常见问题:迭代后 Agent 出现 “降智” 现象,表现为能力退化或极端情况处理失败 核心痛点:缺乏量化评测,导致迭代依赖直觉,问题发现滞后(如用户投诉后才察觉),陷入被动救火循环 Agent 评测的核心逻辑 核心目标:将模糊的 Agent 表现转化为可信赖、可量化的数字评测 与传统大模型评测的差异:Agent 涉及多轮交互(调用工具、修改状态、调整策略),单轮测试失效,中间环节错误易导致任务失败 Agent 评测的核心概念 Task(测试用例):包含输入和成功标准…

2026年3月15日 0条评论 6点热度 0人点赞 阅读全文
aigc-agent

Agent从理论到落地:记忆机制的设计

Agent 记忆机制设计 ChatGPT 记忆机制的逆向发现 通过对话实验逆向得出 ChatGPT 的记忆系统未使用向量数据库、RAG、embedding 召回及相似度匹配,而是采用 4 层纯结构化设计。尽管 ChatGPT 是对话产品而非 Agent,但其 memory 设计思路回答了 Agent 记忆系统的核心问题:何时该用检索,何时不该。 不用向量数据库的核心原因 精确调用需求:向量检索是模糊匹配,无法确保关键事实类信息的精准命中。例如用户预算等需精确读取的信息,结构化存储可直接查对应字段,避免歧义。 时间处…

2026年3月15日 0条评论 6点热度 0人点赞 阅读全文
aigc-agent

agent从理论到落地:MCP 与 Skill 的区别及关系理解

MCP 与 Skill 的区别及关系 MCP 与 Skill 的核心区别 Skill 定义能力:是一组预定义的指令和处理逻辑,告诉 AI 怎么做事,如按规范生成数据分析报告(先区域拆分、算同比环比、按模板输出),与数据来源无关 MCP 定义连接:是标准化开放协议,解决 agent 与外部系统(数据库、网盘、代码仓库等)的通信问题,负责打通通道,支持 agent 实时读取、操作外部资源,且持续在线 类比:Skill 类似菜谱(记录做菜步骤),MCP 类似通向菜市场的路(食材通道),二者缺一不可 为何 Skill 中加…

2026年3月15日 0条评论 6点热度 0人点赞 阅读全文
aigc-agent

Agent 从理论到落地:大模型 Function Calling 底层原理与实现

Function Calling 的底层机制 Function Calling 没有引入新的推理机制,底层与生成普通文本一致,均基于上下文的 next token prediction。模型通过训练学会在特定情况下将输出从自然语言切换为结构化 JSON 格式,而非存在独立的决策模块。关键在于模型通过大量样本学习输出模式,而非 “读懂”“判断” 或 “决定”。 Function Calling 的训练阶段 分为监督微调(SFT)和强化学习两个阶段。SFT 阶段:训练数据包含大量工具调用完整对话链(系统提示工具信息→用…

2026年3月15日 0条评论 5点热度 0人点赞 阅读全文
aigc-agent

大模型从理论到落地:Agent Skills 概念介绍

Agent Skills 概念介绍 Agent Skills(技能)是让 AI 像新员工一样被培训而非编程的概念。它本质是一个文件夹,包含核心的 skill MD 文件、配套脚本、资源和示例,如同为新员工准备的入职培训班,所有需学习的内容整齐存放其中。 三层渐进式加载机制 该机制的核心是渐进式披露:Level 1 仅加载 100 个 TOKEN,相当于只看目录;Level 2 读取完整的技能说明书;Level 3 则按需加载额外资源。这种按需加载方式可告别上下文爆炸,即使复杂技能包也能轻松驾驭,类似查字典时按需查阅…

2026年3月15日 0条评论 5点热度 0人点赞 阅读全文
aigc-agent

Agent从理论到落地二:理解好上下文

上下文工程的定义 传统提示词工程关注如何写指令,而上下文工程更进一步,策划哪些信息该进入模型视野,是从写作者到编辑的升级。 Agent 性能下降的核心问题 随着 Agent 运行时间变长,上下文信息量呈指数级爆炸(从几百 token 到几万甚至几十万),这是制约复杂任务的最大瓶颈,根源在于上下文管理失控。 上下文腐败的表现 输入变长导致模型性能下降,且以意外方式崩溃。 模型对信息位置极其敏感:关键信息在开头或结尾表现好,在中间时性能断崖式下降(类似读厚书只记开头结尾)。 连续处理相似任务时陷入模式固化:学习到的是无…

2026年3月15日 0条评论 6点热度 0人点赞 阅读全文
aigc-agent

Agent从理论到落地:Agent 上下文管理

Agent≠调 API 的核心区别 面试中常被质疑 “Agent 只是调大模型 API”,但实际落地面临关键挑战:当对话轮次增加(如 50 轮),上下文 token 超过模型窗口(如 128K)时,需解决信息取舍问题,而非简单删除或全量发送。 上下文窗口限制与落地痛点 大语言模型上下文窗口存在硬限制(常见 128K-20 万,Gemini 达 100 万),但实际交互中: 固定开销:System Prompt + 工具说明约 4000 tokens 动态开销:每轮对话(输入 + 输出)500-2000 tokens…

2026年3月15日 0条评论 7点热度 0人点赞 阅读全文
行业信息

Anthropic 研究报告深入解读:AI 对劳动力市场的影响

📋 研究概述 Anthropic 发布了一份关于人工智能(AI)对劳动力市场影响的重要研究报告。这份研究提出了一个创新的概念——"观测暴露度"(Observed Exposure) 衡量指标,旨在更准确地评估 AI 对职业的实际影响。与传统的理论能力评估不同,这一新指标结合了 LLM 的理论能力与实际使用数据,为政策制定者和企业提供了更具参考价值的分析框架。 🧠 核心发现一:观测暴露度指标 什么是"观测暴露度"? 传统的 AI 影响评估往往基于 AI 在理论上的能力边界,但这种方法忽略了实际应用中的诸多限制因素。A…

2026年3月11日 0条评论 29点热度 0人点赞 阅读全文
AI-study

大模型的意图识别的思考和做法参考

总结: 解决方案一:经典意图识别模式(适合初期) 六步法: 步骤 内容 示例 1️⃣ 需求梳理 定义核心/次要/异常意图 核心:下单、查物流;异常:辱骂、诱导 2️⃣ 话术映射 建立"意图 - 话术"映射库 "查物流"="订单到哪了"="我的快递呢" 3️⃣ 槽位设计 必填/可选参数 查天气:地点(必填)、时间(必填) 4️⃣ 上下文 多轮对话关联 上轮"订机票",下轮"去上海"→订去上海的机票 5️⃣ 异常处理 模糊/违规内容兜底 "你是想查订单物流,还是快递物流?" 优点:简单、快速落地、可控性强 缺点:维护成…

2026年3月11日 0条评论 50点热度 0人点赞 阅读全文
AI-study

LangGraph 多智能体场景选择与底层运行机制

多智能体场景适配和场景   多智能体运行模式 核心特点 适合的业务场景 顺序执行(Pipeline/Sequential) 流程固定、串行执行,前一步输出为后一步输入,无分支无并行 1. 内容生成(规划→写作→润色→发布); 2. 数据处理(清洗→分析→可视化); 3. 标准化客服流程; 4. 代码生成流水线(需求→编码→测试→修复) 监督者-工作者(Supervisor-Workers)-- 用的最多 中央监督者调度、分配任务、汇总结果,工作者专注专业任务,强管控、可审计 1. 企业级多专家系统(法律/…

2026年3月3日 0条评论 75点热度 0人点赞 阅读全文
12345…25
最新文档分类
  • AI-study
  • aigc-agent
  • B端产品
  • 产品工具篇
  • 产品生命周期
  • 好好学习
  • 技术积累
  • 日常攻略
  • 行业信息
  • 随笔记录
最新 热点 随机
最新 热点 随机
Agent 评测方法论 Agent从理论到落地:记忆机制的设计 agent从理论到落地:MCP 与 Skill 的区别及关系理解 Agent 从理论到落地:大模型 Function Calling 底层原理与实现 大模型从理论到落地:Agent Skills 概念介绍 Agent从理论到落地二:理解好上下文
小白学AI第一节:深入浅出模型推理的重要的概念(PD)第一节OpenClaw 工作原理与架构解析AI比我们快LangGraph 多智能体场景选择与底层运行机制大模型的意图识别的思考和做法参考Anthropic 研究报告深入解读:AI 对劳动力市场的影响
中国的云计算 Comfy中如何选择自己的模型? 科学使用谷歌进行搜索 产品经理的四大境界与核心能力 UTM在url连接中的作用 测试
标签聚合
AI技术对比 向量存储 大模型智能体 智能体分级 图像压缩 技术架构 模型训练方法 RAG技术 产品经理 大模型应用 智能决策 AI框架

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang