七脉神剑的秘密

模型训练方法
探索各类机器学习与深度学习模型的训练技巧及优劣对比,适合技术学习者参考。
AI-study

【知识点】记录学习人工智能零散的记录

1. SFT 和 RL 机器学习训练的区别: 1. 监督微调(SFT, Supervised Fine-Tuning) 定义: 在预训练模型(如基于海量文本训练的基座模型)的基础上,使用标注数据(输入-输出对)进行有监督的微调,使模型适应特定任务。 特点: 数据形式:输入(如用户提问) + 对应的理想输出(如人工标注的回答)。 目标:通过最小化预测输出与标注输出的差异(如交叉熵损失),让模型学会生成符合要求的回答。 优点:简单直接,适合学习明确的输入-输出映射。 局限:依赖高质量标注数据,无法学习更复杂的策略或长线…

2025年5月29日 0条评论 456点热度 0人点赞 阅读全文
最新文档分类
  • AI-study
  • B端产品
  • 产品工具篇
  • 产品生命周期
  • 好好学习
  • 技术积累
  • 日常攻略
  • 行业信息
  • 随笔记录
最新 热点 随机
最新 热点 随机
LangGraph 多智能体场景选择与底层运行机制 AI比我们快 OpenClaw 工作原理与架构解析 小白学AI第一节:深入浅出模型推理的重要的概念(PD)第一节 关于2035 年中国科技强国建设全景路径、实施方案与当前进展收集 不同系统的系统提示词 记录:系统约束与应答规则(System Remind)
小白学AI第一节:深入浅出模型推理的重要的概念(PD)第一节OpenClaw 工作原理与架构解析AI比我们快LangGraph 多智能体场景选择与底层运行机制
产品经理更应该懂得新木桶理论 每日一学-播放器是如何播放音视频的 五大纬度横评短视频解决方案-看腾讯云-阿里云 Comfy中如何选择自己的模型? 宏观经济学习:评论425央行降准 非常喜欢的滕王阁序原文
标签聚合
向量存储 图像压缩 智能决策 大模型智能体 GPU部署 产品经理 智能体分级 多模态交互 AI市场战略 认知升级 大模型应用 AI框架

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang