七脉神剑的秘密

七脉神剑的秘密
记录学习与成长中的的点点滴滴
  1. 首页
  2. 好好学习
  3. AI-study
  4. 正文

【知识点】记录学习人工智能零散的记录

2025年5月29日 15点热度 0人点赞

1. SFT 和 RL 机器学习训练的区别:

1. 监督微调(SFT, Supervised Fine-Tuning)

  • 定义:
    在预训练模型(如基于海量文本训练的基座模型)的基础上,使用标注数据(输入-输出对)进行有监督的微调,使模型适应特定任务。

  • 特点:

    • 数据形式:输入(如用户提问) + 对应的理想输出(如人工标注的回答)。

    • 目标:通过最小化预测输出与标注输出的差异(如交叉熵损失),让模型学会生成符合要求的回答。

    • 优点:简单直接,适合学习明确的输入-输出映射。

    • 局限:依赖高质量标注数据,无法学习更复杂的策略或长线反馈(如对话流畅性、用户满意度)。

  • 应用场景:
    对话模型初步优化、任务型对话(如客服机器人)、文本生成等。


2. 强化学习(RL, Reinforcement Learning)

  • 定义:
    通过与环境(如用户交互)的反馈(奖励/惩罚)来优化模型,目标是最大化长期累积奖励。

  • 在NLP中的典型方法:

    • RLHF(Reinforcement Learning from Human Feedback):
      结合人类反馈的强化学习,例如:

      1. 先通过SFT训练一个初始模型。

      2. 人类对模型生成的多个回答进行排序(偏好数据)。

      3. 训练一个奖励模型(Reward Model)来预测人类偏好。

      4. 使用强化学习(如PPO算法)微调模型,使其生成高奖励的回答。

  • 特点:

    • 数据形式:无需标注输出,而是通过奖励信号(如人工评分、用户点击率)指导模型。

    • 目标:优化不可微的指标(如流畅性、安全性、用户 engagement)。

    • 优点:能学习复杂、隐式的目标,适应动态环境。

    • 局限:训练不稳定,需要设计合理的奖励函数。

  • 应用场景:
    提升对话模型的交互质量(如ChatGPT)、游戏AI、推荐系统等。

特性 SFT RL
数据需求 标注输入-输出对 奖励信号(如排序、评分)
优化目标 拟合标注数据 最大化累积奖励
适用阶段 初步任务适配 细化策略、对齐人类偏好
稳定性 训练稳定 需调参,可能不稳定

 

  • SFT的局限:无法处理模糊或主观的目标(如“回答更有趣”)。

  • RL的优势:通过试错学习动态调整策略,但依赖初始模型质量(通常由SFT提供)。

  • 典型流程:

    1. 用SFT训练一个初步模型。

    2. 收集人类对模型输出的偏好数据,训练奖励模型。

    3. 用RL(如PPO)微调模型,使其生成高奖励的输出。

2. 衡量GPU的利用率指标

SM Activity:在GPU编程中,SM Activity(Streaming Multiprocessor Activity,流式多处理器活动)指的是GPU的流式多处理器(SM)在执行计算任务时的活跃程度或利用率。SM是GPU的核心计算单元,负责执行CUDA内核中的线程块(blocks)和线程束(warps)。SM Activity的高低直接影响GPU的整体性能

GPU显著低利用率:在一定周期内,例如20s时间内,GPU Utility低于某个值,例如25%,则将这个时间成为显著利用率低;

GPU利用率显著偏低(例如长期低于30%),通常意味着计算资源未被充分利用,导致性能瓶颈或硬件浪费,

 

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 暂无
最后更新:2025年5月29日

七脉神剑

这个人很懒,什么都没留下

打赏 点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2021 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang