1. SFT 和 RL 机器学习训练的区别:
1. 监督微调(SFT, Supervised Fine-Tuning)
-
定义:
在预训练模型(如基于海量文本训练的基座模型)的基础上,使用标注数据(输入-输出对)进行有监督的微调,使模型适应特定任务。 -
特点:
-
数据形式:输入(如用户提问) + 对应的理想输出(如人工标注的回答)。
-
目标:通过最小化预测输出与标注输出的差异(如交叉熵损失),让模型学会生成符合要求的回答。
-
优点:简单直接,适合学习明确的输入-输出映射。
-
局限:依赖高质量标注数据,无法学习更复杂的策略或长线反馈(如对话流畅性、用户满意度)。
-
-
应用场景:
对话模型初步优化、任务型对话(如客服机器人)、文本生成等。
2. 强化学习(RL, Reinforcement Learning)
-
定义:
通过与环境(如用户交互)的反馈(奖励/惩罚)来优化模型,目标是最大化长期累积奖励。 -
在NLP中的典型方法:
-
RLHF(Reinforcement Learning from Human Feedback):
结合人类反馈的强化学习,例如:-
先通过SFT训练一个初始模型。
-
人类对模型生成的多个回答进行排序(偏好数据)。
-
训练一个奖励模型(Reward Model)来预测人类偏好。
-
使用强化学习(如PPO算法)微调模型,使其生成高奖励的回答。
-
-
-
特点:
-
数据形式:无需标注输出,而是通过奖励信号(如人工评分、用户点击率)指导模型。
-
目标:优化不可微的指标(如流畅性、安全性、用户 engagement)。
-
优点:能学习复杂、隐式的目标,适应动态环境。
-
局限:训练不稳定,需要设计合理的奖励函数。
-
-
应用场景:
提升对话模型的交互质量(如ChatGPT)、游戏AI、推荐系统等。
特性 | SFT | RL |
---|---|---|
数据需求 | 标注输入-输出对 | 奖励信号(如排序、评分) |
优化目标 | 拟合标注数据 | 最大化累积奖励 |
适用阶段 | 初步任务适配 | 细化策略、对齐人类偏好 |
稳定性 | 训练稳定 | 需调参,可能不稳定 |
-
SFT的局限:无法处理模糊或主观的目标(如“回答更有趣”)。
-
RL的优势:通过试错学习动态调整策略,但依赖初始模型质量(通常由SFT提供)。
-
典型流程:
-
用SFT训练一个初步模型。
-
收集人类对模型输出的偏好数据,训练奖励模型。
-
用RL(如PPO)微调模型,使其生成高奖励的输出。
-
2. 衡量GPU的利用率指标
SM Activity:在GPU编程中,SM Activity(Streaming Multiprocessor Activity,流式多处理器活动)指的是GPU的流式多处理器(SM)在执行计算任务时的活跃程度或利用率。SM是GPU的核心计算单元,负责执行CUDA内核中的线程块(blocks)和线程束(warps)。SM Activity的高低直接影响GPU的整体性能
GPU显著低利用率:在一定周期内,例如20s时间内,GPU Utility低于某个值,例如25%,则将这个时间成为显著利用率低;
GPU利用率显著偏低(例如长期低于30%),通常意味着计算资源未被充分利用,导致性能瓶颈或硬件浪费,
文章评论