【知识点】记录学习人工智能零散的记录

2025年5月29日 172点热度 0人点赞 0条评论

智能摘要

监督微调（SFT）使用标注数据优化模型，使其适应特定任务，适用于对话模型初步优化，但依赖高质量数据，无法处理主观目标。强化学习（RL）则通过奖励信号优化模型，尤其在RLHF中结合人类反馈提升对话质量，适用于复杂目标和动态环境，但训练不稳定。SFT与RL常结合使用，先用SFT训练模型，再用RL进行微调。GPU利用率指标SM Activity用于衡量流式多处理器在执行任务时的活跃程度，当GPU利用率长期偏低时，会影响性能。

— 此摘要由AI生成仅供参考。

1. SFT 和 RL 机器学习训练的区别：

1. 监督微调（SFT, Supervised Fine-Tuning）

定义：
在预训练模型（如基于海量文本训练的基座模型）的基础上，使用标注数据（输入-输出对）进行有监督的微调，使模型适应特定任务。
特点：
- 数据形式：输入（如用户提问） + 对应的理想输出（如人工标注的回答）。
- 目标：通过最小化预测输出与标注输出的差异（如交叉熵损失），让模型学会生成符合要求的回答。
- 优点：简单直接，适合学习明确的输入-输出映射。
- 局限：依赖高质量标注数据，无法学习更复杂的策略或长线反馈（如对话流畅性、用户满意度）。
应用场景：
对话模型初步优化、任务型对话（如客服机器人）、文本生成等。

2. 强化学习（RL, Reinforcement Learning）

定义：
通过与环境（如用户交互）的反馈（奖励/惩罚）来优化模型，目标是最大化长期累积奖励。
在NLP中的典型方法：
- RLHF（Reinforcement Learning from Human Feedback）：
  结合人类反馈的强化学习，例如：
  1. 先通过SFT训练一个初始模型。
  2. 人类对模型生成的多个回答进行排序（偏好数据）。
  3. 训练一个奖励模型（Reward Model）来预测人类偏好。
  4. 使用强化学习（如PPO算法）微调模型，使其生成高奖励的回答。
特点：
- 数据形式：无需标注输出，而是通过奖励信号（如人工评分、用户点击率）指导模型。
- 目标：优化不可微的指标（如流畅性、安全性、用户 engagement）。
- 优点：能学习复杂、隐式的目标，适应动态环境。
- 局限：训练不稳定，需要设计合理的奖励函数。
应用场景：
提升对话模型的交互质量（如ChatGPT）、游戏AI、推荐系统等。

特性	SFT	RL
数据需求	标注输入-输出对	奖励信号（如排序、评分）
优化目标	拟合标注数据	最大化累积奖励
适用阶段	初步任务适配	细化策略、对齐人类偏好
稳定性	训练稳定	需调参，可能不稳定

SFT的局限：无法处理模糊或主观的目标（如“回答更有趣”）。
RL的优势：通过试错学习动态调整策略，但依赖初始模型质量（通常由SFT提供）。
典型流程：
1. 用SFT训练一个初步模型。
2. 收集人类对模型输出的偏好数据，训练奖励模型。
3. 用RL（如PPO）微调模型，使其生成高奖励的输出。

2. 衡量GPU的利用率指标

SM Activity：在GPU编程中，SM Activity（Streaming Multiprocessor Activity，流式多处理器活动）指的是GPU的流式多处理器（SM）在执行计算任务时的活跃程度或利用率。SM是GPU的核心计算单元，负责执行CUDA内核中的线程块（blocks）和线程束（warps）。SM Activity的高低直接影响GPU的整体性能

GPU显著低利用率：在一定周期内，例如20s时间内，GPU Utility低于某个值，例如25%，则将这个时间成为显著利用率低；

GPU利用率显著偏低（例如长期低于30%），通常意味着计算资源未被充分利用，导致性能瓶颈或硬件浪费，

本作品采用知识共享署名 4.0 国际许可协议进行许可