【知识点】记录学习人工智能零散的记录

智能摘要监督微调（SFT）使用标注数据优化模型，使其适应特定任务，适用于对话模型初步优化，但依赖高质量数据，无法处理主观目标。强化学习（RL）则通过奖励信号优化模型，尤其在RLHF中结合人类反馈提升对话质量，适用于复杂目标和动态环境，但训练不稳定。SFT与RL常结合使用，先用SFT训练模型，再用RL进行微调。GPU利用率指标SM Activity用于衡量流式多处理器在执行任务时的活跃程度，当GPU利用率长期偏低时，会影响性能。— 此摘要由AI生成仅供参考。 1. SFT 和 RL 机器学习训练的区别： 1. 监督…