URL Bookmark Manager

04-14-2025
Note:
强化微调技术原理 传统监督微调与强化微调的区别 监督微调: 模型通过大量输入示例学习输入特征。 优化模型的语气、风格和输出格式。 强化微调: 强化微调允许模型学习“推理新领域中的逻辑”,而不仅是模仿输入特征。 通过“奖励”正确答案的逻辑路径、“惩罚”错误答案的逻辑路径,逐步优化模型的表现。 可用极少的数据示例(例如几十个)实现显著提升。