PerplexityAI

04-14-2025

Link: chrome-extension://jkhejbapbcggnlofafhboebfbfcpigpk/src/popup/popup.html

Note:

强化微调技术原理传统监督微调与强化微调的区别监督微调：模型通过大量输入示例学习输入特征。优化模型的语气、风格和输出格式。强化微调：强化微调允许模型学习“推理新领域中的逻辑”，而不仅是模仿输入特征。通过“奖励”正确答案的逻辑路径、“惩罚”错误答案的逻辑路径，逐步优化模型的表现。可用极少的数据示例（例如几十个）实现显著提升。

URL Bookmark Manager