如何训练一个LLM
模型的训练过程
- 预训练(Pretraining)
- 监督微调(Supervised Finetuning)
- 奖励建模(Reward Modeling)
强化学习(Reinforcement Learning)
- 数据量:预训练阶段所需的数据量很大,但质量要求不高;而后面的三个阶段恰恰相反,需要的数据质量较高。
- 训练方法:预训练和监督微调的训练方法相同,都是预测下一个单词。奖励模型和强化学习的训练方法则不同。奖励模型是二元分类学习,而强化学习则鼓励模型生成奖励模型评分较高的回答。
- 训练所需资源:预训练阶段的资源消耗巨大,使用数千颗GPU,花费数月时间,占总训练时间的99%。后面的三个阶段只需使用数十颗GPU,训练时间约数天。