GPT-3.5 系列模型最重要的变化,是建立在人类真实反馈基础上的调校。这是一种新使用的 AI 训练方法,标记者会在模型中书写期待的回复,按照期待的回复为标记的答案排序,通过排序来奖励模型。在持续迭代的过程中,输入奖励模型,得到优化参数。
训练步骤