ChatGPT运用了哪些高端技术？

互联网时间： 2023-05-08 10:34:45

ChatGPT整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型，让模型一方面学习人的指令，另一方面学习回答的好不好。

核心提升了什么？

ChatGPT在对话场景核心提升了以下三方面：

1）更好的理解用户的提问，提升模型和人类意图的一致性，同时具备连续多轮对话能力。

2）大幅提升结果的准确性，主要表现在回答的更加的全面，同时可以承认错误、发现无法回答的问题。

3）具备识别非法和偏见的机制，针对不合理提问提示并拒绝回答。

ChatGPT的提升主要涉及以下三方面技术：

1）性能强大的预训练语言模型GPT3.5，使得模型具备了博学的基础。

2）webGPT等工作验证了监督学习信号可大幅提升模型准确性。

3）InstructGPT等工作引入强化学习验证了对齐模型和用户意图的能力。

ChatGPT技术

整体技术流程

ChatGPT的训练过程分为微调GPT3.5模型、训练回报模型、强化学习来增强微调模型三步：

第一步：微调GPT3.5模型。让GPT 3.5在对话场景初步具备理解人类的的意图，从用户的prompt集合中采样，人工标注prompt对应的答案，然后将标注好的prompt和对应的答案去Fine-tune GPT3.5，经过微调的模型具备了一定理解人类意图的能力。

第二步：训练回报模型。第一步微调的模型显然不够好，至少他不知道自己答的好不好，这一步通过人工标注数据训练一个回报模型，让回报模型来帮助评估回答的好不好。具体做法是采样用户提交的prompt，先通过第一步微调的模型生成n个不同的答案，比如A、B、C、D。接下来人工对A、B、C、D按照相关性、有害性等标准标准并进行综合打分。有了这个人工标准数据，采取pair-wise 损失函数来训练回报模型RM。这一步实现了模型判别答案的好坏。

第三步：强化学习来增强微调模型。使用第一步微调GPT3.5模型初始化PPO模型，采样一批和前面用户提交prompt不同的集合，使用PPO模型生成答案，使用第二步回报模型对答案打分。通过产生的策略梯度去更新PPO模型。这一步利用强化学习来鼓励PPO模型生成更符合RM模型判别高质量的答案。

通过第二和第三步的迭代训练并相互促进，使得PPO模型能力越来越强。

主要涉及的技术细节

1） GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技术上进行微调的，这里对GPT-3.5在GPT3基础上做的工作进行梳理，官方列举了以下GPT-3.5系列几个型号：

code-davinci-002 是一个基础模型,对于纯代码补全任务。这也是ChatGPT具备超强代码生成能力的原因。

text-davinci-002 是在code-davinci-002基础上训练的InstructGPT模型，训练策略是instructGPT+FeedRM。

text-davinci-003 是基于text-davinci-002模型的增强版本，训练策略是instructGPT+PPO。

根据如下图官方发布的模型时间线和文档，我们可以了解到ChatGPT是在text-davinci-003 基础上微调而来，这也是ChatGPT模型性能如此强大的核心要素。因为GPT-3.5系列模型是在2021年第四季度之前的文本和代码样本上训练，所以我们体验ChatGPT时候同样无法回答训练样本日期之后的问题。

ChatGPT技术

2）监督信号提升效果显著

GPT3之前在预训练+微调已经是NLP任务中标准范式，GPT3模型的训练是纯自监督学习并以API的形式发布，用户不具备微调的能力，官方也是主打预训练+提示学习的能力。Prompt方法本质是挖掘语言模型本身具备的知识，恰当的提示去激发语言模型的补全能力。监督信号微调可以理解为改变了语言模型的理解能力，InstructGPT的工作可以理解为对GPT3-SFT做了数据增强提升，使得模型在理解人类指令方面更出色。但这并不影响监督信号对最终效果的价值。

在InstructGPT的工作中，我们可以看到GPT3-SFT和InstructGPT在毒性、幻觉、理解客户能力上，监督学习微调已经和强化学习对比有很大的竞争力，甚至在幻觉角度比基于强化学习的InstructGPT提升很明显。

ChatGPT技术

3）人类反馈强化微调效果

ChatGPT通过人类反馈强化学习（RLHF）来让模型理解人类的指令。人类反馈强化学习（RLHF）是DeepMind早期提出的，使用少量的人类反馈来解决现代RL任务。RLHF的思想在很多工作中都有体现，例如OpenAI的webGPT、DeepMind中Sparrow等都通过人类的反馈进一步提升大模型的效果。

RLHF整个训练过程如下图所示：

ChatGPT技术

目标是实现后空翻的任务，智能体Agent在环境中随机行动，每隔一段时间，两个行为的视频片段给一个人，人判断两个视频哪个更接近目标。通过人的反馈数据，学习一个最能解释人类判断的奖励模型Reward Model，然后使用RL来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈，实现了进一步完善它对目标的理解。智能体Agent从人类反馈中学习最终在许多环境中有时甚至是超过人类的表现。

行动驱动的大语言模型

尽管学术界一直无法真正定义AGI，今年大型语言模型（LLM）的表现让我们对通用人工智能有了期待，通过OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功，人工智能的未来应该是行动驱动的，一个行动驱动的LLM看起来很像AGI，如下图所示:

ChatGPT技术