Hi,欢迎来到黄页88网!
当前位置:首页 > 人工智能 > ChatGPT运用了哪些高端技术?

ChatGPT运用了哪些高端技术?

互联网时间: 2023-05-08 10:34:45

ChatGPT整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型,让模型一方面学习人的指令,另一方面学习回答的好不好。

核心提升了什么?

ChatGPT在对话场景核心提升了以下三方面:

1)更好的理解用户的提问,提升模型和人类意图的一致性,同时具备连续多轮对话能力。

2)大幅提升结果的准确性,主要表现在回答的更加的全面,同时可以承认错误、发现无法回答的问题。

3)具备识别非法和偏见的机制,针对不合理提问提示并拒绝回答。

ChatGPT的提升主要涉及以下三方面技术:

1)性能强大的预训练语言模型GPT3.5,使得模型具备了博学的基础。

2)webGPT等工作验证了监督学习信号可大幅提升模型准确性。

3)InstructGPT等工作引入强化学习验证了对齐模型和用户意图的能力。

ChatGPT技术

整体技术流程

ChatGPT的训练过程分为微调GPT3.5模型、训练回报模型、强化学习来增强微调模型三步:

第一步:微调GPT3.5模型。让GPT 3.5在对话场景初步具备理解人类的的意图,从用户的prompt集合中采样,人工标注prompt对应的答案,然后将标注好的prompt和对应的答案去Fine-tune GPT3.5,经过微调的模型具备了一定理解人类意图的能力。

第二步:训练回报模型。第一步微调的模型显然不够好,至少他不知道自己答的好不好,这一步通过人工标注数据训练一个回报模型,让回报模型来帮助评估回答的好不好。具体做法是采样用户提交的prompt,先通过第一步微调的模型生成n个不同的答案,比如A、B、C、D。接下来人工对A、B、C、D按照相关性、有害性等标准标准并进行综合打分。有了这个人工标准数据,采取pair-wise 损失函数来训练回报模型RM。这一步实现了模型判别答案的好坏。

第三步:强化学习来增强微调模型。使用第一步微调GPT3.5模型初始化PPO模型,采样一批和前面用户提交prompt不同的集合,使用PPO模型生成答案,使用第二步回报模型对答案打分。通过产生的策略梯度去更新PPO模型。这一步利用强化学习来鼓励PPO模型生成更符合RM模型判别高质量的答案。

通过第二和第三步的迭代训练并相互促进,使得PPO模型能力越来越强。

主要涉及的技术细节

1) GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技术上进行微调的,这里对GPT-3.5在GPT3基础上做的工作进行梳理,官方列举了以下GPT-3.5系列几个型号:

code-davinci-002 是一个基础模型,对于纯代码补全任务。这也是ChatGPT具备超强代码生成能力的原因。

text-davinci-002 是在code-davinci-002基础上训练的InstructGPT模型,训练策略是instructGPT+FeedRM。

text-davinci-003 是基于text-davinci-002模型的增强版本,训练策略是instructGPT+PPO。

根据如下图官方发布的模型时间线和文档,我们可以了解到ChatGPT是在text-davinci-003 基础上微调而来,这也是ChatGPT模型性能如此强大的核心要素。因为GPT-3.5系列模型是在2021年第四季度之前的文本和代码样本上训练,所以我们体验ChatGPT时候同样无法回答训练样本日期之后的问题。

ChatGPT技术

2) 监督信号提升效果显著

GPT3之前在预训练+微调已经是NLP任务中标准范式,GPT3模型的训练是纯自监督学习并以API的形式发布,用户不具备微调的能力,官方也是主打预训练+提示学习的能力。Prompt方法本质是挖掘语言模型本身具备的知识,恰当的提示去激发语言模型的补全能力。监督信号微调可以理解为改变了语言模型的理解能力,InstructGPT的工作可以理解为对GPT3-SFT做了数据增强提升,使得模型在理解人类指令方面更出色。但这并不影响监督信号对最终效果的价值。

在InstructGPT的工作中,我们可以看到GPT3-SFT和InstructGPT在毒性、幻觉、理解客户能力上,监督学习微调已经和强化学习对比有很大的竞争力,甚至在幻觉角度比基于强化学习的InstructGPT提升很明显。

ChatGPT技术

3) 人类反馈强化微调效果

ChatGPT通过人类反馈强化学习(RLHF)来让模型理解人类的指令。人类反馈强化学习(RLHF)是DeepMind早期提出的,使用少量的人类反馈来解决现代RL任务。RLHF的思想在很多工作中都有体现,例如OpenAI的webGPT、DeepMind中Sparrow等都通过人类的反馈进一步提升大模型的效果。

RLHF整个训练过程如下图所示:

ChatGPT技术

目标是实现后空翻的任务,智能体Agent在环境中随机行动,每隔一段时间,两个行为的视频片段给一个人,人判断两个视频哪个更接近目标。通过人的反馈数据,学习一个最能解释人类判断的奖励模型Reward Model,然后使用RL来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈,实现了进一步完善它对目标的理解。智能体Agent从人类反馈中学习最终在许多环境中有时甚至是超过人类的表现。

行动驱动的大语言模型

尽管学术界一直无法真正定义AGI,今年大型语言模型(LLM)的表现让我们对通用人工智能有了期待,通过OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未来应该是行动驱动的,一个行动驱动的LLM看起来很像AGI,如下图所示:

ChatGPT技术

模型的行为就像一个智能体Agent选择行动。在中间,我们有开箱即用的基础模型LLM。用户通过Prompt询问模型结果。

左边是外部可利用的资源,这些可以是任何将文本作为输入并提供文本作为输出的函数,包括搜索、数据库、代码解释器和与人聊天等,它可以增强模型的能力。

右边是我们有任务导向的训练,如instruction tuning、RLHF等。instruction tuning相对好实现,RLHF需要调整PPO算法相对较难。整体上RL利用使用日志等专有数据,通过创建强大的反馈回路,训练模型使其更加符合任务需求并迭代优化。

ChatGPT ChatGPT智能工具 ChatGPT技术

本文标题: ChatGPT运用了哪些高端技术?

本文地址: https://www.huangye88.com/brand/news-881aaf7b5.html

内容均来源于网络,错误纠正或删除请发邮件,收件邮箱kefu@huangye88.com

2009-2025 黄页88版权所有 京ICP备2023012932号-1京公网安备 11010802023561号 京ICP证100626

内容均来源于网络,错误纠正或删除请发邮件,收件邮箱kefu@huangye88.com