花粉乐分享平台宣传视频
> 乐学堂 > > 独家 | ChatGPT工作原理:机器人背后的模型
独家 | ChatGPT工作原理:机器人背后的模型
来源:数据派THU
2023-04-08 13:07:56
430
管理

这篇对赋能ChatGPT的机器学习模型的简要介绍,将从大型语言模型(LLM)开始,进而探讨使GPT-3得到训练的革命性的自注意力机制 (self-attention mechanism),之后研究人类反馈强化学习 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT与众不同的创新技术。

图2: 作者对GPT-2(左)和GPT-3(右)的比较

所有GPT模型都利用了Transformer架构,这意味着它们有一个编码器来处理输入序列,一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制,该机制允许模型对序列的不同部分进行不同的加权,以推断含义和上下文。此外,编码器利用掩码语言建模(MLM) 来理解单词之间的关系,并产生更易理解的反应。

驱动GPT的自注意力机制通过将标记(可以是单词、句子或其他文本分组的文本片段)转换为向量来工作,向量代表标记在输入序列中的重要性。该模型分四步做到这一点:

1. 为输入序列中的每个标记创建三个向量:“查询”、“键”和“值”。

2. 通过取两个向量的点积来计算步骤1中的“查询”向量与其他每个标记的“键”向量之间的相似性。

3. 通过将第2步的输出传入softmax函数来生成归一化的权重。

4. 通过将步骤3中生成的权重乘以每个标记的“值”向量,生成一个最终向量,代表标记在序列中的重要性。

GPT使用的“多头”注意力机制,是自注意力机制的进化版。该模型不是一次性执行步骤1到4,而是多次迭代此机制:每次 为“查询”、“键”和“值” 生成新的向量投影。通过以这种方式扩展自注意力,该模型能够掌握输入词语数据的潜在含义更复杂的关系。

图4: 图片(左)来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字(右)为作者添加的额外内容。

第二步: 奖励模型

在第一步中训练完SFT模型后,该模型会对用户提示产生更符合要求的响应。下一步的改进是通过训练奖励模型来实现的,该模型的输入是一系列提示和响应,输出是一个名为“奖励”的标量。奖励模型的训练是为了利用强化学习(Reinforcement Learning),让模型学习如何产生输出以最大化其奖励值(见第三步)。

为了训练奖励模型,标注员会看到单个输入提示的4至9个SFT模型输出。他们被要求将这些输出从最佳到最差进行排名,并创建输出排名组合,如下所示。

Figure 9: 作者从ChatGPT生成的截图。

祝学习愉快!

Sources

1. https://openai.com/blog/chatgpt/

2. https://arxiv.org/pdf/2203.02155.pdf

3.https://medium.com/r/?url=https://deepai.org/machine-learning-glossary-and-terms/softmax-layer

4.https://www.assemblyai.com/blog/how-chatgpt-actually-works/

5.https://medium.com/r/url=https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b

原文标题:How ChatGPT Works: The Model Behind The Bot

原文链接:

https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

A brief introduction to the intuition and methodology behind the chat bot you can’t stop hearing about.

花粉社群VIP加油站

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
华为派()
文章
437
主题
0
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行
随手拍
53个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备2024061738号-1
1
0
分享

个人中心

每日签到

我的消息

内容搜索