独家 | ChatGPT工作原理：机器人背后的模型-非凡云社

> 乐学堂 > > 独家 | ChatGPT工作原理：机器人背后的模型

独家 | ChatGPT工作原理：机器人背后的模型

来源：数据派THU

2023-04-08 13:07:56

449

管理

这篇对赋能ChatGPT的机器学习模型的简要介绍，将从大型语言模型(LLM)开始，进而探讨使GPT-3得到训练的革命性的自注意力机制 (self-attention mechanism)，之后研究人类反馈强化学习 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT与众不同的创新技术。

图2: 作者对GPT-2（左）和GPT-3（右）的比较

所有GPT模型都利用了Transformer架构，这意味着它们有一个编码器来处理输入序列，一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制，该机制允许模型对序列的不同部分进行不同的加权，以推断含义和上下文。此外，编码器利用掩码语言建模(MLM) 来理解单词之间的关系，并产生更易理解的反应。

驱动GPT的自注意力机制通过将标记（可以是单词、句子或其他文本分组的文本片段）转换为向量来工作，向量代表标记在输入序列中的重要性。该模型分四步做到这一点：

1. 为输入序列中的每个标记创建三个向量：“查询”、“键”和“值”。

2. 通过取两个向量的点积来计算步骤1中的“查询”向量与其他每个标记的“键”向量之间的相似性。

3. 通过将第2步的输出传入softmax函数来生成归一化的权重。

4. 通过将步骤3中生成的权重乘以每个标记的“值”向量，生成一个最终向量，代表标记在序列中的重要性。

GPT使用的“多头”注意力机制，是自注意力机制的进化版。该模型不是一次性执行步骤1到4，而是多次迭代此机制：每次为“查询”、“键”和“值” 生成新的向量投影。通过以这种方式扩展自注意力，该模型能够掌握输入词语数据的潜在含义更复杂的关系。

图4: 图片（左）来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字（右）为作者添加的额外内容。

第二步: 奖励模型

在第一步中训练完SFT模型后，该模型会对用户提示产生更符合要求的响应。下一步的改进是通过训练奖励模型来实现的，该模型的输入是一系列提示和响应，输出是一个名为“奖励”的标量。奖励模型的训练是为了利用强化学习（Reinforcement Learning），让模型学习如何产生输出以最大化其奖励值（见第三步）。

为了训练奖励模型，标注员会看到单个输入提示的4至9个SFT模型输出。他们被要求将这些输出从最佳到最差进行排名，并创建输出排名组合，如下所示。

Figure 9: 作者从ChatGPT生成的截图。

祝学习愉快！

Sources

1. https://openai.com/blog/chatgpt/

2. https://arxiv.org/pdf/2203.02155.pdf

3.https://medium.com/r/?url=https://deepai.org/machine-learning-glossary-and-terms/softmax-layer

4.https://www.assemblyai.com/blog/how-chatgpt-actually-works/

5.https://medium.com/r/url=https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b

原文标题：How ChatGPT Works: The Model Behind The Bot

原文链接：

https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

A brief introduction to the intuition and methodology behind the chat bot you can’t stop hearing about.

花粉社群VIP加油站

1

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

ChatGPT只是客服机器人？上海多家银行早有实践：AI已用于小微信贷风控

2023-04-08 13:09

小i机器人悄无声息美股IPO：募资3876万美元蹭ChatGPT热度

2023-04-08 13:06