这篇对赋能ChatGPT的机器学习模型的简要介绍,将从大型语言模型(LLM)开始,进而探讨使GPT-3得到训练的革命性的自注意力机制 (self-attention mechanism),之后研究人类反馈强化学习 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT与众不同的创新技术。
图2: 作者对GPT-2(左)和GPT-3(右)的比较
所有GPT模型都利用了Transformer架构,这意味着它们有一个编码器来处理输入序列,一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制,该机制允许模型对序列的不同部分进行不同的加权,以推断含义和上下文。此外,编码器利用掩码语言建模(MLM) 来理解单词之间的关系,并产生更易理解的反应。
驱动GPT的自注意力机制通过将标记(可以是单词、句子或其他文本分组的文本片段)转换为向量来工作,向量代表标记在输入序列中的重要性。该模型分四步做到这一点:
1. 为输入序列中的每个标记创建三个向量:“查询”、“键”和“值”。
2. 通过取两个向量的点积来计算步骤1中的“查询”向量与其他每个标记的“键”向量之间的相似性。
3. 通过将第2步的输出传入softmax函数来生成归一化的权重。
4. 通过将步骤3中生成的权重乘以每个标记的“值”向量,生成一个最终向量,代表标记在序列中的重要性。
GPT使用的“多头”注意力机制,是自注意力机制的进化版。该模型不是一次性执行步骤1到4,而是多次迭代此机制:每次 为“查询”、“键”和“值” 生成新的向量投影。通过以这种方式扩展自注意力,该模型能够掌握输入词语数据的潜在含义更复杂的关系。
图4: 图片(左)来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字(右)为作者添加的额外内容。
第二步: 奖励模型在第一步中训练完SFT模型后,该模型会对用户提示产生更符合要求的响应。下一步的改进是通过训练奖励模型来实现的,该模型的输入是一系列提示和响应,输出是一个名为“奖励”的标量。奖励模型的训练是为了利用强化学习(Reinforcement Learning),让模型学习如何产生输出以最大化其奖励值(见第三步)。
为了训练奖励模型,标注员会看到单个输入提示的4至9个SFT模型输出。他们被要求将这些输出从最佳到最差进行排名,并创建输出排名组合,如下所示。
Figure 9: 作者从ChatGPT生成的截图。
祝学习愉快!
Sources1. https://openai.com/blog/chatgpt/
2. https://arxiv.org/pdf/2203.02155.pdf
3.https://medium.com/r/?url=https://deepai.org/machine-learning-glossary-and-terms/softmax-layer
4.https://www.assemblyai.com/blog/how-chatgpt-actually-works/
5.https://medium.com/r/url=https://towardsdatascience.com/proximal-policy-optimization-ppo-explained-abed1952457b
原文标题:How ChatGPT Works: The Model Behind The Bot原文链接:
https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286
A brief introduction to the intuition and methodology behind the chat bot you can’t stop hearing about.花粉社群VIP加油站
猜你喜欢