编辑:编辑部
【新智元导读】如今爆火的ChatGPT,曾经和马斯克还有一段七年的「纠葛」。最近,OpenAI发布了史上最强聊天机器人ChatGPT,这个诞生于GPT-3基础上的AI很快走红网络。
要说这家伙,天南海北无所不知,可能是夸张了点,但就是无论什么话题都能跟你聊上一大套,先不说准不准,最起码这个范儿是在这儿了
有趣的是,虽然作为联合创始人的马斯克,早在2018年就辞去了董事会职务,但他对OpenAI的关注度却丝毫不减,并仍然是资助人之一。
那么,对于这位「金主爸爸」,ChatGPT是怎样看待的呢?
ChatGPT教你怎么追马斯克嗯……非常中规中矩的回答。不会出错,好样的。
那让咱们更进一步,请ChatGPT教教我们:怎么才能追到马斯克呢?
看来,ChatGPT不太能理解咱们中国话里的「追」,还是得说得直白一些。
这次,ChatGPT能get到了,而且回答也非常「理智」:建议您不要尝试。
该公司在一篇博文中宣布,OpenAI已成为一家制定了「利润上限」的公司。
OpenAI表示,我们希望提高我们筹集资金的能力,同时仍然为我们的使命服务,而我们所知道的任何现有的合法结构都无法达到适当的平衡。我们的解决方案是创建OpenAI LP,作为营利性和非营利性的混合体,我们称之为「加了上限的营利公司」。
在新的利润结构下,OpenAI的投资者最多可以赚取其原始投资的100倍,超过这个数字的剩下的钱将用于非营利性事务。
2019年底,OpenAI宣布与微软合作,微软向这家公司投资了10亿美元。OpenAI表示,它将向微软独家授权技术。
微软表示,通过GPT-3模型打造出的商业和创造潜力是无限的,很多潜在的新能力和新应用,甚至超出了我们的想象。
比如在写作和作曲上、在描述和总结大块长篇数据(包括代码)上、在将自然语言转换为另一种语言等领域,GPT-3能够直接激发人类的创造力和聪明才智,未来的局限可能在于我们自己的想法和方案。
这种伙伴关系,让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争。
去年,OpenAI发布了一个人工智能画作生成工具:Dall-E。
Dall-E是一个人工智能系统,可以根据图像的描述创造出逼真的图像,甚至能够达到相当的艺术水准,11月,OpenAI发布了该程序的更新版本,Dall-E 2。
虽然OpenAI的聊天机器人在过去一周已经「起飞」,但该软件的更新版本可能最快会在明年才能发布。
但即使是它们,也只是简单地将生成的文本与引用进行比较,因此也有很大的局限性。
在这种情况下,如果我们使用生成文本的人工反馈作为损失,来优化模型,不是很好吗?
就这样,从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习,直接优化带有人类反馈的语言模型。
ChatGPT用英文解释什么是RLH
是的,RLHF使语言模型能够将在一般文本数据语料库上训练的模型,与具有复杂人类价值观的模型对齐。
在爆火的ChatGPT中,我们能看到RLHF取得的巨大成功。
RLHF的训练过程,可以分解为三个核心步骤:
预训练语言模型(LM),收集数据并训练奖励模型,通过强化学习微调LM。预训练语言模型
第一步,RLHF会使用已经用经典预训练目标进行了预训练的语言模型。
比如,OpenAI在第一个流行的RLHF模型InstructGPT中,使用了较小版本的 GPT-3。
这个初始模型也可以根据额外的文本或条件进行微调,但并不是必要的。
一般来说,对于「哪种模型」最适合作为RLHF的起点,并没有明确的答案。
接下来,为了得到语言模型,我们需要生成数据来训练奖励模型,这就是将人类偏好集成到系统中的方式。
奖励模型训练
生成一个根据人类偏好校准的奖励模型(RM,也称为偏好模型)是RLHF中相对较新的研究。
我们的基本目标是,获得一个模型或系统,该模型或系统接收一系列文本,并返回一个标量奖励,这个奖励要在数字上代表人类偏好。
这个系统可以是端到端的LM,或输出奖励的模块化系统(例如,模型对输出进行排序,并将排名转换为奖励)。作为标量奖励的输出,对于稍后在RLHF过程中无缝集成的现有RL算法至关重要。
这些用于奖励建模的LM可以是另一个经过微调的LM,也可以是根据偏好数据从头开始训练的LM。
RM的提示生成对的训练数据集,是通过从预定义数据集中采样一组提示而生成的。提示通过初始语言模型生成新文本。
然后,由人工注释器对LM生成的文本进行排名。人类直接对每段文本打分以生成奖励模型,这在实践中很难做到。因为人类的不同价值观会导致这些分数未经校准而且很嘈杂。
有多种方法可以对文本进行排名。一种成功的方法是让用户比较基于相同提示的两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。
有趣的是,迄今为止成功的RLHF系统都使用了与文本生成大小相似的奖励语言模型。可以推测,这些偏好模型需要具有类似的能力来理解提供给它们的文本,因为模型需要具有类似的能力才能生成所述文本。
此时,在RLHF系统中,就有了一个可用于生成文本的初始语言模型,和一个接收任何文本并为其分配人类感知程度分数的偏好模型。接下来,就需要使用强化学习(RL)来针对奖励模型优化原始语言模型。
使用强化学习微调
这个微调任务,可以表述为RL问题。
首先,该策略是一种语言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。
该策略的动作空间是语言模型词汇对应的所有token(通常在50k个token数量级),观察空间包括可能的输入token序列,因而相当大(词汇量x输入的token数量)。
而奖励函数是偏好模型和策略转变约束的结合。
在奖励函数中,系统将我们讨论过的所有模型,组合到RLHF过程中。
根据来自数据集的prompt x,会生成两个文本y1和y2——一个来自初始语言模型,一个来自微调策略的当前迭代。
来自当前策略的文本被传递到偏好模型后,该模型会返回一个关于「偏好」的标量概念——rθ。
将该文本与来自初始模型的文本进行比较后,就可以计算对它们之间差异的惩罚。
RLHF可以通过迭代更新奖励模型和策略,从这一点继续。
随着RL策略的更新,用户可以继续将这些输出与模型的早期版本进行排名。
这个过程中,就引入了策略和奖励模型演变的复杂动态,这个研究非常复杂,非常开放。
参考资料:
https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly
https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7
花粉社群VIP加油站
猜你喜欢