花粉乐分享平台宣传视频
> 乐学堂 > > MIT微软证实GPT-4有自我纠错能力,智能体循环根据反馈让代码迭代
MIT微软证实GPT-4有自我纠错能力,智能体循环根据反馈让代码迭代
来源:新智元
2023-07-20 15:32:36
289
管理

编辑:编辑部

【新智元导读】谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。

这种自我修复背后的机制,究竟是怎样运作的?

对代码为什么是错误的,模型在多大程度上能提供准确反馈?

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。

从实验中,研究者发现:

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。

自我修复四阶段

自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。

阶段一:代码生成

给定规范

,一个程序模型

,首先生成

阶段二:代码执行

然后在测试平台上执行

这些错误消息要么包含编译/运行时错误信息,要么包含程序输出与预期不同的示例输入。

阶段三:反馈生成

在此,研究人员使用反馈模型来生成更详细的错误解释。

在这个阶段,为每个错误的程序生成

候选修复程序从

,每个程序分支到反馈

作者介绍

Jianfeng Gao(高剑锋)

高剑锋是微软的杰出科学家和副总裁,也是IEEE Fellow。

在微软研究院,他是Redmond分部深度学习(DL)组的负责人。该组的使命是推进DL的最新技术,并将其应用于自然语言和图像理解以及构建对话代理。他领导了构建大规模基础模型的研究,这些模型为微软的重要人工智能产品提供了支持。

从2022年开始,他负责自我改进人工智能的研究,其中包括对LLM(如ChatGPT/GPT4)进行增强和适应,以用于商业人工智能系统的开发。

在此之前,他于1999年在上海交通大学获得博士学位。

Chenglong Wang

Chenglong Wang是微软研究院的研究员,此前在华盛顿大学获得了博士学位,并曾就读于北京大学。

参考资料:

https://twitter.com/DrJimFan/status/1675916565823516673

https://arxiv.org/pdf/2306.09896.pdf

花粉社群VIP加油站

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
711便利店()
文章
425
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
53个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备2024061738号-1
0
0
分享

个人中心

每日签到

我的消息

内容搜索