花粉乐分享平台宣传视频
> 乐学堂 > > GPT-4评估方法的突破性进展:可靠性与人类评估一致性超过80%
GPT-4评估方法的突破性进展:可靠性与人类评估一致性超过80%
来源:写新AixNew
2023-07-11 16:58:38
281
管理

最近的讨论集中在LLM(语言模型评估)上,特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

更多AI资讯,请关注公众号“巨星云”“未来AI工具”。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示,其中包含来自模型A和模型B的两个答案,并要求评估者按1到8的等级对其进行评分,1表示模型A明显更好,8表示平局,4-5表示平局,2-3和6-7表示"更好的模型"。

交换模型A和模型B不会显著影响分数(例如,7变成2,8变成1),并且一个模型的持续优势将导致其胜利,这似乎是合乎逻辑的。然而,出现了"位置偏差"现象,其中模型更频繁地将较高的分数分配给模型A(一)。为了确保公平性,人工评估解释了这种偏见。

HuggingFace团队进行的一项有见地的研究评估了四个模型在329个不同问题上的答案。在这项有趣的研究中,发现以下情况:

基于成对比较的四个模型的排名在人工评估和GPT-4之间是一致的,尽管观察到不同的Elo评级差距。这表明该模型可以区分好的和坏的答案,但在一些边缘案例中与人工评估不太一致。有趣的是,该模型对其他模型的答案进行评分,特别是那些在GPT-4答案上训练的模型,高于真实人类答案。GPT-0的得分与回答中唯一令牌的数量之间存在高度相关性(Pearson=96.4)。这表明该模型没有很好地评估答案的质量,强调了需要谨慎解释的重要性。

这些发现强调了在使用GPT-4进行模型比较时进行仔细评估的重要性。尽管该模型在一定程度上可以区分答案的好坏,但其评估可能并不总是与人工评估完全一致,特别是在细微的情景中。因此,在仅依赖GPT-4分数时,谨慎行事并考虑其他因素至关重要。通过改进提示和结合各种评估方法,研究人员的目标是提高GPT-4评估的可靠性和准确性。

花粉社群VIP加油站

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
DuangDuang()
文章
403
主题
0
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
53个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备2024061738号-1
0
0
分享

个人中心

每日签到

我的消息

内容搜索