GPT-4评估方法的突破性进展：可靠性与人类评估一致性超过80%-非凡云社

> 乐学堂 > > GPT-4评估方法的突破性进展：可靠性与人类评估一致性超过80%

GPT-4评估方法的突破性进展：可靠性与人类评估一致性超过80%

来源：写新AixNew

2023-07-11 16:58:38

300

管理

最近的讨论集中在LLM（语言模型评估）上，特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案，并选择最佳答案以创建排名系统。然而，这种方法存在明显的局限性。因此，LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法，其与人工评估实现了80%的一致性。在他们的工作过程中，该团队收集了大量真实人类回答，并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4，但具备自动化和可扩展性，而且价格实惠，每个人都可以使用。

更多AI资讯，请关注公众号“巨星云”“未来AI工具”。

随着骆马、考拉和多莉等各种语言模型的出现，使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示，其中包含来自模型A和模型B的两个答案，并要求评估者按1到8的等级对其进行评分，1表示模型A明显更好，8表示平局，4-5表示平局，2-3和6-7表示"更好的模型"。

交换模型A和模型B不会显著影响分数（例如，7变成2，8变成1），并且一个模型的持续优势将导致其胜利，这似乎是合乎逻辑的。然而，出现了"位置偏差"现象，其中模型更频繁地将较高的分数分配给模型A（一）。为了确保公平性，人工评估解释了这种偏见。

HuggingFace团队进行的一项有见地的研究评估了四个模型在329个不同问题上的答案。在这项有趣的研究中，发现以下情况：

基于成对比较的四个模型的排名在人工评估和GPT-4之间是一致的，尽管观察到不同的Elo评级差距。这表明该模型可以区分好的和坏的答案，但在一些边缘案例中与人工评估不太一致。有趣的是，该模型对其他模型的答案进行评分，特别是那些在GPT-4答案上训练的模型，高于真实人类答案。GPT-0的得分与回答中唯一令牌的数量之间存在高度相关性（Pearson=96.4）。这表明该模型没有很好地评估答案的质量，强调了需要谨慎解释的重要性。

这些发现强调了在使用GPT-4进行模型比较时进行仔细评估的重要性。尽管该模型在一定程度上可以区分答案的好坏，但其评估可能并不总是与人工评估完全一致，特别是在细微的情景中。因此，在仅依赖GPT-4分数时，谨慎行事并考虑其他因素至关重要。通过改进提示和结合各种评估方法，研究人员的目标是提高GPT-4评估的可靠性和准确性。

花粉社群VIP加油站

0

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

探秘人工智能：GPT-4引领未来，开启智能时代

2023-07-11 17:06

被坑了！poe的订阅用户所使用的的GPT-4其实是GPT-3

2023-07-11 16:56