GPT-4“自我反思”后能力大增，测试表现提升 30％

2023-04-04 16:59

企鹅号 IT之家

GPT-4是继GPT、GPT-2和GPT-3之后，OpenAI推出的最先进的系统，也是目前最大的多模态模型（可以接受图像和文本输入，输出文本）。其利用深度学习技术，使用人工神经网络来模仿人类的写作。

本文来自企鹅号“IT之家”。

OpenAI最新的语言模型GPT-4不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让GPT-4在多项难度较高的测试中，都取得了显著的进步，测试表现提升30%。

研究人员诺亚・辛恩（Noah Shinn）和阿什温・戈平纳特（Ashwin Gopinath）在论文中写道：“我们开发了一种新颖的技术，让AI代理能够模拟人类的自我反思，并评估自己的表现。GPT-4在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。”

在HumanEval编码测试中，GPT-4使用自我反思环路，准确率从67%上升到88%

GPT-4可以通过设计和执行测试来批判其自身的性能，如AlfWorld测试结果所示，可以大大改善其性能

研究团队使用这种技术对GPT-4进行了几种不同的性能测试。在HumanEval测试中，GPT-4需要解决164个从未见过的Python编程问题，原本准确率为67%，使用反思技术后，准确率提升到了88%。在Alfworld测试中，AI需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4的准确率从73%提高到了97%，只有4个任务失败。在HotPotQA测试中，GPT-4可以访问维基百科，并回答100个需要从多个支持文档中解析内容和推理的问题，原本准确率为34%，使用反思技术后，准确率提高到了54%。

这项研究表明，AI问题的解决方案有时候是依赖AI本身。IT之家发现，这有点像生成对抗网络，这是一种让两个AI互相提高技能的方法，比如一个AI试图生成一些看起来像真实图片的图片，另一个AI试图分辨哪些是假的，哪些是真的。但在这种情况下，GPT既是写作者又是编辑，通过自我反思来改进自己的输出质量。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

分享数智化医院低碳运营，中瑞恒闪耀第七届全国医院后勤精细化管理大会

GPT-4“自我反思”后能力大增，测试表现提升 30％

2026 信息化观察网

长按扫描二维码阅读原文