OpenAI 训练了一个基于 GPT-4 的模型 CriticGPT用于发现 GPT-4 的错误

6/28/2024

https://www.chatbro.cn/news/667e1cc9d7647fdbe58a9dce

OpenAI 训练了一个基于 GPT-4 的模型 CriticGPT，用于帮助人类训练者在强化学习从人类反馈（RLHF）过程中发现 ChatGPT 输出代码中的错误，并提高了训练者捕捉这些错误的能力。

摘要

OpenAI 发布了一篇研究论文，介绍了他们基于 GPT-4 训练的一个新模型 CriticGPT，它能够帮助人类训练者识别 ChatGPT 生成代码中的错误。

实验结果表明，使用 CriticGPT 辅助的训练者在评估 ChatGPT 代码时，比没有辅助的训练者表现得更好，能够发现更多问题。

CriticGPT 通过 RLHF 方法进行训练，但与 ChatGPT 不同，它在训练过程中看到了大量包含错误的输入，并学习了如何对这些错误进行批判。在实验中，研究人员发现 CriticGPT 能够在 63% 的情况下捕捉到“自然发生”的 ChatGPT 错误，且产生的批判更为全面，幻觉问题（hallucinations）的发生率也更低。此外，通过在生成批判时对批判奖励模型进行额外的测试时间搜索，可以平衡对代码问题的寻找程度，以及在幻觉和检测到的错误之间进行精确度-召回率的权衡。

研究人员认为，这种方法能够为 RLHF 提供最有帮助的批判。尽管如此，CriticGPT 仍然存在局限性，例如在处理更长和复杂的任务时可能不够有效，且模型和训练者仍然可能犯错。未来的工作将集中在进一步扩展这项研究，并将其应用于实践中，以对接日益复杂的 AI 系统。

观点

CriticGPT 能够提高人类训练者识别 ChatGPT 代码错误的能力，这对于 RLHF 过程至关重要。
CriticGPT 的批判能够帮助训练者提供更全面的反馈，并且减少了模型单独工作时可能出现的幻觉问题。
CriticGPT 的训练方法包括对错误性输入的批判，以及对人为插入的错误和自然发生的错误的识别。
实验结果显示，CriticGPT 在处理自然发生的错误时表现出色，且能够平衡精确度和召回率。
CriticGPT 的局限性包括对长复杂任务的处理能力不足，以及模型和训练者可能的错误。
未来的工作方向是进一步发展能够帮助训练者理解和评估复杂任务的工具，以及处理分散在多个部分的错误。