Learning to Reason with LLMs -- OpenAI o1 论文详解

作者: pdnbplus | 发布时间: 2024/09/19 | 阅读量: 172

Learning to Reason with LLMs -- OpenAI o1 论文详解

Abstract

OpenAI 推出了 OpenAI o1,这是一种新的大型语言模型,通过强化学习进行训练,用于执行复杂的推理。o1 在回答之前会思考 - 在响应用户之前,它可以产生一个很长的内部思维链。OpenAI o1通过Chain of thought来对数学与写代码问题进行提升。

OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89 个百分位(前11%),在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。

Main results

大规模强化学习算法教会模型如何在高度数据高效的训练过程中使用其思维链进行高效思考。我们发现,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1 的性能会不断提高。

在这里插入图片描述

为了突出对 GPT-4o 的推理改进,我们在各种人类考试和 ML 基准测试中测试了我们的模型。我们表明,在绝大多数这些推理密集型任务中,o1 的性能明显优于 GPT-4o。

在这里插入图片描述

  • 在许多需要大量推理的基准测试中,o1 的表现可以与人类专家相媲美。最近的前沿模型在 MATH2 和 GSM8K 上的表现如此出色,以至于这些基准测试已经不再能够有效地区分模型之间的差异。我们评估了 AIME(一项旨在挑战美国最优秀的高中数学学生的考试)上的数学表现。在 2024 年的 AIME 考试中,GPT-4o 平均只解决了 12%(15 题中的 1.8 题)。而 o1 在每题仅用一个样本的情况下平均解决了 74%(15 题中的 11.1 题),在使用 64 个样本达成共识时解决了 83%(15 题中的 12.5 题),当利用学习到的评分函数对 1000 个样本进行重新排序后,则解决了 93%(15 题中的 13.9 题)。得分 13.9 使它处于全国前 500 名学生之列,并超过了美国数学奥林匹克竞赛的入选门槛。
  • 我们还在 GPQA 钻石测试上对 o1 进行了评估,这是一个难度很高的智力基准测试,涵盖了化学、物理和生物学的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA 钻石测试的问题。我们发现 o1 的表现超越了这些人类专家,成为首个在这一基准测试上实现这一成就的模型。这些结果并不意味着 o1 在所有方面都比拥有博士学位的人更胜一筹 —— 只是表明该模型在解决某些博士生应能解答的问题上更加熟练。

在这里插入图片描述

Chain of Thought思维链

官网的展示提供了使用GPT-4o和OpenAI o1进行推理的例子,涉及Cipher,coding,Math,Crossword,English等问题。

https://openai.com/index/learning-to-reason-with-llms/

可以看出虽然在user的指示下,GPT-4o也会一步一步地思考,但是越到思考的关键点或问题的深入,就开始只给定性信息了,开始扯东扯西了,没有得到想要的答案。而OpenAI o1则是一步步地思考,一步步地回答,最终得到了具体的答案。无论答案对与错,一个具体的答案都能给user启发,这一点我觉得是OpenAI o1的独特之处。

coding水平

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中获得了213分,并排名在第49百分位。这个模型是基于o1初始化的,并进行了进一步的训练以提高编程技能。该模型与人类参赛者在相同的条件下参加了2024年的IOI,有十个小时来解决六个具有挑战性的算法问题,并且每个问题允许提交50次。

对于每个问题,我们的系统采样了许多候选提交,并根据比赛时的选择策略提交了其中50个。提交的选择依据是IOI公开测试用例的表现、模型生成的测试用例以及一个学习到的评分函数。如果我们随机提交的话,平均只能得到156分,这表明在这种竞赛约束下,这种策略的价值接近60分。

当我们放宽提交限制时,发现模型的表现显著提升。当每个问题允许提交10,000次时,即使没有任何比赛时的选择策略,模型也达到了362.14分——超过了金牌门槛。

最后,我们模拟了Codeforces举办的编程竞赛,以展示这个模型的编码技能。我们的评估严格遵循竞赛规则,并允许每个问题提交10次。GPT-4o取得了808的Elo评分,位于人类竞争者的第11百分位。而这个新模型远远超越了GPT-4o和o1,它达到了1807的Elo评分,表现优于93%的竞争者。

在这里插入图片描述

其他水平

在这个评估中,人类训练员被展示了来自o1预览版和GPT-4o的匿名响应,并投票选择了他们更喜欢哪一个响应。在诸如数据分析、编码和数学等需要大量推理的类别中,人们明显更倾向于选择o1预览版。然而,在某些自然语言任务上,o1预览版并不受欢迎,这表明它并不适用于所有使用场景。

在这里插入图片描述

但是我在B站评论区还发现了一些针对自然语言任务有提升的情况

在这里插入图片描述

在这里插入图片描述

安全性与隐私

OpenAI一贯的作风就是:不让用户通过一些越yu的方法来让大模型生成一些harmful的东西,然后现在又隐藏了Chains of Thougt的思维链,让用户无法知道模型的思路。其实就是又想让别人觉得他厉害,又不想让友商学习。我代表友商谴责这种行为(除非他免费给我用),以下是官方说法:

  • 我们认为隐藏的连贯思维为监控模型提供了一个独特的机会。假设它是忠实且可读的,隐藏的连贯思维使我们能够“读懂”模型的想法,并理解其思考过程。例如,未来我们可能希望监控连贯思维中是否存在操控用户的行为迹象。然而,为了让这种方法有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到连贯思维中。同时,我们也不希望将未经对齐的连贯思维直接展示给用户。
  • 因此,在权衡了包括用户体验、竞争优势以及追求连贯思维监控的可能性等多方面因素后,我们决定不向用户显示原始的连贯思维。我们承认这一决定存在缺点。

  • o1预览版在关键越yu评估及用于测试模型安全拒绝边界的最难内部基准上实现了显著改进的表现。我们认为使用连贯思维对于安全性和对齐性具有重要意义,原因在于:(1) 它使我们能够以清晰的方式观察模型的思考过程;(2) 模型关于安全规则的推理更能抵御分布外情况。

在这里插入图片描述

总结

  1. OpenAI o1使用强化学习训练模型,通过Chain of Thought思维链来进行推理。但最重要的是它指出了新的方向。虽然只是思维链,模型本身没什么提升,但这意味着你可以堆算力来产出高质量的问答。然后把这些问答再喂给更小的模型。然后再用更小的模型微调大模型。然后大模型再继续cot产出更好的问答。这就是一个指数性的爆发。原本以为ai很难又再大的模型突破,但现在看来应该会沿着势头继续下去。
  2. o1这次没有多模态,也没有花里胡哨的东西,openai给大模型解决了一个相当关键的问题,让大模型学会先思考,在思维链中逐步提取要素然后才输出结果,与一般思维链不同这个强化学习内部自我对抗完全是一个新方向,也正因如此,复杂问题即难以直接得出结论的问题这样的思维链效果很爆炸,简单问题能够直接得出结论的反倒多余,他们后续再更新之后无论简单还是复杂都能进行准确思考的话,这是AI能够称得上智能的决定要素了吧