计算机行业周观点第23期:推理层面的SCALING LAW 正在出现
北京时间2024 年9 月13 日,OpenAI 发布o1 系列大模型,同时在技术博客《Learning to Reason with LLMs》中对o1 模型做了详细介绍。
o1 系列模型是OpenAI 首个经过强化学习训练的模型——它在输出回答前会思考,会在产生一个很长的内部思维链。与人在回答难题之前进行长时间思考类似,o1 在尝试解决问题时会使用思维链。通过强化学习,o1 学会了:
1)完善思维链并改进策略;2)学会了识别和纠正错误;3)将困难的步骤分解为更简单的步骤;4)在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。
推理层面的Scaling Law 正在出现,即推理(思考)的增加也能大幅提高模型的性能。大规模的强化学习可以教会大模型如何在高数据效率的训练过程中使用其思维链进行高效思考。OpenAI 在技术报告中表示,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1 的性能会不断提高,也就是说模型可以通过推理阶段更多的思考来提升逻辑推理能力,做出更优质的决策和回答。
o1 系列包含OpenAI o1、OpenAI o1-preview 和OpenAI o1-mini 三款模型,o1-mini 未来或将免费开放。1)o1:该系列最强的模型,暂未对外公开;2)o1-preiview:o1 的早期版本,可以立即提供给ChatGPT 付费用户和API 用户,目前每位用户每周仅能给 o1-preview 发送 30 条消息;3)o1-mini:是一个更小的模型,在预训练期间针对 STEM 推理进行了优化,速度更快,擅长编程;性价比更高,整体来看,o1-mini 的成本比 o1-preview 低 80%;目前每周只能发50 条消息。OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。
在编程、数学等需要强推理能力的领域,o1 模型表现优异。在许多推理为主的基准测试中,o1 的表现甚至可以与人类专家媲美。在 2024 年的 AIME(美国顶尖高中数学竞赛)中,GPT-4o 平均能解决 12%(1.8/15)的问题,而 o1 能解决超70%的问题,甚至在使用学习的评分函数对 1000 个样本重新排序后能达到了 93%(13.9/15),排名全美前 500 名。在 GPQA Diamond(智力基础测试,用于测试化学、物理和生物方面的专业知识)中,o1 的表现超过了一些人类专家,成为第一个在该基准测试中实现达到此成就的模型。编程领域,基于o1 进行了初始化并进一步训练了其编程技能后,OpenAI得到了一个非常强大的编程模型(o1-ioi),该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了213 分,达到了排名前49%的水平。
相关公司:寒武纪、海光信息、工业富联。
风险提示:技术进展不及预期、应用落地不及预期、行业竞争加剧。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: