计算机行业-O1进展追踪与评测：REASONING能力究竟有多强？

闻学臣 2024-09-19 10:21:13

2024-09-19 10:21:13 阅读

o1模型带来推理能力的大幅提升，在数学、编程和科学问题中表现最好，有望加速相关应用落地。OpenAI发布o1模型，开放o1-preview和o1-mini版本给用户，o1-preview版本推理能力更强，o1-mini速度更快，价格便宜80%。GPQAdiamond测试中，o1的表现超过了博士学位的人类专家；在我们的测试中，o1在推理类问题中表现普遍较4o更好，但在写作任务中表现接近。我们认为，o1在推理能力上的提升有助于解决复杂逻辑问题，将进一步加速相关应用落地。

    o1的内部CoT过程大幅提升推理算力要求，对其提问次数限制更严格、定价更高，推理算力需求或将攀升。此次发布模型对用户提问次数有较大限制，Plus和Team用户可使用，o1-preview/o1-mini每周发送消息条数限制为30/50条。o1的模型定价为输入$15/1M tokens，输出$60/1M tokens；较gpt-4o输入$5/1M tokens，输出$15/1M tokens定价更高。

    训练方式采用强化学习加强CoT，scaling law是否依旧是模型主流迭代方向还需验证追踪。通过强化学习，o1能够改进其CoT过程，不断分解问题、纠错和尝试其他可行的解决办法，思考过程类似人类。随着强化学习（训练时间）的增加和思考（测试时间）的增加，o1 的性能会持续提高。这种提升性能的方式与scaling law扩大预训练规模的方式有所不同，强化学习+CoT或将成为模型迭代的新范式。

    风险提示：AI技术落地不及预期、数据更新不及时、安全风险等

计算机行业

声明：

风险提示：以上内容仅来自互联网，文中内容或观点仅作为原作者或者原网站的观点，不代表本站的任何立场，不构成与本站相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性，对此本站不做任何保证和承诺。

本站认真尊重知识产权及您的合法权益，如发现本站内容或相关标识侵犯了您的权益，请您与我们联系删除。

计算机行业-O1进展追踪与评测：REASONING能力究竟有多强？

推荐文章：

上港集团: 关于收到中国证监会《关于同意上海国际港务（集团）股份有限公司向专业投资者公开发行公司债券注册的批复》的公告

利亚德: 关于利德转债赎回实施的第七次提示性公告

本钢板材: 本钢板材股份有限公司关于预计触发可转换公司债券转股价格向下修正条件的提示性公告

利元亨: 广东利元亨智能装备股份有限公司关于实施“利元转债”赎回暨摘牌的第十一次提示公告

利元亨: 广东利元亨智能装备股份有限公司关于“利元转债”转股数额累计达到转股前公司已发行股份总额10%的公告

飞凯材料: 关于“飞凯转债”恢复转股的提示性公告

天汽模: 关于汽模转2赎回结果的公告

天汽模: 关于汽模转2摘牌的公告