计算机行业-O1进展追踪与评测:REASONING能力究竟有多强?
o1模型带来推理能力的大幅提升,在数学、编程和科学问题中表现最好,有望加速相关应用落地。OpenAI发布o1模型,开放o1-preview和o1-mini版本给用户,o1-preview版本推理能力更强,o1-mini速度更快,价格便宜80%。GPQAdiamond测试中,o1的表现超过了博士学位的人类专家;在我们的测试中,o1在推理类问题中表现普遍较4o更好,但在写作任务中表现接近。我们认为,o1在推理能力上的提升有助于解决复杂逻辑问题,将进一步加速相关应用落地。
o1的内部CoT过程大幅提升推理算力要求,对其提问次数限制更严格、定价更高,推理算力需求或将攀升。此次发布模型对用户提问次数有较大限制,Plus和Team用户可使用,o1-preview/o1-mini每周发送消息条数限制为30/50条。o1的模型定价为输入$15/1M tokens,输出$60/1M tokens;较gpt-4o输入$5/1M tokens,输出$15/1M tokens定价更高。
训练方式采用强化学习加强CoT,scaling law是否依旧是模型主流迭代方向还需验证追踪。通过强化学习,o1能够改进其CoT过程,不断分解问题、纠错和尝试其他可行的解决办法,思考过程类似人类。随着强化学习(训练时间)的增加和思考(测试时间)的增加,o1 的性能会持续提高。这种提升性能的方式与scaling law扩大预训练规模的方式有所不同,强化学习+CoT或将成为模型迭代的新范式。
风险提示:AI技术落地不及预期、数据更新不及时、安全风险等
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: