通信行业点评报告:OPENAIO1模型来临 RL助力模型提升推理能力

蒋颖 2024-09-13 16:29:16
机构研报 2024-09-13 16:29:16 阅读

  OpenAI 发布o1-preview 和o1-mini 模型,推理能力显著提升

    北京时间2024 年9 月13 日,OpenAI 发布新一代o 系列模型o1 以及o1-mini,在模型训练时引入大规模reinforcement learning(RL),随着训练时计算(train-timecompute)时间的增加以及推理(test-time compute)时间的延长,o1 模型性能持续提升。通过RL 训练,o1 模型在推理时使用思维链(Chain of Thought)的方式解决问题,能够将复杂问题分解成多个简单步骤,并即时识别和纠正错误,显著提升了模型的推理能力。在最大化推理时间的前提下,o1 在绝大多数推理密集型任务中性能显著优于GPT-4o,模型测试结果显示,57 个MMLU 子类别中,o1在54 个子类别中的表现优于 GPT-4o,性能可与人类专家媲美。

      o1 模型尚未单独定价,计划为chatgpt 免费用户提供o1-mini 使用权限

    从推理成本上看,o1 模型主要在大型文本数据集上预训练,推理成本较高且速度较慢,o1-mini 模型在预训练阶段争对STEM 推理进行优化,尤其擅长数学及代码领域,模型参数较小且延时推理较低,推理成本比OpenAI o1-preview 低80%。目前,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的o1 系列模型,Enterprise 和 Edu 用户将在下周开启访问,OpenAI 当前仅在ChatGPT 和API 中提供模型预览版本,未来将上线浏览、文件和图像上传以及其他功能,未来将为ChatGPTFree 用户提供o1-mini 使用权限。o1 模型并未额外定价,但使用存在限制,o1-preview 模型的每周使用限制为 30 条消息,o1-mini 的每周使用限制为 50 条消息。

      推理技术迎来革新,或将是AI 大语言模型发展重要拐点

    OpenAI 表示除了新的OpenAI o1 系列之外,仍在继续开发GPT 系列模型。我们认为早期AI 大语言模型性能提升主要凭借Scaling law,在语料数据集以及模型参数持续提升的情况下,模型的性能持续突破,而本次o1 系列模型问世,代表着模型能通过RL 在除开训练侧之外的推理侧,引入思维链等新技术的方式提升模型的性能,为科学、数学、编码等专业领域提供更准确的答案,或是生成式AI 发展的重要拐点。

      AI 大模型持续迭代,国内外云巨头持续增加对AI 基础设施的资本开支,我们持续看好算力产业链。推荐标的:宝信软件、中际旭创、英维克、新易盛、天孚通信、中兴通讯、盛科通信;受益标的:润泽科技、源杰科技、华工科技、紫光股份、光迅科技、华丰科技、网宿科技、烽火通信、云赛智联等。

      风险提示:AI发展不及预期、智算中心建设不及预期、行业竞争加剧。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。