OPENAI直播跟踪(八)：OPENAIO3系列推理模型发布 AI发展仍行以致远

证券之星 2024-12-27 11:12:24

2024-12-27 11:12:24 阅读

　　o3 系列推理模型发布，在多个基准超越o1。当地时间12 月20 日（直播第十二天，也是最后一天），根据腾讯科技官微，OpenAI 正式发布了o3 系列模型（o2 由于可能存在的版权/商标冲突被跳过），包括o3 和o3-mini。o3 是一个非常强大的模型，在编码、数学以及ARC-AGI 基准测试等多个基准上超过了此前的o1 模型（o1 得分25%，o3 得分87.5%)。o3-mini 是o3 更经济高效且性能导向的版本，在成本和延迟方面比o1-mini 低得多，同时提供类似的功能。

    　　o3 在多个领域测试中表现优异。SWE-Bench 测试：71.7%——o1 得分48.9%；Codeforces 评分：2727——相当于全球人类程序员编码竞赛中，排名第 175位；AIME：96.7%——意味着在数学测试中只错1 道题；博士水平的科学问题（GPQA）：87.7%——博士生一般得分70%；最难的前沿数学测试：25.2%——其他模型没有超过2%，数学天才陶哲轩说该测试“可能难住AI 好几年”；ARC-AGI：87.5%——o1 得分25%。

    　　o3 编程实力强大，CodeForces 评分超越大部分人类。在全球顶尖的编程竞赛平台CodeForces 上，o3 系列模型展现了其卓越的编程能力。o3 在CodeForces中的评分高达2727，超越了大部分人类程序员。目前，只有不到200 名顶级人类程序员能达到或超过这一评分。这一成绩不仅证明了o3 在编程任务上的强大实力，也显示了其在解决复杂算法问题时接近甚至超越人类的潜力。

    　　o3 在ARC-AGI 测试中远超o1 水平。ARC-AGI（人工通用智能评估基准）测试旨在评估AI 系统在面对未见过的新任务时的适应能力，其核心在于其设计的任务往往需要深度逻辑推理和创新思维，这使得它成为评估AI 系统通用智能能力的重要工具。o3 系列在这一测试中取得了显著的成绩，在高算力配置下，o3达到了87.5%的得分，而在低算力配置下也取得了75.7%的优异成绩。这一成绩远超o1 系列，后者在同一测试中的得分仅为25%。

    　　o3 数学能力突出，打破EpochAI Frontier Math 测试记录。EpochAI FrontierMath 测试被誉为当今最具挑战性的数学基准测试之一，涵盖了最新的前沿数学问题。著名数学家陶哲轩（Terence Tao）对此评价道：“这项测试可能会让AI难住好几年。”然而，o3 在这一测试中突破了以往的记录，解决了25.2%的问题，而其他模型的得分均未超过2%。这一成绩不仅证明了o3 在数学推理方面的强大能力，也展示了其在处理高度复杂和抽象问题时的潜力。

    　　我们认为，o3 是推理模型的重要进展，2024 年9 月，OpenAI 发布o1，12 月5 日（直播第一天），OpenAI 又官宣了o1 Pro，然后在半个月后的12 月20 日，o3 正式发布。o3 强大的技术水平已经说明，目前AI 已经在部分细分领域实现“超越绝大部分人类”这一目标，AI 的实用性已经得到了验证。而且，从过去几年GPT 系列模型在ARC-AGI 测试该测试的分数来看，AI 的发展远远还没有到“停滞”的状态：GPT-2 (2019): 0%；GPT-3 (2020): 0%；GPT-4 (2023): 2%；GPT-4o (2024): 5%；o1-preview (2024): 21%；o1 high (2024): 32%；o1 Pro(2024): ~50%；o3 tuned low (2024): 76%；o3 tuned high (2024): 87%。

    　　我们判断，OpenAI 十二天的直播，更像是一次信号，让我们了解到AI 的可用性、易用性以及好用性以外，也彰显了AI 未来巨大的潜力，让我们相信，也许我们真在亲身经历着新一轮名为“AI”的技术革命，AI 的发展，仍行以致远。

    　　建议关注：金山办公、新致软件、汉得信息、合合信息、万兴科技、虹软科技、新国都、当虹科技、同花顺、福昕软件、泛微网络、致远互联、三六零、商汤-W、科大讯飞、迈富时、鼎捷数智、赛意信息、中国软件国际、海康威视、大华股份、润泽科技、浪潮信息。

    　　风险提示：AI 技术发展不及预期，AI 应用落地不及预期。

模型系列

声明：

风险提示：以上内容仅来自互联网，文中内容或观点仅作为原作者或者原网站的观点，不代表本站的任何立场，不构成与本站相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性，对此本站不做任何保证和承诺。

本站认真尊重知识产权及您的合法权益，如发现本站内容或相关标识侵犯了您的权益，请您与我们联系删除。

OPENAI直播跟踪(八)：OPENAIO3系列推理模型发布 AI发展仍行以致远

推荐文章：

浙江鼎力(603338)：高机行业领军企业产品力领先助力海外加速拓展

2025年策略报告：全球ESG政策动态与市场趋势

2024中国新能源智能汽车行业产业链出海战略研究报告：开启新出海全球化3.0时代

电力设备行业报告(33)：智算带来数据中心投资需求配套电气设备值得关注

电子设备行业2025年度投资策略：AI创新推动云&端共振上行自主可控领域向卡脖子环节攻坚

基金研究系列(32)：风起于青萍之末成长风格产品全景透视及布局展望

风电行业趋势洞察：能源新纪元系列

低空经济行业：2024年低空经济发展研究报告