OPENAI直播跟踪(八):OPENAIO3系列推理模型发布 AI发展仍行以致远
o3 系列推理模型发布,在多个基准超越o1。当地时间12 月20 日(直播第十二天,也是最后一天),根据腾讯科技官微,OpenAI 正式发布了o3 系列模型(o2 由于可能存在的版权/商标冲突被跳过),包括o3 和o3-mini。o3 是一个非常强大的模型,在编码、数学以及ARC-AGI 基准测试等多个基准上超过了此前的o1 模型(o1 得分25%,o3 得分87.5%)。o3-mini 是o3 更经济高效且性能导向的版本,在成本和延迟方面比o1-mini 低得多,同时提供类似的功能。
o3 在多个领域测试中表现优异。SWE-Bench 测试:71.7%——o1 得分48.9%;Codeforces 评分:2727——相当于全球人类程序员编码竞赛中,排名第 175位;AIME:96.7%——意味着在数学测试中只错1 道题;博士水平的科学问题(GPQA):87.7%——博士生一般得分70%;最难的前沿数学测试:25.2%——其他模型没有超过2%,数学天才陶哲轩说该测试“可能难住AI 好几年”;ARC-AGI:87.5%——o1 得分25%。
o3 编程实力强大,CodeForces 评分超越大部分人类。在全球顶尖的编程竞赛平台CodeForces 上,o3 系列模型展现了其卓越的编程能力。o3 在CodeForces中的评分高达2727,超越了大部分人类程序员。目前,只有不到200 名顶级人类程序员能达到或超过这一评分。这一成绩不仅证明了o3 在编程任务上的强大实力,也显示了其在解决复杂算法问题时接近甚至超越人类的潜力。
o3 在ARC-AGI 测试中远超o1 水平。ARC-AGI(人工通用智能评估基准)测试旨在评估AI 系统在面对未见过的新任务时的适应能力,其核心在于其设计的任务往往需要深度逻辑推理和创新思维,这使得它成为评估AI 系统通用智能能力的重要工具。o3 系列在这一测试中取得了显著的成绩,在高算力配置下,o3达到了87.5%的得分,而在低算力配置下也取得了75.7%的优异成绩。这一成绩远超o1 系列,后者在同一测试中的得分仅为25%。
o3 数学能力突出,打破EpochAI Frontier Math 测试记录。EpochAI FrontierMath 测试被誉为当今最具挑战性的数学基准测试之一,涵盖了最新的前沿数学问题。著名数学家陶哲轩(Terence Tao)对此评价道:“这项测试可能会让AI难住好几年。”然而,o3 在这一测试中突破了以往的记录,解决了25.2%的问题,而其他模型的得分均未超过2%。这一成绩不仅证明了o3 在数学推理方面的强大能力,也展示了其在处理高度复杂和抽象问题时的潜力。
我们认为,o3 是推理模型的重要进展,2024 年9 月,OpenAI 发布o1,12 月5 日(直播第一天),OpenAI 又官宣了o1 Pro,然后在半个月后的12 月20 日,o3 正式发布。o3 强大的技术水平已经说明,目前AI 已经在部分细分领域实现“超越绝大部分人类”这一目标,AI 的实用性已经得到了验证。而且,从过去几年GPT 系列模型在ARC-AGI 测试该测试的分数来看,AI 的发展远远还没有到“停滞”的状态:GPT-2 (2019): 0%;GPT-3 (2020): 0%;GPT-4 (2023): 2%;GPT-4o (2024): 5%;o1-preview (2024): 21%;o1 high (2024): 32%;o1 Pro(2024): ~50%;o3 tuned low (2024): 76%;o3 tuned high (2024): 87%。
我们判断,OpenAI 十二天的直播,更像是一次信号,让我们了解到AI 的可用性、易用性以及好用性以外,也彰显了AI 未来巨大的潜力,让我们相信,也许我们真在亲身经历着新一轮名为“AI”的技术革命,AI 的发展,仍行以致远。
建议关注:金山办公、新致软件、汉得信息、合合信息、万兴科技、虹软科技、新国都、当虹科技、同花顺、福昕软件、泛微网络、致远互联、三六零、商汤-W、科大讯飞、迈富时、鼎捷数智、赛意信息、中国软件国际、海康威视、大华股份、润泽科技、浪潮信息。
风险提示:AI 技术发展不及预期,AI 应用落地不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: