AI产业速递:GEMINI2.0 FLASH THINKING及O3发布 推理能力提升有望加速AI应用落地

宗建树 2024-12-22 00:00:00
股市要闻 2024-12-22 00:00:00 阅读

事件描述

    12 月20 日,Google 推出 Gemini 2.0 Flash Thinking,该模型基于谷歌的Gemini 系列,将与OpenAI 的o1 模型竞争。12 月21 日,在“12 Days of OpenAI”的最后一天,OpenAI 推出了o3 和o3-mini 推理系列模型。

    事件评论

    性能大幅提升,在部分场景下或将接近AGI。Gemini 2.0 Flash Thinking 和o3 均在模型推理能力上大幅提升。Gemini 2.0 Flash Thinking 模型登顶了Chatbot Arena 排行榜,在编程、数学、创意写作等各项评测任务上都是第一名,同时有能力理解和解答诸如三赌徒问题等非常困难的问题。o3 在ARC-AGI 基准测试中,获得了87.5%的分数(高计算设置),同时在SWE-Bench Verified 编程任务基准测试、Codeforces 编程技能测试、2024年美国数学邀请赛等多项测试中也表现出色。推理大模型或在某些场景展现出接近AGI的能力,有望加速AI 应用落地。

    分步拆解推理过程,思维链或是推理模型关键。谷歌在其2022 年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出提出使用思维链提示(Chain-of-thought Prompting)可以有效提升大语言模型的推理能力。o3 使用了“私人思想链”(private chain of thought)进行“思考”,可以考虑相关提示并解释其推理过程,从而总结出最准确的答案。Gemini 2.0 Flash Thinking 也利用了思维链提高了推理能力。思维链技术有望帮助模型在处理复杂推理任务时,提升模型的推理能力和可解释性,从而成为推理模型的关键。

    海外大厂新品密集发布,AI 军备竞赛仍在持续。OpenAI 在其“12 Days of OpenAI”活动中,发布了改进的OpenAI o1 推理模型、文本到视频AI 生成器Sora、适用于所有用户的ChatGPT Search、o3 和o3-mini 推理系列模型等一系列新产品和功能;谷歌也在此期间发布了量子芯片 Willow、Gemini 2、3D 世界模型Genie 2、Veo 2 视频生成模型和推理模型Gemini 2.0 Flash Thinking。此外,Meta 也携手斯坦福大学,推出了全新AI 模型系列Apollo。海外大厂近期的密集发布或说明其在AI 领域的储备及发展进度或超出市场预期,AI 技术演进有望进一步加速。

    AI 新产品密集发布,AI 应用有望加速进入落地阶段。Gemini 2.0 Flash Thinking 及o3 的发布在一定程度上展示了大模型在推理能力的进步,同时,大厂间的良性竞争有望推动AI大模型快速迭代升级,并驱动AI 应用加速落地。建议关注(1)AI Agent 逐渐成熟,建议关注陪伴机器人、个人助理、企业助理场景的持续进展;(2)兼具场景&技术优势的垂类厂商,享受技术&工具逐渐完善下的场景升级红利;(3)建议关注技术优势厂商,以多模态为代表,有望深入更多场景拓宽业务边界,重点关注国产大模型领军企业:科大讯飞。

    风险提示

    1、AI 技术发展不及预期;

    2、下游应用需求不及预期。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。