GENAI系列报告之37:CLAUDE3.5重磅升级 AGENT能力再突破!
事件:北京时间2024 年10 月23 日,Anthropic 发布Claude3.5 Haiku 和全新升级版Claude 3.5 Sonnet。除了推理能力大幅提升超过OpenAI o1 外,此次重点展现了大模型Agent 能力,能够像人类一样操作计算机。Anthropic 开发者关系主管Alex Albert 表示,计算机使用是全新人机交互范式的第一步,也是AI 模型应该具备的全新基础能力。
全新人机交互范式,Agent 时代到来。新发Claude3.5 Sonnet 重点展示模仿人类使用电脑的能力。其背后工作原理是:1)大模型对屏幕截图;2)理解图片内容;3)确定需要采取的行动;4)执行。基于以上,新版Claude3.5 能够根据用户需求执行复杂任务。Agent 执行操作复杂多步骤任务时代到来,相较过往定制化工具执行特定任务模式,更泛化、更实用地渗透到用户日常工作和生活中。过去市场认为目前大部分大模型的功能较浅薄,用户渗透率低,而此次的突破性展示有望能够弥补以上缺陷。
推理能力大幅提升,成本和运行速度不变。实现上述计算机使用能力的重点是复杂推理能力和图片理解能力的提升。新版3.5 Sonnet 在高阶推理、图表理解、智能体工具使用能力达到领先。目前升级版Claude3.5 Sonnet 在网页、终端APP 上已开放使用。
性能提升,价格不变。Claude3.5 Sonnet 性能突破并保留了和前代版本相同的价格和运行速度,Claude 3.5 Haiku 则更实惠。
效果仍有限,但未来可期。1)目前Claude3.5 Sonnet 在OSWorld 能力评估上虽得分第一,但人类水平通常在70-75%,仍有较大差距,但我们认为当前发布展现了未来大模型更广泛的应用空间。2)安全性考虑,我们认为目前距离C 端用户能够用大模型对互联网和计算机中所有软件进行操作可能还有距离,但对B 端特定软件、数据库等授权后通过大模型自主操控有望更快落地和渗透。
近阶段大模型启示:1)大模型进入Agent 爆发时代:随着大模型图像理解能力、推理能力提升,目前Agent 已在生产力场景、端侧等逐渐开始出现。2)利好推理端算力需求:Agent 时代下推理端的算力有望倍增,英伟达首席执行官黄仁勋认为,随着推理链的出现,推理的规模预计将迎来千万倍乃至十亿倍的增长。3)应用方面围绕解决复杂任务能力,主要利好科学研究、编程软件开发、办公软件、医疗健康、金融。
相关标的:科大讯飞、金山办公、泛微网络、同花顺、润达医疗、虹软科技、福昕软件。
风险提示:大模型技术中美仍存在差异;LLM 商业变现能力仍需要验证;scaling law在训练领域的效果和GPT-5 实际迭代情况仍需要关注。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: