AI应用行业周报:计算机智谱端侧AGENT升级 继续看好AI应用
本期投资提示:
事件:2024 年11 月29 日,智谱Openday 发布AutoGLM 新进展、AutoGLMWeb、GLM-PC、以及全球首个UI Agent 视觉基座模型,展示AI Agent 在手机、网页、电脑端的新交互方式,进一步推动国内端侧AI Agent 落地。目前AutoGLM 启动大规模内侧,预计将尽快上线成为面向C 端用户的产品。
AutoGLM 升级,支持完成复杂度更高任务。1)超长任务:理解和执行超长任务指令;2)跨App 协同:支持跨App 任务;3)短口令:支持长任务自定义短语;4)随便模式:AutoGLM 支持随便模式下自主决策。
首次展示类人计算机使用能力,包括Web 插件和PC 端侧。1)AutoGLM 插件上线,支持百度搜索、微博、知乎、GitHub 等数十个网站的自动操作能力。2)PC 端侧使用能力支持一句话操控电脑,完成网页浏览、微信文件发送、参加会议、发送会议总结等。目前仍处于产品初期阶段,需要非常精准的prompt,操作速度较慢以及仅支持Mac,有较大提升空间。
目前实现方式仍是通UI 模拟用户操作进行,图像和语言特征理解是关键技术。智谱GLM-PC 的拟人多模态感知主要基于自研CogAgent 视觉语言模型技术,用于理解和导航GUI,即通过跨注意力机制,将高分辨率图像特征和语言特征融合,理解识别页面元素,例如按钮、图表和文本位置等,模仿人类交互的方式进行操作。
AutoGLM、GLM-PC 启示:大模型强调推理后的能力水平,或足够支撑部分应用涌现:
1、 复杂行为规划能力大幅提升下,大模型已经初步具备模仿人类使用端侧设备的能力。以OpenAI O1 大模型、Claude3.5 大模型等为代表,AI 大模型应用从简单对话生成时代到Agent 执行操作复杂多步骤任务时代。
2、当前仍处于Agent 早期阶段,产品最终形态远未达到。根据OpenAI 提出的5 个阶段,当前正处于推理器到Agent 的步入期。我们认为当前以通过读取UI 界面模拟用户点击的方式仍是暂时过度路径,后续Agent 产品迭代是底层模型能力、APP 生态、端侧算力共同努力的结果。
3、2025 预计是AI Agent 元年,预期将催生更多AI 应用。Gartner 将AI Agent 列为2025 年十大技术趋势之一,预测到2028 年,至少有15%的日常工作决策由代理式AI自主完成。24 年底-25 年期待OpenAI、谷歌、微软等头部AI 企业的陆续发布。
计算机相关标的:1)Agent B 端落地:泛微网络、鼎捷数智;2)Sora 和多模态:万兴科技、虹软科技;3)AI 教育:科大讯飞;4)AI 办公:金山办公、福昕软件;5)AI金融:新致软件;6)AI 医疗:润达医疗。
风险提示:宏观环境不确定性带来风险;AI 技术发展不及预期;公司无法及时适应AI时代变革,在竞争中处于不利地位的风险;反垄断诉讼带来不利影响的风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: