计算机行业点评:AIAGENT-人机交互新范式
事件概述
据智谱微信公众号,公司发布在自主智能体领域最新人机交互范式——基于CogAgent 以及AutoGLM-Web 架构,可让AI 接受指令并自主操控手机的AI Agent,目标为实现模仿人类的 Plan-Do-Check-Act 循环,形成自我反馈和自我提升,为迈向AGI 愿景夯实基础。
核心观点
AI Agent 底层原理:使用VLM 与GUI 交互,效果与效率双升据《Lightweight Neural App Control》(Huawei Noah’s Ark Lab 等,2024.10)及《CogAgent: A Visual Language Model for GUI Agents》(WenyiHong 等,2023.12),当前来看,智谱,华为等行业领先厂商多应用VLM(视觉语言模型)执行人机交互程序。大语言模型虽擅长处理文字生成等任务,但在理解与交互GUIs(图形交互界面)方面存在短板,同时大语言模型运算时间及调用成本都相对较高,基于GPT-4o 的AIAgent 单任务运行时间需约1-2 分钟,单任务平均运行成本高达1 美元。相比之下,VLM 模型直接感知视觉信号,阅读及编程能力得到显著强化。参数量方面,CogAgent 的VLM 为18B,而华为诺亚方舟研究院LiMAC 模型所调用VLM 仅约500M,小模型亦有效减少了算力需求,加快了运行效率,LiMAC 模型将单任务执行速度提升至约3 秒。
国内外AI Agent 密集发布,端侧AI 趋势明确
据澎湃新闻及IT 之家,10/21,微软公司宣布推出一系列人工智能自动代理(Autonomous Agents),旨在帮助企业员工在销售、客户支持、财务等领域更好完成任务;10/23,Anthropic 推出了升级版的 Claude3.5 Sonnet,其全新功能 computer use,支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息;10/23,荣耀 MagicOS 9.0 升级“YOYO 智能体”AI 功能,可实现“一句话点外卖”等操作。
从发展阶段看,AI 已经顺利完成赋能云厂商等科技平台公司的初级阶段,正逐步实现向终端用户渗透的关键跃迁。考虑到端侧AI 相对更贴近场景需求,我们认为更多类似功能的智能体应用有望涌现,以打通客户指令与终端执行之间“最后一公里”,有望带动端侧AI 渗透率提升。
AI Agent 或将掌握移动互联新入口,流量分发格局有望重塑AI Agent 智能体因具备较强交互性以及便利性,或可打通原先同个终端不同App 之间的天然壁垒,我们认为智能体的默认调用顺序(类似于搜索引擎的竞价排名)或将具备较高商业化价值。
投资建议
AI Agent 趋势明确,考虑到端侧模型趋于轻量化,AI 云侧算力需求预计仍可观,建议关注AI 算力相关公司,标的方面建议关注云赛智联、润泽科技等。
风险提示
产业发展不及预期、政策推进力度不及预期、国产替代不及预期
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: