计算机行业专题报告:AI操作系统时代已至

杨烨/李宇轩 2024-12-02 08:49:21
机构研报 2024-12-02 08:49:21 阅读

  AI+OS,操作系统级Agent 开启人机交互革命。AI 赋能OS,操作系统级Agent 由于其C 端入口特性,有望成为首个“爆款”AI 应用。当前市场中长期缺乏“爆款”AI 应用,我们认为主要系C 端大众对AI 的感知度仍然较低,尽管有大量可下载、可付费的AI 应用存在,但从广大用户体验来讲,各类AI 软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo 等,以及PC 端联想等厂商上新操作系统级Agent 作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫”体验接受新的操作范式,有望打造首个“爆款”AI 应用,由此将带动AI 端侧硬件需求涌现,以及刺激软件内部AI 功能快速迭代。

      建立交互数据集,深耕Post-Training,获得“从Chat 走向Act”通用Agent 能力。智谱的Agent 能力主要来源于其底层大模型的训练与迭代:

      CogAgent 是18B 参数的视觉语言模型(VLM),专门用于GUI 理解和导航,基于视觉语言模型CogVLM 并结合高分辨率交叉模块,实现了高效GUI 推理;AutoWebGLM 通过简化HTML 增强网页阅读能力,添加人类与AI 混合方法构建的网络浏览数据集进行微调,大幅提升大语言模型的Agent 能力;AutoGLM 实现图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作,与人类表现差距进一步缩小。我们认为,智谱克服了当前Agent 训练的堵点,通过建立网页浏览交互数据集,以及在强化学习、微调阶段进行算法创新,实现了在大语言模型上操作系统级Agent 突破。

      GLM 多端Agent 家族,打造手机、PC、汽车等终端交互入口。(1)GLM-Phone:可实现跨APP 操作、支持超长任务流程、支持更多主流APP,针对手机端应用提供了新的解决方案,显著扩展了其在手机端的应用场景和操作能力;(2)GLM-PC:办公领域将迎来生产力跃升,GLM-PC 可实现会议替身、文档处理、网页搜索与总结、远程和定时操作等;(3)GLM-Car&More:

      Agent 为AI 终极形态,加速万物智能、万物互联,未来Agent 有望渗透至各类智能设备,落地AI 原生设备,实现设备主动服务用户。

      风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。