计算机行业点评:具有视觉能力的多模态大模型将对视觉SOC和存储带来新需求
ChatGPT 升级视觉能力,迎来里程碑式的更新。OpenAI 发布季的第六天,5 月份预告的语音和视觉功能(Advanced Voice with Vision)终于发布。用户可以在对话过程中展示实时视频或共享屏幕。在OpenAI 的场景演示中,ChatGPT 能够“看”到并理解周围环境,与在场人员互动,甚至能精准地记忆名字和细节。同时,ChatGPT 现在亦能够查看用户的电脑屏幕,并提供即时建议和反馈。视觉能力的升级,让ChatGPT 突破了文本和语音的限制,迈入真正的多模态交互时代。这种能力在教育、工作和社交等领域都将具有广泛的应用潜力。
交互型多模态大模型有望带来AI 应用的爆发。多模态更符合人类感知周边、探索世界的方式;而应用的本质是交互,应用发展的核心就是人机交互的不断进化与深化。大模型的终极形态,是让人机交互进化到最原始、最简单的形态,在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化,会极大降低AI 的使用门槛,交互型多模态大模型带来的这种更加直观、傻瓜的交互,有望带来大模型应用更大面积的普及。
我们判断,国内模型厂商将在交互式多模态大模型领域着重发力。以字节为例,字节在生成式AI 领域采取“饱和式”攻击策略,目前已成为国内拥有最全生成式AI 模型、最多AI 应用的技术公司之一。模型端,字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI 模型,但仍缺少具有视觉能力的可交互多模态大模型。同时,以智能体耳机、智能玩偶、台灯为切入点,通过与生态伙伴的合作,字节在AI硬件端业已开始了布局。但同样受限于交互多模态模型的缺失,AI 硬件产品仍只能实现语音层级的交互。
为什么我们持续看好视觉SoC 领域?我们一直认为视觉能力是大模型能力的核心,因为视觉输入占据人类交互信息的绝大多数。我们可以预期,未来字节亦有望推出带有视觉能力的交互式多模态大模型,因而在包括AI 玩具或AI 眼镜等的下一代AI 硬件终端中,视觉SoC 将有望成为标配。另外地,这也将新增对Nand 存储芯片的需求。
推荐:1)视觉SoC:恒玄科技。相关公司:1)视觉SoC:星宸科技、安凯微。2)存储:东芯股份、普冉股份。
风险提示:下游需求不及预期;新技术落地和商业化不及预期;宏观经济景气度不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: