计算机行业点评：具有视觉能力的多模态大模型将对视觉SOC和存储带来新需求

郑宏达 2024-12-15 10:44:13

2024-12-15 10:44:13 阅读

　　ChatGPT 升级视觉能力，迎来里程碑式的更新。OpenAI 发布季的第六天，5 月份预告的语音和视觉功能（Advanced Voice with Vision）终于发布。用户可以在对话过程中展示实时视频或共享屏幕。在OpenAI 的场景演示中，ChatGPT 能够“看”到并理解周围环境，与在场人员互动，甚至能精准地记忆名字和细节。同时，ChatGPT 现在亦能够查看用户的电脑屏幕，并提供即时建议和反馈。视觉能力的升级，让ChatGPT 突破了文本和语音的限制，迈入真正的多模态交互时代。这种能力在教育、工作和社交等领域都将具有广泛的应用潜力。

    　　交互型多模态大模型有望带来AI 应用的爆发。多模态更符合人类感知周边、探索世界的方式；而应用的本质是交互，应用发展的核心就是人机交互的不断进化与深化。大模型的终极形态，是让人机交互进化到最原始、最简单的形态，在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化，会极大降低AI 的使用门槛，交互型多模态大模型带来的这种更加直观、傻瓜的交互，有望带来大模型应用更大面积的普及。

    　　我们判断，国内模型厂商将在交互式多模态大模型领域着重发力。以字节为例，字节在生成式AI 领域采取“饱和式”攻击策略，目前已成为国内拥有最全生成式AI 模型、最多AI 应用的技术公司之一。模型端，字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI 模型，但仍缺少具有视觉能力的可交互多模态大模型。同时，以智能体耳机、智能玩偶、台灯为切入点，通过与生态伙伴的合作，字节在AI硬件端业已开始了布局。但同样受限于交互多模态模型的缺失，AI 硬件产品仍只能实现语音层级的交互。

    　　为什么我们持续看好视觉SoC 领域?我们一直认为视觉能力是大模型能力的核心，因为视觉输入占据人类交互信息的绝大多数。我们可以预期，未来字节亦有望推出带有视觉能力的交互式多模态大模型，因而在包括AI 玩具或AI 眼镜等的下一代AI 硬件终端中，视觉SoC 将有望成为标配。另外地，这也将新增对Nand 存储芯片的需求。

    　　推荐：1）视觉SoC：恒玄科技。相关公司：1）视觉SoC：星宸科技、安凯微。2）存储：东芯股份、普冉股份。

    　　风险提示：下游需求不及预期；新技术落地和商业化不及预期；宏观经济景气度不及预期。

视觉将对

声明：

风险提示：以上内容仅来自互联网，文中内容或观点仅作为原作者或者原网站的观点，不代表本站的任何立场，不构成与本站相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性，对此本站不做任何保证和承诺。

本站认真尊重知识产权及您的合法权益，如发现本站内容或相关标识侵犯了您的权益，请您与我们联系删除。

计算机行业点评：具有视觉能力的多模态大模型将对视觉SOC和存储带来新需求

推荐文章：

上港集团: 关于收到中国证监会《关于同意上海国际港务（集团）股份有限公司向专业投资者公开发行公司债券注册的批复》的公告

利亚德: 关于利德转债赎回实施的第七次提示性公告

本钢板材: 本钢板材股份有限公司关于预计触发可转换公司债券转股价格向下修正条件的提示性公告

利元亨: 广东利元亨智能装备股份有限公司关于实施“利元转债”赎回暨摘牌的第十一次提示公告

利元亨: 广东利元亨智能装备股份有限公司关于“利元转债”转股数额累计达到转股前公司已发行股份总额10%的公告

飞凯材料: 关于“飞凯转债”恢复转股的提示性公告

天汽模: 关于汽模转2赎回结果的公告

天汽模: 关于汽模转2摘牌的公告