计算机行业周报:智谱清影推动视频生成大模型普及
投资要点:
智谱AI 版Sora 清影发布,人人可用、半分钟快速创作视频的时代已来。7 月26日,智谱AI 旗下“智谱清言”APP 正式上线了AI 视频生成功能“清影”,向所有用户全量上线,无需预约,人人可用。清影理论上仅需30 秒即可完成6 秒1440×960 清晰度高精度视频的生成,展现出亮眼的推理速度,不仅具备高效的指令遵循能力,还具有内容的连贯性和调度灵活性,而可灵AI 生成5 秒视频一般耗时2-5分钟。清影同时支持文生视频与图生视频,视频风格覆盖卡通3D、黑白、油画、电影感等,并可配上音乐,生成更为灵动有质感的视频画面。此外,清影API 也同步上线大模型开放平台bigmodel.cn,企业和开发者可通过调用API 的方式体验视频生成模型能力,推动多模态大模型普及。
清影再次验证Scaling Law 在视频生成领域的能力,对齐多模态朝AGI 迈进。清影底座的视频生成模型是CogVideoX,并非完全照搬DiT 架构,更注重视频与其他模态的对齐融合。具体而言,清影采用将文本、时间和空间三个维度全部融合的transformer 架构,摒弃了传统的交叉注意力模块,而是在输入阶段就将文本embedding 和视频embedding 结合起来,以便充分交互两种模态。其中,注意力模块采用了3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们不仅增加了建模难度,同时无法与现有的高效训练框架适配;在内容连贯性上,智谱AI 自研3D VAE,将原视频空间压缩至2%大小,配合位置编码模块3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖;在指令跟随上,智谱AI 自研端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,从而能够更充分理解和执行用户给出的指令。
国内外类Sora 纷纷袭来,下游多模态应用爆发正在蓄能。根据APPSO 微信公众号统计,自Sora 发布以来,已有不下10 家公司推出了AI 视频新产品或大更新,在几个月内,AI 视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。这段时间,快手可灵AI 在全球开放内测;PixVerse 发布了V2 版本,支持一键生成1-5 段连续的视频内容;Runway Gen 3 Alpha 开启付费用户公测,细节的精致度和丝滑程度上均有提升;电影级视频生成模型Dream Machine,更新了首尾帧功能。视频生成模型已具备一定生产能力,各厂商通过低价或会员等机制努力吸引创作者,为下游多模态应用的爆发蓄能。以清影为例,文生视频、图生视频可灵活应用之广告制作、剧情创作、短视频创作等领域。国内首部AIGC 奇观剧《山海奇镜之劈波斩浪》,十余人的创作团队取代传统百人规模,大大缩短制作周期和成本,验证多模态大模型下游应用的前景。
投资建议。智谱清影人人可用的理念有望加速多模态大模型的普及,激发多模态应用创新活力,同时清影落地也离不开地方算力的支持。建议关注AI 多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;AI 算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码;AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。
风险提示:技术发展不及预期,商业模式不成熟、AI 伦理风险等。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: