计算机行业点评报告:字节发布全新AI数字人模型OMNIHUMAN 大模型变现可期
投资要点
字节跳动研究团队发布全新端到端多模态AI 数字人模型OmniHuman,能够将单一照片转换为逼真的动态视频,展示人物讲话、歌唱及自然动作。
采用基于DiT 架构的多模态运动条件混合训练策略,解决高质量数据稀缺问题与此前AI 数字人生成模型相比,OmniHuman 主要具有以下两大特点:
1) 输入多样性及视频驱动兼容性:传统AI 数字人模型或为基于姿势驱动人类动画或为基于音频驱动面部表情,而OmniHuman 可以基于单个人体图像和运动信号(例如,仅音频、仅视频或音频和视频的组合)生成人体视频,既支持音频驱动,也支持视频驱动,模仿特定视频中的动作,并且同时支持音频和视频结合驱动,控制特定的身体部位。此外,在输入多样性方面,OmniHuman支持卡通角色、人工物体、动物以及复杂的姿势,确保生成的动作特征与每种风格的独特特点相匹配。
2) 解决以往端到端方法因高质量数据稀缺而表现不佳的问题:此前的AI 数字人模型大多基于高度过滤的数据集训练,如音频条件模型通常会根据唇形同步精度进行进一步的数据清理、对姿势条件模型进行大量过滤裁剪清理,由于过滤过程种丢弃了大量数据,使得数据集扩展有效性降低,模型在有限场景中的适用性受到限制。OmniHuman 模型采用渐进式、多阶段训练方法,根据不同条件对运动的影响程度进行分阶段训练从而充分利用大规模、多样化数据,从而提升生成效果,使视频更加自然、流畅。
从评测结果而言,通过与多个已存在的模型定量对比,OmniHuman 算法在多项评估指标上展现出显著优势。
多厂商布局AI 数字人模型,有望引领多产业革新AI 数字人有望成为大模型商业化变现的有效路径,多家互联网大厂已基于AI 大模型进行了数字人布局,如腾讯打造腾讯智能、百度打造智能云曦灵平台、京东打造言犀、华为打造华为云盘古数字人大模型等,开源领域,支付宝开源了数字人项目EchoMimicV2,字节此前开源AI 数字人模型MimicTalk,京东开源JayHallo数字人项目等,目前AI 数字人已逐步在教育、直播、广告营销等领域实现商业化变现。
我们认为,数字人有望成为AI 大模型的服务入口,在帮助企业实现降本增效的同时,实现toB 服务在toC 侧的变现闭环。根据IDC 预计,到2026 年中国AI 数字人市场规模将达到102.4 亿元。
建议关注标的
AI 数字人应用:科大讯飞、金山办公、彩讯股份、焦点科技、鼎捷数智、泛微网络、拓尔思、迈富时、汉得信息、致远互联、金蝶国际等AI 垂类应用:三六零、万兴科技、昆仑万维、虹软科技、润达医疗、美图公司、商汤-W、同花顺、新致软件、恒生电子等
风险提示
AI 数字人技术迭代不及预期、AI 数字人商业化落地不及预期、政策不确定性风险
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: