AI系列跟踪(48):小模型高性能引领新潮流;国产多模态技术加速发展

高超/杨云祺 2024-07-23 08:30:51
机构研报 2024-07-23 08:30:51 阅读

事件描述

    多家厂商发布AI 小模型,7 月18 日OpenAI 官宣并上线小模型GPT-4o mini,相比GPT-3.5Turbo 在成本效益方面表现卓越;Hugging Face、Mistral AI、苹果等厂商近期亦相继推出了小语言模型。国内厂商在多模态方面不断演进,快手开源可控人像视频生成框架LivePortrait,能够将驱动视频的表情、姿态迁移到静态或动态人像视频上;字节近期展示在视频生成和3D 图像生成模型方面的一系列创新技术,包括单目深度估计基础模型Depth Aything、多视角条件扩散模型Magic-Boost、拖拽式图像编辑工具InstaDrag 等。

    事件评论

    轻量级与高效率结合,小模型应用场景广泛。1)OpenAI 小模型性价比优势凸显。性能层面,GPT-4o mini 上下文窗口为128K tokens,支持16K tokens 的输出,在文本智能和多模态推理方面的基准性能超越了GPT-3.5 Turbo 和其他小模型,并支持与GPT-4o 相同的语言范围;价格层面,GPT-4o mini 每百万输入tokens 为15 美分,每百万输出tokens为60 美分,比GPT-3.5 Turbo 便宜60%以上。此外,GPT-4o mini 目前在API 中支持文本和视觉模态,未来还将扩展到视频和音频的输入和输出。2)各大厂商接连发布小模型。

    HuggingFace 推出SmolLM,参数量从135M 到1.7B 不等,可在不同硬件上高效运行,适合多种应用场景。Mistral AI 和NVIDIA 联手推出Mistral NeMo 12B,模型具有广泛的多语言支持、高效的数据压缩和卓越的指令跟踪能力,或将成为研究人员和企业的强大工具。苹果发布DCLM-7B 开源模型,性能已超越Mistral-7B,并逼近Llama 3 和Gemma等领先的开源模型。3)小模型为广泛的设备和应用程序带来强大的语言处理能力。小模型的轻量化设计使其能够在计算资源受限的环境中快速部署和运行,同时保持相对较好的性能,从而在移动设备、物联网设备以及边缘计算等场景中具有广泛的应用前景。

    国产多模态大模型不断演进,有望加速应用落地。1)快手开源LivePortrait,实现表情姿态急速迁移。技术层面,模型训练分为基础模型训练以及贴合和重定向模块训练,提升了泛化能力和可控性。性能方面,在RTX4090 GPU 上,LivePortrait 的单帧生成速度能够达到12.8ms,优化后预计可达10ms 以内。LivePortrait 的相关技术点已在快手魔表、快手私信、快影的AI 表情玩法、快手直播、以及快手孵化的面向年轻人的噗叽APP 等诸多快手业务中落地,并获得了开源社区的广泛关注。2)字节展示视频生成和3D 图像生成模型方面的创新技术。DepthAything 能够从2D 图像中识别出深度信息图,将普通手机拍摄的2D 影像快速转3D,或将应用于XR 产业;Magic-Boost 能够在15 分钟内优化生成结果,保留复杂的纹理或几何结构,适用于电影视觉特效和AR 等场景;InstaDrag可以在约1 秒内完成高质量的拖拽式编辑,同时保留未编辑区域的特征。

    小模型因其轻量化和高效率在AI 领域迅速升温;国内厂商在多模态领域持续创新升级,展现出强大的技术实力和应用潜力。我们认为AI 技术及应用领域持续突破,建议持续关注AI 在广告、电商、影视、游戏和教育等各领域的商业化落地。

    风险提示

    1、AI 技术发展不及预期风险;

    2、内容监管风险。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。