计算机:AI产业速递:LLAMA4正式发布 开源模型迈向原生多模态新纪元
事件描述
美国时间4 月5 日,Meta 发布最新模型系列Llama 4,该系列分别包括Llama 4 Scout、Llama4 Maverick 和 Llama 4 Behemoth。其中Llama 4 Scout 拥有170 亿激活参数和16 位专家,总参数量为1090 亿;Llama 4 Maverick 拥有 170 亿激活参数和128 位专家,总参数量4000亿;Llama 4 Behemoth 是Meta 目前能力最强大的LLM 模型之一,拥有2880 亿激活参数和16 位专家,总参数量2 万亿,Llama 4 Scout、Llama 4 Maverick 由其知识蒸馏而来。
事件评论
亮相即登顶开源模型排名榜单,Meta 首批MoE 架构模型。Llama 4 系类是Llama 系列模型中第一批使用MoE 构建的模型。Llama 4 Scout 拥有170 亿激活参数和16 位专家,总参数量为1090 亿;Llama 4 Maverick 拥有 170 亿激活参数和128 位专家,总参数量4000 亿;Llama 4 Behemoth 拥有2880 亿激活参数和16 位专家,总参数量2 万亿。
Meta 使用使用交替的密集层和混合专家(MoE)层来提高推理效率,效果上Llama 4 Scout可以在单张H100 GPU 上实现部署,Llama 4 Maverick 可以在在单个H100 DGX 主机上运行。同时训练上开发了新的训练技术MetaP,可以设置关键模型超参数,比如每层的学习率和初始化尺度,使得所选的超参数能在批量大小、模型宽度、深度和训练token 的不同值之间很好地扩展和泛化。并且利用FP8 精度进行训练,在不牺牲质量并确保模型FLOPs 的高利用率。
预训练进行原生多模态融合、后训练采用iRoPE 架构获得超长上下文支持,重新定义开源大模型的技术边界。Llama 4 模型基于原生多模态进行设计,采用了早期融合技术,以便将文本和视觉标记无缝集成到一个统一的模型主干中。早期融合是向前迈出的重要一步,是模型能够利用大量未标记的文本、图像和视频数据对模型进行联合预训练。Meta团队还对Llama 4 中的视觉编码器进行了改进。该编码器基于MetaCLIP,但与一个冻结的 Llama 模型一起单独进行训练,以使编码器能更好地适配大语言模型。后训练中团队提出课程策略,与单个模式专家模型相比减少牺牲性能,即轻量级监督微调(SFT)>在线强化学习(RL)>轻量级直接偏好优化 (DPO),减少由于SFT 和DPO 可能会过度约束模型,而限制在线强化学习阶段的探索,并导致精度降低。并且采用iRoPE 架构,使用交错注意力层,而无需位置嵌入,采用了注意力推理时间温度缩放来增强长度泛化,长上下文支持再上一个台阶,Llama 4 Scout 可以支持10M 上下文窗口。
模型侧持续加速迭代,开源模型突破后,闭源模型衔接继续引领技术变革,加速今年应用落地。今年以来DeepSeek 系列以及Llama 4 等系列模型的发布进一步降低了应用落地的门槛,上下文窗口支持逐步拉长、推理成本逐步降低,引领应用探索景气度持续提升。
同时模型的迭代尚未降速,后续闭源代表厂商亦将发布新进展,4 月4 日,Sam Altman宣布在几周后将发布o3 和o4 mini,GPT-5 也将在几个月后发布。今年为模型逐步成熟以及AI 应用落地元年,建议关注相关投资机遇。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: