AI产业速递(31):彻底改变语言模型 全新架构TTT有望超越TRANSFORMER

宗建树 2024-07-16 08:30:28
机构研报 2024-07-16 08:30:28 阅读

事件描述

    近日,斯坦福、UCSD、UC 伯克利和Meta 的研究人员提出了一种名为测试时间训练层(Test-Time-Training layers,TTT)的全新架构,用机器学习模型取代RNN 的隐藏状态,其性能有望超越Transformer 和Mamba 架构。

    事件评论

    利用测试时训练(Test-Time Training,TTT)层,大模型可以具有线性复杂度和更强的隐藏状态。传统的大模型架构中,Mamba 的RNN 层会随着时间的推移压缩成一个固定大小的状态,虽然效率很高,但性能受限于其表达能力;Transformer 使用自注意力机制,其KV 缓存会随着时间的推移不断增长,计算成本随上下文长度线性增长。TTT 架构使用新的序列建模层,其中隐藏状态是一个模型,更新规则是自监督学习的一个步骤,从而既保持了线性复杂度,又增强了表达能力。

    TTT 架构下,大模型性能有望超越Transformer。据测试,在大模型参数量为1.3B(Mamba是1.4B)的情况下,使用TTT 架构的TTT-Linear 性能始终好于Mamba 架构,同时随着上下文长度的提升,计算成本将远小于Transformer 架构。因此,TTT 架构有望解决Transformer 对于长序列计算成本过高的问题。

    海外技术持续迭代,国产大模型同步更新。近年来,我国人工智能产业也紧跟世界产业趋势,进入高速发展阶段。根据国家网信办数据,截至2024 年3 月,已有117 家“大模型”成功备案,同时,国内大模型能力与海外的差距已显著缩小,部分厂商针对细分领域的垂类大模型的性能已达到海外大模型水准。6 月27 日发布的讯飞星火V4.0 在文本生成、语言理解、知识问答、逻辑推理、数学能力等维度全面超越GPT-4 Turbo,代码与多模态能力也大幅提升。

    大模型技术持续快速迭代,AI 产业维持高景气度。当前时点,各种大模型架构及相关技术仍处于快速迭代阶段,进而推动大模型能力向AGI 方向演进。随着大模型能力的逐步提升,其商用化应用时点或将临近,算力作为AI 产业基础设施仍将最先受益。建议关注国产大模型龙头企业:科大讯飞,以及国产算力产业链龙头企业和神州数码。

    风险提示

    1、AI 技术发展不及预期;

    2、AI 模型下游需求不及预期。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。