软件及服务行业:人工智能十年展望(二十):细数2024大模型底层变化 推理优化、工程为王
投资建议
相比于2023 年的参数量快速扩张,2024 年以来大模型参数收敛、云侧和端侧模型参数量分化,模型迭代动力更多源于大模型应用落地、端侧部署的需求。基于此背景,推理性能优化、工程化改进均成为模型性能提升和成本降低的重要抓手。本文概览当前大模型科研领域2024 年的主要方向,旨在为大模型技术发展趋势、应用落地节奏研判提供底层视角支持。
理由
路径探索:以强化学习优化推理的Q-STaR。2024 年3 月,斯坦福研究团队提出自学推理者语言模型Quiet-STaR,技术上以强化学习的方法优化“显式中间推理”,提供内心独白式的自我反思机制,第一性原理视角模仿人脑的推理方式,提升推理性能并兼顾泛化能力。基于Mistral 7B模型进行评估,Quiet-STaR调整后的语言模型在零样本准确率大幅提升。
路径突破:原生端到端的海外探索与国内跟进。2023 年12 月至今,从Google Gemini到OpenAI GPT-4o,海外主流模型已从基于语言模型为主干的跨模态向端到端多模态切换,其技术实质是从语音切入端到端大模型,将语音为主的模态离散化为对应token直接训练和推理,保留多模态信息且降低时延。
算法创新:探索DeepSeek推理成本下降背后的算法创新。2024 年为应用推理主导之年,DeepSeek背靠量化私募幻方,以MLA多头潜在注意力和DeepSeekMoE算法创新,带来推理成本大幅下降。降价举措引发大模型多家厂商的降价潮,应用推广进入价格可及区间。
推理优化:从Apple模型进展看端侧产业趋势。Apple为端侧部署的风向标,细数Apple的科研成果,主要有三大方向,囊括基模型、内存和剪枝技巧:1)Apple Intelligence的模型基座AFM;2)LLM-in-a-flash基于闪存运行端侧模型;3)Apple和Meta合作的LazyLLM动态剪枝。
工程改进:细节铸就性能差异。1)以Mooncake为例的预填充与解码阶段架构分离;2)合成数据是后训练阶段实现性能突破的关键,通过强化学习+自对弈合成后训练数据,将数据驱动向推理计算密集型演进。Meta、英伟达、智谱、商汤已采用思维链或强化学习方式进行合成数据探索。
盈利预测与估值
维持相关公司盈利预测不变。
风险
AI技术迭代不及预期;AI商业化落地节奏不及预期。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: