计算机行业专题报告:豆包大模型更新至1.5-PRO 更真实、更懂你
Doubao-1.5-pro 实现7 倍MoE 性能杠杆,同时推理成本仅为GPT-4o的10%。Doubao-1.5-pro 采用MoE(混合专家)架构,通过训练—推理一体化设计,保证模型性能的同时尽量降低推理成本,Doubao-1.5-pro-32k 的千tokens 输入单价为0.0008 元,大约为GPT-4o-0806 批量版本(千tokens 输入单价0.00125 美元)的10%。豆包通过模型结构调优以及训练算法优化,实现7 倍MoE 性能杠杆,针对Prefill/Decode 与Attention/FFN 四个象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾TTFT 和TPOT 的最优化目标。
视觉、语音多模态能力全面提升。Doubao-1.5-vision-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,高效的原生动态分辨率训练,提升模型文档识别、细粒度信息识别能力。Doubao-1.5-realtime-voice-pro,语音语义联合建模实现语音理解和生成一体化,打破传统“ASR+LLM+TTS”级联限制,实现降低延迟,并达到真人级语音水准。
豆包情感语音功能落地移动端,图灵测试“终结者”。2025 年1 月20 日,豆包实时语音大模型落地移动端,做到语音理解和生成一体化,实现了端到端语音对话。相比传统“ASR+LLM+TTS”级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。根据外部用户真实反馈,该模型整体满意度较GPT-4o 有明显优势,特别是语音语气自然度和情绪饱满度远高于后者。在此之前,大模型以AI 搜索的形式触达到大部分的网民,但对于不识字或不常打字的人群来说AI 仍较为陌生,豆包实时语音大模型以超拟人化的形式融入广大人民的生活当中,大模型应用触达人群将从中青年迅速向幼年与老年人群扩散,AI 也从“办公助手”扩散至“生活助手”,打开诸如聊天娱乐、教学陪练、心理疏导、查询播报等新的AI 应用空间。
投资建议:当前产业阶段,建议关注和豆包Capex 紧密度最强的AI 硬件环节龙头厂商,如海光信息、寒武纪、润泽科技、英维克、欧陆通、协创数据、中科曙光、浪潮信息、曙光数创、高澜股份、英伟达(NVDA.O)、博通(AVGO.O)、迈威尔科技(MRVL.O)等,以及和字节可能持续推进产业合作的B 端软件公司,如新致软件、汉得信息、法本信息、亚信安全、四维图新等,同时豆包大模型情感能力提升会进一步强化陪伴类场景的落地,建议关注乐鑫科技、润欣科技、移远通信等。
风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: