计算机行业专题报告:国庆假期 科技行业都发生了什么?
OpenAI 发布的多项API 大幅简化了AI 开发流程并降低成本。实时语音交互API 整合了STT、LLM 和TTS 等多个模型,省去繁琐步骤,让中小企业也能轻松开发语音助手。视觉微调API 利用GPT4o 的Zero-shot 能力,通过少量数据即可大幅提升任务成功率,如Grab 和Automat 等企业已显著提高了识别准确率。提示词缓存优化功能通过减少重复内容,降低了50%的成本和80%的时延。模型蒸馏服务则提供了基于GPT 的低成本、低时延定制模型解决方案。我们认为,OpenAI GPT 系列目前仍然是全球范围内“最智能”的大模型,其强大的Zero-shot 能力使其能适应多样化场景,结合广大开发者落地定制有望加快AI 应用在各个领域落地。
Canvas 变革写作/编程范式。相比于原本的对话式界面,Canvas 最大的升级是除了对话界面外,还有一个单独的输出结果界面,并可对输出结果特定部分进行修改、评估等,而不用有变动就需要全部重新生成。Canvas的写作功能包括即时提供编辑建议、调整文本长度、修改阅读难度、进行最后润色并添加表情符号,使文本更生动。编程功能则提供代码审查、插入日志、添加注释、修复错误,并支持将代码移植到多种编程语言,如JavaScript、Python 等,帮助提升代码质量和可读性。
Meta Movie Gen:持续向OpenAI 产品发起挑战。Movie Gen Video 是一个300 亿参数的模型,能够根据文本提示生成高质量的高清图像和视频,支持最长16 秒的时长,训练集包含1 亿个视频和10 亿张图像,具备推理物体运动、主体与物体互动等能力。Movie Gen Audio 则是一个130 亿参数的模型,能够生成与视频同步的48kHz 高质量音效和音乐,训练集约为100 万小时音频,支持处理不同长度的音频生成,并能生成匹配视觉场景的环境音效以及情绪支持的非叙事性音乐。
300 亿参数的Movie Gen Video 模型训练使用超过6000 张H100。为了使得模型能够更好地理解真实物理、几何等关系,Meta 采用了分步训练方式,首先进行文本到图像(T2I)任务的训练,然后再进行文本到图像(T2I)和文本到视频(T2V)联合训练;同时,在第二阶段T2V 训练时,首先在256px 分辨率下训练,再将分辨率提升至768px。值得注意的是,训练用到GPU 最多达6144 张H100,而这仅仅是一个300 亿的文生视频模型,可生成视频最长时间仅为16 秒,后续文生视频算力投入空间广阔。
风险提示:技术迭代不及预期的风险、商业化落地不及预期的风险、政策支持不及预期风险、全球宏观经济风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: