媒体Ⅱ行业:AI系列跟踪(50):OPENAI开启语音交互模式 MIDJOURNEY V6.1再进化质感升级

高超/杨云祺 2024-08-05 17:30:37
机构研报 2024-08-05 17:30:37 阅读

  事件描述

      近期OpenAI 向部分ChatGPT Plus 用户推出GPT-4o 模型高级语音模式的Alpha 测试版,支持感知并回应用户的情绪波动,可提供流畅自然的对话体验。Midjourney V6.1 上线,提高图像的生成质量与连贯性,并为用户提供更多个性化选择。

      事件评论

      OpenAI 高级语音功能提供自然实时的交互体验。1)对话流畅自然,能够感知情绪。与此前依赖串联语音转文字、解析回应、文字转语音三个模型不同,GPT-4o 具备多模态能力,能够独立完成这些任务,无需其他模型的辅助,大大减少了对话过程中的等待时间,使用户能够体验到几乎无延迟的实时对话。同时GPT-4o 不仅能够理解语言内容,还能够识别并响应语音中的悲伤、兴奋等情感变化,且允许用户随时打断,使交互更加贴近自然对话。此外,视频和屏幕共享功能也即将推出,用户开启摄像头就能与ChatGPT“面对面”聊天。2)支持多种语言,应用场景广泛。语音交互以其与人类自然沟通方式的高度一致性,提供更为直观的交互体验。与文本交互相比,语音交互几乎不需要用户进行任何物理操作,从而降低了用户参与的障碍,特别适合于简短、即时的信息交流。GPT-4o 支持超过50 种语言,多语言支持能够让多国用户体验到无缝沟通的便捷,亦带来更多应用场景的想象。如在语言学习辅助方面,GPT-4o 可作为语言教练,帮助用户练习口语,纠正发音;在创造性应用方面,可进行声音模仿、比赛解说等。而若能够结合视觉识别和语音输出,GPT-4o 将提供更加强大的交互体验,如帮助用户翻译游戏界面等。

      Midjourney V6.1 升级推进科技与艺术融合。1)图像生成的速度与质量提升,有望提高用户工作效率。速度方面,标准图像作业的生成速度提高了约25%,将有助于需要批量生成图像的项目大幅提升效率。细节处理方面,在生成复杂内容,例如手臂、毛发、植物、动物等内容时,Midjourney V6.1 能更准确地捕捉和表现细节,使图片看起来更加自然和连贯。同时Midjourney V6.1 通过减少像素痕迹和增强纹理细节,使图片更加平滑和细腻。

      清晰度方面,当需要放大图像时,模型的高级算法能够保持图像的清晰度和纹理质量,避免了放大后可能出现的模糊或失真。因此即使在大型广告牌或高清屏幕上展示,图像仍能保持高分辨率。在文本准确度方面,模型能够更准确地渲染引号内的文字。同时,新增的-q2 模式虽然生成时间稍长,但能带来更加丰富的纹理效果。2)引入个性化设计,提供更多定制选项。Midjourney 6.1 引入新的个性化模型,能够更好的呈现细微差别。同时模型支持个性化代码版本控制,用户可以使用旧作业中的任何个性化代码来调用该作业的个性化模型和数据,从而增强了创作的连续性和可控性,让用户可以更容易地在不同项目间保持一致的风格。

      AI 技术正推动交互体验向更自然、个性化方向发展,不仅优化用户体验,也为多领域应用开辟新的可能性。我们认为AI 技术及应用领域持续突破,建议持续关注AI 在广告、电商、影视、游戏和教育等各领域的商业化落地。

      风险提示

      1、AI 技术发展不及预期风险;

      2、内容监管风险。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。