AI系列跟踪(47):OPENAI“草莓”项目或推进AGI进程 快手可图丰富文生图开源生态

高超/杨云祺 2024-07-15 20:00:18
机构研报 2024-07-15 20:00:18 阅读

  事件描述

      路透社发布报道称OpenAI 正在研发代号为“草莓”的全新项目,或将进一步延伸去年11 月宣布的Q*项目,不断提高AI 推理能力,让其更接近人类的智力。快手在WAIC 2024 上宣布旗下的文生图大模型可图(Kolors)将全面开源,模型支持长达256 字符的文本输入,生成效果比肩Midjourney-v6 水平,并具备英文和中文写字能力。

      事件评论

      OpenAI“草莓”项目或将重新定义AI 的能力,推进AGI 进程。1)自主进行互联网研究,提高大模型的推理能力。“草莓”项目将致力于增强OpenAI 模型的推理能力、处理复杂科学和数学问题的能力,让大模型能够自主可靠地浏览互联网,进行OpenAI 定义的“深度研究”。据称“草莓”与斯坦福大学2022 年开发的STaR 方法有相似之处,而STaR方法则能够使AI 模型能够通过迭代创建自己的训练数据,从而自我提升到更高的智能水平。基于此,AI 或将不再依赖大规模人工标注的数据,而是能够像人类一样自主探索学习;同时AI 或能够胜任科学研究等更加复杂的任务。2)释放AI 潜力,加速实现AGI 进程。OpenAI 最近推出了一套五级分类系统,评级从第一级聊天机器人、第二级推理者,到最高级别的组织者。OpenAI 自称其AI 模型正处于第一级,但很快就会达到第二级。

      而具有强大推理能力并能自主可靠浏览网页的“草莓”或将率先达到第二级水平。

      快手可图具备高生成质量和语义跟随能力,开源推动文生图生态发展。1)文本理解能力升级,树立中文场景图像生成新标杆。可图使用大语言模型ChatGLM3 进行中英文文本表征,文本提示词长度达256 字符,远超当前使用英文CLIP 作为文本编码器的文生图模型的77 字符。在大语言模型的加持下,可图具备复杂语义理解能力,能够正确绘制多主体,并能够解决文生图模型常见的颜色混淆问题。同时,通过数十亿中文语料的训练,可图成为第一个原生支持中文文字生成的文生图模型(无Control 逻辑)。2)主观图像质量表现卓越,策略优化展现摄影级美感。可图通过概念学习与质量微调两个阶段实现模型的广泛实体概念的覆盖与精细调整,并通过全新的加噪策略针对高分辨率图像的特性进行优化,提升模型的出图质量和美感。在快手组织50 位图像专家的打分中,可图在综合满意度达到Midjourney-v6 水平,且在图像质量方面与其他模型相比优势显著。同时,在最近的智源FlagEval 文生图模型评测榜单中,可图以主观综合评分75.23 分位列全球第二,仅次于闭源的DALL-E 3。3)模型能力广泛落地,丰富文生图领域开源生态。可图已在快手的AI 玩评、主站魔表、快影等多个业务场景中得到应用,亦实现了IP 定制、AI 人像、虚拟试衣等应用实践。开源后的可图在GitHub 已收获2k star,并在Huggingface 模型下载热榜中排名第一,开源社区中已经有开发者提供了加速、ComfyUI 等应用。

      海内外厂商均不断推进AI 领域的发展,大模型理解能力和推理能力的升级有助于提升交互质量,并加速AI 应用落地。我们认为AI 技术及应用领域持续突破,建议持续关注AI在广告、电商、影视、游戏和教育等各领域的商业化落地。

      风险提示

      1、AI 技术发展不及预期风险;

      2、内容监管风险。

声明:
  1. 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
  2. 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。