OPENAL SHIPMAS DAY2:发布强化微调工具 提升垂类模型训练效率
事件概览
2024 年12 月7 日凌晨,OpenAI 进行“Shipmas”发布活动的第二天直播,展示了强化微调训练方法(RF T,Reinforcement Fine-Tuning),可帮助开发者高效微调模型,有针对性地提升模型特定能力。
投资逻辑
何为RFT:OpenAI 曾推出过针对自家模型的监督式微调API,能够让模型模仿其在输入文本或图像中学习到的特征,可用于修改模型的语气、样式或响应格式等。本次发布的RFT 则针对具体任务对模型进一步微调,可以强化模型得到正确答案的思维方式,使模型在垂类领域性能提升、生成内容更加可控。
如何实现RFT:开发者需提供训练数据集、验证数据集、评分器(Grader)。训练数据集相当于模型需要针对性解答的习题集,在学习过程中模型不能看到习题集答案;评分器根据解答结果和习题集答案,输出0 到1 之间的分数,设置强化目的为获得尽可能高的分数;除设置评分器外,用户还可以选择调整模型种子和超参数,包括批量大小、学习率乘数、epoch 数量等;验证数据集格式与训练数据集一致,但内容没有重叠,主要用于检验训练后模型的泛化能力。
RFT 的应用价值:仅需几十个例子、数小时至数天时间,即可帮助开发者搭建针对特定任务的专家模型,任何需要深厚专业知识的领域均将收益,如金融、工程、法律、医疗等。OpenAI 近期与汤森路透合作,使用RFT 微调o1-mini,从而得到了好用的 AI 法律助理,能帮助法律专业人员完成一些最具分析性的工作流程;此外,伯克利实验室的Justin Reese 认为RFT 能够赋能罕见病研究,基于生物医学数据进行系统性推理。
目前RFT 仅支持Alpha 测试申请且名额有限,个人用户预计明年方可使用。
投资建议
OpenAI 代表全球AI 技术最前沿,其最新发布成果可以指引国内大模型训练及应用落地方向。RFT 可提升垂域小模型训练效率,有望快速打造Agent。建议关注大模型持续更新且具备充足算力储备的科大讯飞、商汤-W;多模态技术成熟、推进应用出海的万兴科技;在办公、教育领域与AI 技术结合的金山办公、竞业达等。
风险提示
AI 技术发展不及预期的风险;政策推进节奏不及预期的风险;算力不足的风险;国际关系风险;监管风险。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: