RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,这里我们按三个步骤分解:
预训练一个语言模型 (LM) ;
聚合问答数据并训练一个奖励模型 (Reward Model,RM) ;
用强化学习 (RL) 方式微调 LM。
RLHF如今也已成为研究人员关注的焦点。但是RLHF有一个明显的问题:它需要大量高质量的人工标注数据,这不仅耗费时间和资源,还可能让标注员暴露在有害内容中。
那能不能交给AI来做呢?Google进行了这项研究。并发布了arXiv论文,谷歌用RLAIF用AI来代替RLHF中的人类(即H),完成生成反馈的工作,让大模型训练不再受制于人类的局限。
研究者通过使用大型语言模型进行自标注来训练奖励模型,而无需人类的介入。这一方法的优势在于它节省了大量的标注时间和资源,并减少了标注员受到有害内容的风险。
在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上,RLAIF的表现还要优于RLHF。
这一发现引发了关于AI自我标注和自我改进的潜力的讨论。尽管RLAIF存在一些限制,但它为AI领域的未来发展提供了新的思路和可能性。
有AI工程师转发了这篇论文并评论说,到GPT-5的时候可能就不再需要人类数据标注员了。
2023-10-13 08:04:53
海森大数据