AI标注已达人类水平,RLHF或许将再不需要人类

ChatGPT 对话模型掀起了AI热潮,这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,这里我们按三个步骤分解:

预训练一个语言模型 (LM) ;

聚合问答数据并训练一个奖励模型 (Reward Model,RM) ;

用强化学习 (RL) 方式微调 LM。

RLHF如今也已成为研究人员关注的焦点。但是RLHF有一个明显的问题:它需要大量高质量的人工标注数据,这不仅耗费时间和资源,还可能让标注员暴露在有害内容中。

那能不能交给AI来做呢?Google进行了这项研究。并发布了arXiv论文,谷歌用RLAIF用AI来代替RLHF中的人类(即H),完成生成反馈的工作,让大模型训练不再受制于人类的局限。

研究者通过使用大型语言模型进行自标注来训练奖励模型,而无需人类的介入。这一方法的优势在于它节省了大量的标注时间和资源,并减少了标注员受到有害内容的风险。

在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上,RLAIF的表现还要优于RLHF。

这一发现引发了关于AI自我标注和自我改进的潜力的讨论。尽管RLAIF存在一些限制,但它为AI领域的未来发展提供了新的思路和可能性。

有AI工程师转发了这篇论文并评论说,到GPT-5的时候可能就不再需要人类数据标注员了。