AI标注已达人类水平，RLHF或许将再不需要人类

ChatGPT 对话模型掀起了AI热潮，这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，这里我们按三个步骤分解：

预训练一个语言模型 (LM) ；

聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；

用强化学习 (RL) 方式微调 LM。

RLHF如今也已成为研究人员关注的焦点。但是RLHF有一个明显的问题：它需要大量高质量的人工标注数据，这不仅耗费时间和资源，还可能让标注员暴露在有害内容中。

那能不能交给AI来做呢？Google进行了这项研究。并发布了arXiv论文，谷歌用RLAIF用AI来代替RLHF中的人类（即H），完成生成反馈的工作，让大模型训练不再受制于人类的局限。

研究者通过使用大型语言模型进行自标注来训练奖励模型，而无需人类的介入。这一方法的优势在于它节省了大量的标注时间和资源，并减少了标注员受到有害内容的风险。

在训练后的人类评价中，人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上，RLAIF的表现还要优于RLHF。

这一发现引发了关于AI自我标注和自我改进的潜力的讨论。尽管RLAIF存在一些限制，但它为AI领域的未来发展提供了新的思路和可能性。

有AI工程师转发了这篇论文并评论说，到GPT-5的时候可能就不再需要人类数据标注员了。

2023-10-13 08:04:53

海森大数据

行业新闻