近日,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。「LLM 排位赛」就是让一群大语言模型随机进行 battle,并根据它们的 Elo 得分进行排名。
排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的Open Assistant排在第三。
清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。
相比之下,Meta 原版的 LLaMa 只排到了第八(倒数第二),而 Stability AI 的 StableLM 则获得了唯一的 800 + 分,排名倒数第一。
在这次的评估中,UC伯克利选择了目前比较出名的 9 个开源聊天机器人。
每次 1v1 对战,系统都会随机拉两个上场 PK。用户则需要同时和这两个机器人聊天,然后决定哪个聊天机器人聊的更好。
这个排位赛可以让人们更好地了解各个聊天机器人的表现,同时也能促进大语言模型的发展。该排位赛会把国内和国外的这些「闭源」模型都搞进来。目前,所有的评估代码以及数据分析均已公布。
2023-05-25 08:11:52
海森大数据