Meta发布的最新大模型Galactica,拥有1200亿参数语言模型,在4800万篇学术论文和各式教科书、百科等数据上训练而来。其本意是想解决学术界信息过载,帮助研究人员做信息梳理、知识推理和写作辅助,一度被认为是“科研者的福音”。
自从在网上发布了一个演示版本以来,它引起了一些轰动,吸引了大波网友和研究人员开始试用,有科研人员发现它确实能为自己生成的内容引用文献,但有时这个文献并不存在,作者却是真实存在的人。也有科学家实验过后发现 LLM 即使能产出看似有条理的文本,但其实并无法理解其中意义。因此科学家发现 LLM 模型可能产出具有偏见的文章,或是出现事实谬误。
批评者认为它产生了伪科学,被夸大了,还没有准备好供公众使用。它可以产生看起来还过得去的科普文,但内容完全不对。比如:真空中的光速和声速接近。
著名的加里艾悲观主义者马库斯也来抱怨了卡拉狄加把他的出生日期,教育经历和研究领域的所有信息都搞错了。
对以上种种问题,马克斯普朗克智能系统研究所所长Michael Black总结道:这将开启一个科学深度造假(deep scientific fakes)的时代。会出现研究者从未写过的虚假论文,这些论文随后会被其他真实的论文引用,简直乱套了。
虽然Galactica的开发者在每个输出内容后都加了“内容可能不可靠”的警告,但“潘多拉的魔盒一旦开启,就关不上了”。简单的说,原本Galactica应该帮助“梳理科学信息”,结果它反而散布了错误信息。
这样的争议持续了两三天,团队只好无奈宣布Demo暂时下架,论文和源代码继续开放给相关领域研究者。
2023-01-03 08:13:51
海森大数据