为了训练更强大的大型语言模型,研究人员使用了大量的数据集,这些数据集混合了来自数千个网络来源的不同数据。
但是,当这些数据集被合并和重组成多个集合时,关于它们的起源和限制它们如何使用的重要信息经常在混乱中丢失或混淆。
这不仅会引起法律和道德方面的担忧,还会损害模特的表现。例如,如果一个数据集被错误分类,那么为某个任务训练机器学习模型的人可能会在不知不觉中使用不是为该任务设计的数据。
此外,来自未知来源的数据可能包含偏差,导致模型在部署时做出不公平的预测。
为了提高数据的透明度,一个由麻省理工学院和其他地方的多学科研究人员组成的团队对流行托管网站上的1800多个文本数据集进行了系统的审计。他们发现,超过70%的数据集遗漏了一些许可信息,而大约50%的数据集包含错误信息。
在这些见解的基础上,他们开发了一个用户友好的工具,称为Data Provenance Explorer,它可以自动生成易于阅读的数据集创建者、来源、许可和允许使用的摘要。
“这些类型的工具可以帮助监管机构和从业者做出关于人工智能部署的明智决策,并进一步负责任地开发人工智能,”麻省理工学院教授、麻省理工学院媒体实验室人类动力学小组负责人亚历克斯·“桑迪”·彭特兰(Alex“Sandy”Pentland)说,他是一篇关于该项目的新开放获取论文的合著者。
数据来源浏览器可以帮助人工智能从业者通过选择符合其模型预期目的的训练数据集来建立更有效的模型。从长远来看,这可以提高人工智能模型在实际情况下的准确性,例如用于评估贷款申请或响应客户查询的模型。
“了解人工智能模型的能力和局限性的最佳方法之一是了解它所接受的训练数据。当你对数据的来源有错误的归属和困惑时,你就有了一个严重的透明度问题,”麻省理工学院人类动力学小组的研究生、哈佛法学院的法学博士候选人罗伯特·马哈里(Robert Mahari)说,他是该论文的共同主要作者。
与Mahari和Pentland共同撰写论文的还有媒体实验室的研究生Shayne Longpre;领导人工智能研究实验室Cohere的萨拉·胡克(Sara Hooker);以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、上下文人工智能、ML Commons和Tidelift的其他研究人员。这项研究今天发表在《自然机器智能》杂志上。
研究人员经常使用一种称为微调的技术来提高大型语言模型的能力,这些模型将用于特定任务,如问答。为了进行微调,他们精心构建了精心策划的数据集,旨在提高模型在这一任务中的性能。
麻省理工学院的研究人员专注于这些微调数据集,这些数据集通常由研究人员、学术组织或公司开发,并获得特定用途的许可。
当众包平台将这些数据集聚合成更大的集合供从业者用于微调时,通常会留下一些原始的许可信息。
“这些许可证应该是重要的,它们应该是可执行的,”Mahari说。
例如,如果数据集的许可条款是错误的或缺失的,那么有人可能会花费大量的金钱和时间来开发一个模型,但由于一些训练数据包含私人信息,他们可能会在以后被迫删除这个模型。
朗普雷补充说:“人们最终可能会在不了解这些模型的能力、关注点或风险的情况下训练模型,而这些模型最终源于数据。”
为了开始这项研究,研究人员正式将数据来源定义为数据集的来源,创建和许可遗产及其特征的组合。在此基础上,他们开发了一个结构化审计程序,以追踪来自流行在线存储库的1800多个文本数据集集合的数据来源。
在发现超过70%的这些数据集包含“未指定”的许可证,这些许可证遗漏了许多信息后,研究人员倒着去填补空白。通过他们的努力,他们将“未指定”许可的数据集数量减少到30%左右。
他们的工作还表明,正确的许可证通常比存储库分配的许可证更具限制性。
此外,他们发现几乎所有的数据集创建者都集中在全球北部,这可能会限制模型在不同地区部署的能力。例如,主要由美国人和中国人创建的土耳其语数据集可能不包含任何具有文化意义的方面,Mahari解释说。
他说:“我们几乎欺骗自己,认为数据集比实际情况更多样化。”
有趣的是,研究人员还发现,对2023年和2024年创建的数据集的限制急剧增加,这可能是由于学术界担心他们的数据集可能被用于意想不到的商业目的。
为了帮助其他人在不需要人工审核的情况下获得这些信息,研究人员构建了数据来源探索者。除了根据某些标准对数据集进行排序和过滤之外,该工具还允许用户下载数据来源卡,该卡提供了数据集特征的简洁、结构化概述。
Mahari说:“我们希望这是一个步骤,不仅是为了了解情况,也是为了帮助人们在训练数据方面做出更明智的选择。”
在未来,研究人员希望扩展他们的分析,以调查包括视频和语音在内的多模态数据的数据来源。他们还想研究作为数据源的网站的服务条款如何在数据集中得到回应。
在扩大研究范围的同时,他们也在与监管机构联系,讨论他们的发现以及微调数据的独特版权含义。
朗普雷说:“当人们创建和发布这些数据集时,我们从一开始就需要数据的来源和透明度,以便其他人更容易获得这些见解。”
EleutherAI的执行董事斯特拉·比德曼(Stella Biderman)没有参与这项工作,她说:“许多拟议的政策干预假设我们可以正确地分配和识别与数据相关的许可证,而这项工作首先表明情况并非如此,然后显著改善了可用的来源信息。”此外,第3节载有有关的法律讨论。这对于那些拥有专门法律团队的大公司以外的机器学习从业者来说是非常有价值的。许多想要为公共利益建立人工智能系统的人,目前正悄悄地努力弄清楚如何处理数据许可,因为互联网的设计方式并不容易弄清楚数据的来源。”
作者:Adam Zewe | MIT新闻
链接:https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2024-09-03 08:35:17
Adam Zewe | MIT新闻