国内AI大模型数据被盗第一案,但仅索赔1元

笔神作文APP在官方微信发文,称自己的「作文库」数据被窃取,“一个周末的时间被爬取了超过两百万次”,并认为是有多年合作关系的“学而思”所为。笔神作文称之为国内“AI大模型数据被盗第一案”。但学而思对此公开予以否认。

学而思官方微博发文回应称:“ 首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文 AI 助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。“

笔神作文说“团队也多次向学而思发出律师函,但对方始终没有实质性答复。”并称,“已别无他法,只能通过司法程序解决这个问题。”“只想要学而思支付1元赔偿金公开道歉并删除已爬取的数据。“ ”希望学而思能够及时停止错误的行为并且道歉”。

笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:用于训练AI大模型的数据,来源是否合法合规?事实上,关于大模型数据集的纷争已在海内外频频上演。

争议所涉及的数据可以大致分为两类:一类有着明确的知识产权,如原创的图片、音乐、视频、文章等;一类由用户在平台上的零散发言汇集而成,如百科、社区、贴吧等。

今年年初,Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉,原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据“非法复制和处理了受版权保护的图像”。

此外,推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费,且价格不菲。此前,这些平台的内容可以被谷歌、openAI等公司免费爬取,用作大语言模型的训练库。推特CEO马斯克称“他们(微软)非法利用推特的数据来训练,是时候起诉他们了。”

监管方面正在注意AI大模型训练数据集的情况。国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》也明确,用于生成式人工智能产品的预训练、优化训练数据,应符合网安法等法律法规的要求,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”原则等要求,还应保证数据的真实性、准确性、客观性、多样性。

对此,大家有什么看法呢,欢迎留言探讨。