国内AI大模型数据被盗第一案，但仅索赔1元

笔神作文APP在官方微信发文，称自己的「作文库」数据被窃取，“一个周末的时间被爬取了超过两百万次”，并认为是有多年合作关系的“学而思”所为。笔神作文称之为国内“AI大模型数据被盗第一案”。但学而思对此公开予以否认。

学而思官方微博发文回应称：“ 首先，MathGPT 是专注于数学领域的自研大模型，没有任何作文相关数据；其次，‘作文 AI 助手’目前处于开发状态，尚未发布，该服务并未使用笔神作文的任何数据。“

笔神作文说“团队也多次向学而思发出律师函，但对方始终没有实质性答复。”并称，“已别无他法，只能通过司法程序解决这个问题。”“只想要学而思支付1元赔偿金公开道歉并删除已爬取的数据。“ ”希望学而思能够及时停止错误的行为并且道歉”。

笔神作文与学而思的纠纷，牵引出大模型的一个“隐秘的角落”：用于训练AI大模型的数据，来源是否合法合规？事实上，关于大模型数据集的纷争已在海内外频频上演。

争议所涉及的数据可以大致分为两类：一类有着明确的知识产权，如原创的图片、音乐、视频、文章等；一类由用户在平台上的零散发言汇集而成，如百科、社区、贴吧等。

今年年初，Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉，原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据“非法复制和处理了受版权保护的图像”。

此外，推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费，且价格不菲。此前，这些平台的内容可以被谷歌、openAI等公司免费爬取，用作大语言模型的训练库。推特CEO马斯克称“他们（微软）非法利用推特的数据来训练，是时候起诉他们了。”

监管方面正在注意AI大模型训练数据集的情况。国家网信办于今年4月公布的《生成式人工智能服务管理办法（征求意见稿）》也明确，用于生成式人工智能产品的预训练、优化训练数据，应符合网安法等法律法规的要求，不含有侵犯知识产权的内容，包含个人信息的应符合“告知-同意”原则等要求，还应保证数据的真实性、准确性、客观性、多样性。

对此，大家有什么看法呢，欢迎留言探讨。

栏目

行业新闻

公司动态

时间

2023-07-05 08:01:49

作者

海森大数据