全球聚焦：“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔217亿元！-太平洋非遗网

全球聚焦：“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔217亿元！

中财网 2023-07-05 11:55:21

2016 年 10 月 19 日，英国剑桥大学理论物理学教授 Stephen Hawking 曾预言：“强大 AI 的崛起，可能将是人类遇到的最好的事情，也可能是最坏的事情。”

此后 7 年还不到，Stephen Hawking 教授的预言似乎就“成真”了：在近半年的 ChatGPT 热潮下，很多人看见了它的强悍和优势，但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是，近来凭借 ChatGPT 和 GPT-4 风头正盛的 OpenAI 和微软，突然就被告了。

(资料图片仅供参考)

上周，16 位匿名人士决定起诉微软和 OpenAI，称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下，收集并泄露了他们的个人信息，要求索赔 30 亿美元(约合人民币217亿元)。

01 “盗窃”而来的 3000 亿单词？

根据这 16 人提交给加利福尼亚州旧金山联邦法院、长达 157 页的诉讼书显示，OpenAI 和微软被指控违反了《电子通讯隐私法》，即无视获取 AI 模型数据的合法途径，选择在不付费的情况下收集数据。

“尽管存在购买和使用个人信息的既定程序，但被告(OpenAI 和微软)还是采取了不同的方式：盗窃。”

在最初 ChatGPT 刚爆火的时候，OpenAI 就曾介绍过 ChatGPT 的强大功能，来自大规模预训练——它有 3000 亿单词的语料库预训练。但原告称，OpenAI 从互联网上的书籍、文章和发帖中所获取的 3000 亿字内容，远远超过其合理授权的范围。

具体来说，这 16 人指控 OpenAI 和微软通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息，并且获得的信息范围很广，包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。

原告坚称，在“从全球数百万毫无戒心的消费者那里非法收集个人资料”后，微软和 OpenAI 将其嵌入至他们的 AI 模型中，这才创造出了现在的 ChatGPT 等 AI 产品：

? “OpenAI 大规模使用窃取并盗用个人信息，以此创造了强大且利润丰厚的 AI 产品，并不顾风险地将其对外发布。”

? “OpenAl 的技术价值已高达到数百亿美元，而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训，这些产品才达到了如今的复杂程度。”

除了指控 OpenAI “盗窃”数百万互联网用户的个人隐私，诉讼书中还强调了 OpenAI 和微软之间的密切合作关系：“微软对 OpenAl 持续投资，并在其多个平台上都引入了 ChatGPT，强调其与 OpenAl 合作的深度。通过这些投资，微软还获得了独家使用整个 OpenAI 代码库的权利。”

02 很少提到 AI 的具体伤害案例

整整 157 页诉讼书中，引用了大量媒体报道和学术论文，反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解，其中并没有提到多少 AI 对人类的具体伤害案例。

例如，在提到 2019 年 OpenAI 重组为一家“有限营利企业”时，诉讼书表示 “OpenAI 放弃了最初的目标和原则，选择以牺牲隐私安全和道德为代价来追求利润”，并由此推断 OpenAI 加大了从互联网上“秘密获取”大量个人数据的力度，而不通知这些数据的所有者或用户。

此外，在指控 OpenAI 无视隐私法的同时，文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言：“AI 很可能会导致世界末日，但与此同时，也会出现伟大的公司。”而基于这句话，诉讼书表示：“被告对隐私法的漠视，与他们对人类潜在灾难性风险的漠视不相上下。”

总体而言，在这份 157 页的诉讼书中，微软和 OpenAI 被指控违反了《电子隐私通信法》，即在没有获得授权的情况下使用私人信息以求牟利。同时，因为插件拦截互动数据，微软和 OpenAI 也违反了《计算机欺诈和滥用法》。

基于以上，考虑到被“盗取”数据的群体应该有数百万人，原告向微软和 OpenAI 提出了 30 亿美元的索赔。

03 微软和 OpenAI 并未回应

截至目前，微软和 OpenAI 都没有对这份指控作出回应，而网友对于这起诉讼的讨论早已泛滥。

部分人对于 OpenAI 如何“窃取”并利用个人数据的方式感到好奇，外媒 Firstpost 解释道：“如果你在最近几十年里一直在网上活跃，你的数据就很可能被纳入 OpenAI 的数据集。因此，OpenAI 语言模型产生的任何输出，如果用于盈利，其中就可能包含通过无声搜刮而获得的你的数据片段。”

对此，起诉 OpenAI 的律师事务所方面也进行了补充：用户的个人数据“最初并不是打算给大型语言模型使用的”，所有信息都是 OpenAI 自己去大规模获取的。

至于这场诉讼的最终结果，目前来看应该并不确定。互联网的基础设施很复杂，在线平台与用户有自己的条款和协议，即使用户向这些平台贡献内容，数据所有权也通常属于平台本身而非用户。

对于这个说法，知识产权律师 Katherine Gardner 也是认同的：当用户将内容上传到社交媒体或任何其他网站时，他们通常会授予平台以各种方式使用其内容，因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。

除此之外，也有不少网友打趣起了这 30 亿美元的索赔金额：

? “30 亿不够，怎么也得 80 亿美元，这样我们每个人都能拿到 1 美元！”

? “不行，我在网上写了 3 篇东西呢，得给我 3 美元才行！”

全球聚焦：“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔217亿元！

7月5日隔夜Shibor跌7.10BP，报1.1170%；7天Shibor涨5.00BP，报1.8080%；14天Shibor跌3.70BP，报1.7200%。

核电厂工程仿真机_关于核电厂工程仿真机概略新要闻

宝龙地产(01238)：2019年7月票据的4.01亿美元已根据交换要约有效提交作交换并获公司接纳

埃斯顿：Cloos目前没有超声波金属焊技术的应用-世界消息

记者：张修维已正式加盟青岛西海岸，本周六有望完成中甲首秀

艾蒿是什么?为啥要在端午节使用?

手柄测试网站上不去（手柄测试）

wwwepsoncomcn官网（www epson com cn）_全球热消息

当前时讯：摩托罗拉A1000到货（摩托罗拉a1000）

水利部针对北方4省区启动洪水防御Ⅳ级应急响应|世界新视野

环球今日报丨厂字加一笔都有什么字_厂加一笔有多少字

湖州社保查询个人账户缴费明细查询_湖州市社保网上查询系统

有仙无侠？《玉骨遥》的人物逻辑怎么样？

前程似锦近义词反义词_前程似锦近义词

全球视讯！电脑上怎么输入~符号_电脑上±符号怎么输入

搜狐汽车全球快讯丨导远高精度组合定位系统上车埃安昊铂GT_世界速讯

环球热消息：并购+合作双路并行贝康医疗辅助生殖全产业链布局提速

积碳清洗包括哪些（积碳清洗包含哪些？）

新华全媒+｜一块黑炭的“点石成钻”之旅天天实时

全球聚焦：“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔217亿元！

7月5日隔夜Shibor跌7.10BP，报1.1170%；7天Shibor涨5.00BP，报1.8080%；14天Shibor跌3.70BP，报1.7200%。

核电厂工程仿真机_关于核电厂工程仿真机概略 新要闻

宝龙地产(01238)：2019年7月票据的4.01亿美元已根据交换要约有效提交作交换并获公司接纳

埃斯顿：Cloos目前没有超声波金属焊技术的应用-世界消息

记者：张修维已正式加盟青岛西海岸，本周六有望完成中甲首秀

艾蒿是什么?为啥要在端午节使用?

手柄测试网站上不去（手柄测试）

wwwepsoncomcn官网（www epson com cn）_全球热消息

当前时讯：摩托罗拉A1000到货（摩托罗拉a1000）

水利部针对北方4省区启动洪水防御Ⅳ级应急响应|世界新视野

环球今日报丨厂字加一笔都有什么字_厂加一笔有多少字

湖州社保查询个人账户缴费明细查询_湖州市社保网上查询系统

有仙无侠？《玉骨遥》的人物逻辑怎么样？

前程似锦近义词反义词_前程似锦近义词

全球视讯！电脑上怎么输入~符号_电脑上±符号怎么输入

搜狐汽车全球快讯丨导远高精度组合定位系统上车埃安昊铂GT_世界速讯

环球热消息：并购+合作双路并行 贝康医疗辅助生殖全产业链布局提速

积碳清洗包括哪些（积碳清洗包含哪些？）

新华全媒+｜一块黑炭的“点石成钻”之旅 天天实时

核电厂工程仿真机_关于核电厂工程仿真机概略新要闻

环球热消息：并购+合作双路并行贝康医疗辅助生殖全产业链布局提速

新华全媒+｜一块黑炭的“点石成钻”之旅天天实时