纽约时报送OpenAI、微软上被告:GPT-4输出结果与其作品有大量重复

原文来源:机器之能

图片来源:由无界 AI‌生成

在人工智能浪潮中,捍卫自己的权利。

当人工智能不断兴起,随之而来的除了惊艳四座的强大技术,还有对技术的质疑以及各种规范的难题。

用什么作为训练数据?是否得到许可?生成内容是否会造成侵权?这些问题都成为了人工智能发展路上必问的问题。涉及的相关案例,在未来也会指导司法实践。

据彭博社报道,《纽约时报》已起诉微软和 OpenAI,指控其侵犯版权,违规使用了《纽约时报》的内容用于人工智能开发。这场官司让人们不得不正视媒体与颠覆性技术之间的关系。

据《纽约时报》的起诉书称,这些技术公司使用了数百万篇未经授权的版权文章用于训练 ChatGPT 这样的聊天机器人,而这种自动聊天机器人正在成为人们获取可靠信息的来源,反过来抢新闻媒体的「饭碗」。

《纽约时报》没有说明索赔的具体金额,但指出被告应该对「非法复制和使用《纽约时报》独一无二的宝贵作品」造成的「数十亿美元的法定和实际损害」负责,并要求这两家公司销毁所有使用《纽约时报》版权材料的聊天机器人模型和训练数据。

在多数报纸和杂志都因为读者纷纷转战互联网而步履维艰时,《纽约时报》是少数在线上新闻业务中成功构建商业模式的媒体之一。而在生成式 AI 涌现的时代,传统媒体更面临着全新的挑战。

ChatGPT 登场这一年来,关于其从网上抓取文本作为训练数据的批评声和质疑声一直不绝于耳。今年九月,OpenAI 被美国作家协会指控,ChatGPT 参与了一场「大规模系统性的盗窃」。《纽约时报》的起诉是 OpenAI 首次受到一家主流媒体的挑战。OpenAI 曾寻求得到版权方的授权,就像 Google 和 Meta 与 Facebook 的和解一样。据称,《纽约时报》曾于 4 月份联系了微软和 OpenAI,但未能达成一致。

「如果微软和 OpenAI 想要将我们的作品用于商业目的,法律要求他们首先要获得我们的许可,」《纽约时报》发言人在一份电子邮件声明中说,「但他们没有这样做。」

OpenAI 发言人在一份声明中表示:「我们尊重内容创作者和所有者的权利,致力于与他们合作,以确保他们受益于人工智能技术和新的收入模式。我们与《纽约时报》的持续对话富有成效,并且一直在积极推进,因此,我们对被起诉感到惊讶和失望。」微软则拒绝置评。

7 月,OpenAI 与美联社签署了一项协议,获取了该新闻机构的部分档案的版权。12 月份,OpenAI 与 Axel Springer SE 签署了一项为期三年的协议,以使用这家德国媒体公司的工作成果。

本周三,OpenAI 的发言人表示:「我们希望找到一种互惠互利的方式,像我们与许多其他出版机构一样,携手合作。」

即便如此,OpenAI 也已成为多起诉讼的目标,内容制作者不满自己的作品被不当用于人工智能训练。该公司面临着喜剧演员 Sarah Silverman、《权力的游戏》作者 George R.R. Martin 和普利策获奖作家 Michael Chabon 等文化名人的集体诉讼。

《纽约时报》的胜算

多家科技公司的首席法律顾问 Cecilia Ziniti 总结了《纽约时报》的制胜点。她称这场官司是迄今为止指控生成式人工智能侵犯版权的最佳样本。

首先,申诉书明确指出了被告方的侵权行为。被告有机会接触到原作,并且原告和被告之间的作品存在「实质性相似」。这两点是判定是否存在侵权行为的关键。而《纽约时报》是用于训练 GPT 的 Common Crawl 中最大的专有数据集,证明 ChatGPT 的输出和《纽约时报》的内容既存在接触途径,也存在「实质相似」。

其次,申诉书中提供了一看就懂的抄袭证据。下图中,红色是完全重合的文本,黑色是 GPT 新生成的文本,大量重复将一目了然。Ziniti 认为,除非 OpenAI 对 GPT 训练方式作出大调整,或者通过大量的法律手段说明技术原理,否则 OpenAI 根本无力辩护。选择和解比继续对抗更加明智。

《纽约时报》的聪明之处还在于他们突出了一篇新闻报道的原创过程。一篇调查出租车贷款的深度报道的背后是记者四处走访,采访 600 余次的不懈努力。版权法守护的虽然不是劳动者「额头上的汗水」,但它守护原创者的智慧和创造力。对比 GitHub Copilot 被超过一千万名程序员告上法庭时,他们只引用了几行开源代码,这个保护创新的说服力就没那么强。(注:额头汗水是一个著作权保护法的著名案子,美国联邦最高法院在「费斯特案」中认为只保护人类「额头上的汗水」—— 劳动,这种思路将损害著作权法的基本原理)

此外,4 月份,OpenAI 和《纽约时报》谈判破裂后,获得了《政客报》等其他媒体的授权,这对《纽约时报》的利益造成了损害。随着 OpenAI 的市值增长和越来越多的抄袭案例出现,拒绝与《纽约时报》和解,OpenAI 可能会付出高昂的代价。Ziniti 对 4 月份的谈判作出了大胆推测:OpenAI 方认为他们可以用几百万或几千万美元来摆脱困境,而《纽约时报》想要的更多,以及持续的版税。

据分析,「CloseAI」的不利形象也将对 OpenAI 面对指控产生影响。《纽约时报》将 OpenAI 描述成一个以盈利为目的的闭源组织,这与为公共利益服务的新闻业形成了巨大的对比。审判需要权衡版权保护与技术创新两者带来的社会效益。在版权案件中,「正义与邪恶」的斗争一直都是争议的焦点。而代表正义一方的叙事在法庭上往往更容易奏效。申诉书中还提到了 OpenAI 董事会和 Sam Altman 的「宫斗戏」,不知道「连续剧」是否为 OpenAI 的形象蒙尘。

最后,人们对大模型幻觉问题的恐惧会让案情更加跌宕起伏。《纽约时报》指控 Bing 称《纽约时报》发表了一篇名为「橙汁导致淋巴瘤」的文章,但实际上《纽约时报》从来没写过这篇报道。这无疑将 OpenAI 置于更加不利的地位。

这场官司可能是人工智能和版权领域的一个转折点。

后续影响

据彭博社上周报道,OpenAI 目前正在与投资者洽谈新一轮融资,估值将达到 1000 亿美元,这将使其成为美国估值第二高的初创企业。

微软是 OpenAI 最大的支持者,并在其多个产品中部署了这家初创公司的 AI 工具。在诉讼中,《纽约时报》称微软在其必应搜索引擎中逐字抄袭了该报的文章,并利用 OpenAI 的技术将其价值提升了一万亿美元。

自 2022 年 11 月 ChatGPT 首次亮相以来,微软股价已上涨 55%,市值增至 2.8 万亿美元。周三,微软股价变化不大,在纽约以 374.07 美元收盘。接下来,微软的股价是否会有大的变动,还未可知。

Abacus.AI CEO Bindu Reddy 发文表示,或许最后获益最大的是像 Gork 这样的产品。毕竟,通过允许用户在其平台上发布内容,他们就能获得用这些内容训练人工智能模型的权利。

其实,在文生图领域这样的难题也照样存在。甚至有用户表示,不想再看到 AI 生成图像的推荐了,并以「尸块」拼接定义 AI 作画。

事实上,文生图工具 Dall・E 3 在发布时就格外注意安全与版权问题。OpenAI 为避免像 Stability AI 和 Midjourney 一样被诉讼,允许艺术家将其艺术作品从文本到图像 AI 模型中删除,不用于训练。创作者可以提交一张他们拥有版权的图片,并在网站上填写表格要求将其移除。但这样的措施是否能够完全保护创作者的权利不被侵犯,依旧是个问题。

参考链接:

https://www.bloomberg.com/news/articles/2023-12-27/new-york-times-sues-microsoft-and-openai-for-copyright-infringement?srnd=technology-vp

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

https://twitter.com/CeciliaZin/status/1740109462319644905

https://twitter.com/emollick/status/1740061455607791987

https://twitter.com/bindureddy/status/1740085770180866141