半岛彩票神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:因为OpenAI训练大语言模型使用了《》的众多作品,后者将它一举告上法庭,主张被告应对与非法复制和使用《》独特有价值的作品相关的数十亿美元的法定和实际损害负责,还要求被告销毁使用《》版权材料的所有人工智能模型和训练数据。此案的结果将会对未来的人工智能版权争议产生重要影响。那么,谁会胜诉呢?基于对“合理使用”于“转换性使用”的认定,以及谷歌图书侵权案的先例,也许《》会成为又一个落败的旧势力。但是,它本身仍有可能成为因为人工智能而提升自身价值的新势力,前提是它能保持持续创作的能力。文章来自编译。
克里斯托弗·鲁福 (Christopher Rufo) ,保守派活动家,生于 1984 年,他带头揭露哈佛大学前校长克劳丁·盖伊 (Claudine Gay) 的抄袭证据。他是 2015 年加入 X 的。另一方面,哈佛大学是美国最古老的大学——事实上,比美国的历史还要悠久——成立于 1636 年。这种错配也许是盖伊事件最引人注目的一面:一位千禧一代,在Twitter 上,援引索尔·阿林斯基(Saul Alinsky)的《激进者守则》的第四条,“迫使敌人遵守自己的规则。”,推翻了我们最威严的机构的主席:在本例情况下,这条规则是指哈佛大学的抄袭政策:
所有家庭作业、期末作业、实验报告、学术论文、课堂期末考试在内的一切学术作业都应是学生本人独立完成的。学生应明白自己所需数据资料的来源,弄清楚哪些行为属于抄袭他人作品的行为。术语“来源”不限于印刷或网络出版物,还包括直接从他人那里获得的信息和意见。学生在引用时必须按照正确的引用规则进行引用。除此以外,学生必须在作品中标明一切不属于自己原创内容的作品来源……
不管出于何种原因,学生提交非本人作品或未明确注明来源的作品将受到纪律处分,严重者将被要求退学。被发现对任何违反这些标准负有责任的学生,不允许提交违规课程的课程评估。
鲁福当然很熟悉阿林斯基。就在几个月前,他引用了这位活动人士的话,庆祝The New Republic称他为危险人物。不过,我觉得The New Republic的文章更有趣,周末在 Twitter 上传得很火:克里斯托弗·鲁福获得了“哈佛”学位。呃……不完全是。
保守派活动人士克里斯托弗·鲁福近被佛罗里达州州长罗恩·德桑蒂斯 (Ron DeSantis) 任命为萨拉索塔一所小型文理学院的董事会成员。这个学院的课程州长不是很喜欢。 表面看来,克里斯托弗·鲁福展示的资历无可挑剔:根据曼哈顿研究所网站上关于他的传记的网页,乔治城大学本科毕业,获得哈佛大学的“硕士”。
但这个描述,以及、德桑蒂斯办公室发出的新闻稿还有鲁福个人网站的类似描述,至少是有误导性的。哈佛大学延伸教育学院(Harvard Extension School)在给The New Republic的电子邮件中证实,鲁福于 2022 年获得了政府文科硕士学位。简而言之,哈佛延伸学院,是这所著名学府的一部分,但并不是大多数人所知道的哈佛(一位哈佛学生曾开玩笑说,这是哈佛的“后门”)。这所学校的自述是“一家开放的招生机构,优先考虑准入、公平与透明”。根据学院网站的介绍,这所学校的入学资格“很大程度上取决于你在最多三门必修的延申学位课程的表现,具体取决于你所学领域,你必须以优异的成绩修完这些课程。”这家机构并不要求高中成绩以及 SAT 和 ACT 成绩。
这个故事的有趣之处在于,那些跟哈佛有关联的人——比如这位教授以及这位政治专家——对大家不关心哈佛与哈佛延伸学院的区别感到困惑,而其他人则对他们如此关注这种区别感到困惑。至少,这是我在 X 以及群聊中得到的印象,但我后来认识到,自己可能在两个方面存在偏见。首先, 2013 年我离开微软时曾在一篇名为《独立》的文章中写道:
有趣的是,有些人总是在寻找某种机构权威。我被叫做“微软的Ben Thompson”、“前苹果实习生Ben Thompson”以及“彻底疯狂的Ben Thompson”。其实我倒是希望第三个说法是真的,因为跟前两个不同,这个描述符取决于我写什么,而不是给我发薪水的人某种模糊的权威。
此外,援引的这两个地方都已经过时了:三年前我曾在苹果公司工作,截至到 7 月 1 日,我也不再为微软工作。相反,我是独立作者。还有什么可说的呢?我是一个人,这是我自己的博客上,我相信我写的东西很好地代表了我。
互联网有众多变革性,其中之一是它如何为个人赋权,让个体也能建立自己的机构。在过去的日子里,我的想法只局限在我自己跟几个亲密朋友之间交流;现在我的朋友遍布世界各地,我通过自己创办的机构与他们交流。
我不确定“机构”这个词的使用是不是完全正确,原因我会在本文中阐述,但不用说,我不喜欢将个人的价值建立在与机构的关联之上。现在,我可能带偏见的第二个原因是,就像我所指出那样,我的看法基于X与群聊:这些是原生的互联网格式,而且似乎很清楚的是,在互联网上价值和影响力的创造、捕捉以及利用方式从根本上来说是全新的,是与模拟世界不一样的。
过去两周也许我是一直在休息,但《》的法律团队及其自家记者却没有休息。他们写道:
周三,《》起诉 OpenAI 与微软侵犯了版权,此举为一场日益激烈的法律斗争开辟了新战线。这场官司的焦点是用未经授权的已发表作品来训练人工智能技术。 《》是第一家就与其书面作品相关的版权问题起诉这些公司、ChatGPT 与其他流行人工智能平台的开发者的美国主要媒体机构。这份提交到曼哈顿联邦地方法院的诉状称,《》发表的数百万篇文章被用来训练自动聊天机器人,这些聊天机器人现在与该新闻机构形成了竞争,成为可靠的信息来源。
诉讼未明确提出具体的经济要求,但称被告应对与非法复制和使用《》独特有价值的作品相关的数十亿美元的法定和实际损害负责,还要求被告销毁使用《》版权材料的所有人工智能模型和训练数据。
不仅是这个案件,所有各种与版权相关的人工智能案件都有两个方面:输入与输出。在我看来,输入问题显而易见:我自己就消费了大量受版权保护的内容——其中也包括来自《》的内容——并且输出的内容无疑受到了我输入给大脑的内容的影响。这显然并不违法,虽然人工智能模型完全是不一样的运作规模,但核心概念是相同的(这一点我愿意接受辩论,不仅在本案情况下,而且在一系列问题上,技术促成的规模意味着类型上的差异(编者注:量变引起质变);不过,这关乎的是制订新法的必要性之争,而不是改变旧法的含义)。
版权主张要想成立,输出需要一样;这就是之前的案件(比方说莎拉·西尔弗曼(Sarah Silverman)诉 Meta案)不成立之处。来自The Hollywood Reporter:
西尔弗曼(以及其他起诉人工智能公司的创作者)的另一个主要理论是,人工智能模型生成的每一个输出都是侵权的衍生品,这些公司从第三方用户给出的每一个答案中收益,这涉嫌构成替代侵权。法官得出的结论是,她的律师(同时也是起诉StabilityAI 、DeviantArt 与Midjourney 的艺术家的代理律师)“这样说是错误的”——因为作为LLaMA训练过程的一部分,他们的书是被完全复制下来的——不需要证明实质性相似输出的证据。
Chhabria 写道:“为了让LLaMA 的输出构成衍生侵权的理论得到认可,原告确实需要指控并最终证明这些输出‘以某种形式融合了原告书籍的一部分’”。这个给推断与 Orrick 法官在对Stability AI的诉讼案的推断类似,后者称“被指控侵权者的衍生作品必须仍与原作具有一定的相似性,或者包含有原作受保护的元素。”
这就是为什么《》提交的诉状里面最重要的部分是附件 J,里面含有“GPT-4 记忆《》内容的100个例子” 。所有示例的格式都非常相似;这是示例 1:
这是相同的输出!这还跟本案的前景关系更大,因为先前案件被驳回的具体原因已经得到解决。
这个修复似乎确实是普遍性的修复:在有限的测试当中,我都没法复现《》案件文件的行为,不管是用《》的内容还是其他来源的内容都不行。我认为,这至少会给人一种 OpenAI 与 Napster 截然不同的印象。Napster 被判侵犯版权,很大程度上是因为它非常清楚自己服务的主要用途是什么。在本案情况下,《》用了一种非常不寻常的提示来引出受版权保护的内容,而 OpenAI 则迅速采取行动,堵住了漏洞。
引申开来,这就引出了一个问题:这些例子到底是谁的错:如果《》将一篇文章放到复印机上并按下复印键,它就一定不会起诉施乐吗?或者想想看,苹果提供了在 iPhone 上“打印”任何网页,并在打印屏幕上将所述网页转换为 PDF的机会,并附有分享菜单:如果我用这项功能把一篇文章发给朋友,这是该手机制造商的错吗?这跟用极不寻常的提示来获取受版权保护的材料有多大不同?
在我看来,这个问题可不只是迂腐这么简单:休息期间另一个新闻焦点是Substack拒绝审查纳粹内容这件事;这家newsletter提供商需要对用户自愿放在自己平台上的内容负多大责任?这不是一个简单的问题——我之前曾笼统阐述过我提出的办法——但认为仅仅因为一个工具可能会在特定提示下生成非法或不良内容,就认定其具有非法性或默认支持那些内容,并因此是非法或有违法行为,这似乎是有问题的。
所有这些问题都将在法庭上进行探讨;除了前面提到的 Napster 案之外,我预计法院还会考虑道 Authors Guild 诉谷歌的先例,也就是 Google Books 案,此案的关系尤其大,因为这牵涉到一家大型科技公司吸收了受版权保护作品的全部内容(我在想,这对于谷歌自己的大语言模型来说应该是一笔巨大的财富)。第二巡回上诉法院做出了对谷歌有利的裁决:
谷歌制作数字副本来提供搜索功能是一种转换性使用,它通过提供有关原告书籍的信息来增强公众的知识,而无需向公众提供原作品或其衍生作品受原告版权利益保护的实质性替代品。至少在当前条件下,谷歌提供的代码段功能也属于同样情况。原告称谷歌侵占了其进入付费和非付费授权市场以提供与谷歌提供的功能实质相同的功能的机会不成立,部分是因为授权市场实际涉及的功能与谷歌提供的功能非常不同,部分是因为作者的衍生权不包括提供有关其作品信息(谷歌提供的那种)的排他权。谷歌的商业特性和逐利动机不能作为否定合理使用的正当理由。根据我们目前掌握的记录,谷歌的计划目前没有让原告因黑客入侵而面临损失版权价值的不合理风险。最后,谷歌向参与的图书馆提供数字副本,授权它们以非侵权的方式使用,这属于非侵权使用,只是基于臆断推测图书馆可能会除了以非侵权方式外,也会以侵权方式来使用原告作品的数字复制件,并没有任何依据让谷歌作为帮助侵权者而承担责任。。
确定某种特定使用是否合理使用的唯一方法是由联邦法院裁决。法官在裁决合理使用争端时会运用四个因素,后面会对此进行详细讨论。重要的是要理解,这些因素只是指导方针,法院可以根据个案自由裁量。换句话说,法官在做出合理使用决定时拥有很大的自由度,因此任何特定案件的结果都很难预测。
我不是律师,但照我的判断,大语言模型显然具有转换性(目的和性质); 《》作品的性质也对 OpenAI 有利,因为相对于虚构信息,通常给予传播事实信息的许可范围会更大。 OpenAI 显然利用了《》的所有作品用于他们的模型,但这个情况已经在 前述谷歌图书案中得到解决了。现在就剩下第四点,潜在的“使用对潜在市场的影响”。
《》的律师似乎知道这会是要点所在:他们在第一段就列举了《》对新闻业的投资,并在第二段指出:
被告非法利用《》的作品来开发与之竞争的人工智能产品,者威胁到了《》提供该服务的能力。被告的生成式人工智能(“GenAI”)工具依赖于大语言模型(“LLM”),这些模型是通过复制和使用数以百万计《》受版权保护的新闻文章、深度调查、观点文章、评论、操作指南等而开发出来的。虽然被告通过许多来源进行大规模复制,但他们在开发大语言模型时特别强调了《》的内容,这表明他们承认这些作品的价值。通过微软的 Bing Chat(最近更名为“Copilot”)以及 OpenAI 的 ChatGPT,被告试图利用《》对其新闻业的巨额投资搭便车,在未经许可或付费的情况下利用这些投资来开发替代产品。
谷歌图书的案例的相关性似乎再次显现,尤其式是考虑到生成受版权保护的内容所需的努力和意图(并且这已经受到 OpenAI 的限制)。地区法官写道:
原告认为,谷歌图书会对图书市场产生负面影响,而谷歌的扫描会成为图书的“市场替代品”。 [诉状]还认为,用户通过进行多次搜索,稍微改变一下搜索词,即可访问整本书。
这两点主张都没有道理。谷歌并不出售其扫描件,扫描件也不能取代书籍。虽然图书馆合作伙伴可以从其馆藏中下载书籍的扫描件,但这些书图书馆本身就已经拥有了 – 是他们将原始书籍提供给谷歌进行扫描的。有人会花费时间和精力进行无数次搜索,试图获得足够的片段来拼凑出整本书也不太可能。
OpenAI 确实出售其大语言模型的访问权(与微软一起);在此案中,谷歌的搜索主导地位,以及由此产生的不需要通过谷歌图书等补充品来挣钱的奢侈,给予了谷歌更多的法律保护。不过,《》不仅仅主张人们会通过 ChatGPT 阅读《》,就对公司货币化的直接影响而言,关于Wirecutter的这一部分更引人注目:
有效重现Wirecutter推荐的详细综合搜索结果会降低用户浏览原始来源的动力。 Wirecutter文章的流量减少,进而导致附属链接的流量减少,最终导致Wirecutter的收入损失。如果用户已经了解Wirecutter对最佳的无线棒式真空吸尘器的推荐以及这些推荐的基础知识点,则没有理由访问Wirecutter 的原始文章并单击其网站内的链接。如此一来,被告的生成式人工智能产品就构成了与《》的内容直接的、不公平的竞争,并抢占了《》的商业机会。
用户依赖Wirecutter提供经过充分研究的高质量推荐,而Wirecutter 的品牌因一些事件而受损,这些事件削弱了消费者的信任,并加剧了人们对Wirecutter推荐不可靠的看法。
下文我们还会进一步讨论,但这种“幻觉”错误地将产品推荐说成是Wirecutter 的推荐,而该产品并非由 Wirecutter 制造且未确认为可靠产品,从而危及到 Wirecutter的声誉。
这导致了这一整个章节都在泛泛而谈幻觉问题,以及它如何对《》造成了损害。但事实上,这就是为什么我认为《》关于合理使用的第四点主张出现倒退了。
鲁福在对抗哈佛大学之所以行之有效,是因为他运用了哈佛自己的抄袭规则来对付哈佛。但是,为什么哈佛会有关于抄袭的规定呢?我怀疑这与哈佛已有388年的历史有关。我们的目标是知识的积累和传承,不仅是面向今天的学生,而且还包括面向 300 年后的学生;这意味着今天工作中对细节的认真关注与诚实将经受住时间的考验,并为哈佛的遗产增添光彩。
值得注意的是,抄袭可以说是互联网的通病。两年前我在《错误与模因》中写道:
回到过去的印刷机时代:虽然有限数量的文字是由修道士辛苦地手工抄写保留下来,但绝大多数信息都是靠口头传递的;这为信息随着时间的推移而演变留下了空间,但是这种演变及其影响会受到传播时间的限制。另一方面,印刷机则必须冻结信息,因为这样才可以捕获和传递信息。
这显然太过简化了,但这种简化在文明,尤其是在欧洲文明中得到了体现:局部演进与包罗万象的真理知识的传播性,跟天主教统治的城邦国家组成的世界是相吻合的。与此同时,印刷书籍为统一语言以及新型的看门人提供了经济动力,使之与由贵族统治的民族国家的世界保持一致。
而互联网不只是跟需求有关(这是我的第一个错误),也不只是跟供给有关(这是我的第二个错误)。供给与需求既同时发生,又相互影响。事实证明,“病毒式传播”的字面意义其实比让文章、图片或视频传播到更远地方的最初含义还要准确。真正的病毒会随着传播而发生变异,就像随着时间的流逝,当初的文章、图片或视频在病毒式流行之后,几乎已经变得认不出来了,现在它变成模因了。
在互联网模因满天飞的环境下,去争论引文或引号的使用似乎是无稽之谈,但这正说明了最重要的一点:信息在互联网的创建和传播方式从根本上来说是全新的,跟模拟世界是完全不一样的。 《纽约客》之前那副漫画指出,“在互联网上,没有人知道你是一条狗”。这里的推论是,在 X 上,没人关心你的机构是不是有 388 年的历史,当然,除非这个可以被用作攻击你的手段。
引申而言,这也解释了为什么对鲁福学位的攻击并没有波及到网上的大多数人:没人关心。对互联网的影响与你最近所做的事情直接相关:YouTuber 的受欢迎程度取决于他们的最新视频,推特用户的受欢迎程度取决于他们的最新笑话,网红的受欢迎程度取决于他们的最新视频。就鲁福而言,重要的是他是不是为自己的主张提供了证据;痴迷于信使是谁就是忽视了这一点:他可能是《纽约客》画笔下的那条狗。
这与《》诉讼案相关是因为《》把自己的价值描述为 OpenAI 用于训练的累积档案。毫无疑问,这本身就是一栋令人印象深刻的宏伟建筑,从哈佛大学走到《》新闻编辑室是有原因的。不过,《》已经从一份报纸转型为一家在线巨头,这一点值得称道,这意味着纯新闻不再是优先事项。来自《出版正回到未来》:
我这里对出版商的批评也许比较严厉,但事实上在互联网上新闻是一个非常难做的业务。读者之所以不会留恋任何一个新闻来源,哪怕这个来源消失了也不会留恋,是因为新闻一旦被报道出去,就会立即丧失所有的经济价值,因为它会立即被复制和分发出去,免费地。当然了,这一点历来如此。记者们只是没有意识到,大家是在为纸张、新闻纸和送货卡车付费,而不是为他们的报道付费,而广告商则为人流付费。按照传统,他们并不关心钱是如何赚到的。
《》是最能解决这个问题的出版物。这就是为什么该报一直清楚其编辑方法要与其业务目标相一致的重要性,这一点值得称道。摘自 2017 年的《2020 报告》:
用最简单的话来说,我们是一家订阅优先的企业。我们对订阅者的关注让我们在关键方面有别于许多的其他媒体组织。我们的策略不是靠将点击次数最大化并针对性出售低利润的广告。我们并不想赢得浏览量军备竞赛。我们相信, 《》更健全的商业战略是提供强大的新闻报道,让全世界数百万人愿意为此付费。当然,这一战略也与我们的长期价值观高度契合。我们的激励措施引导我们迈向卓越的新闻事业……
我们的新闻业必须做出改变,去适应和预测读者现在和未来的习惯、需求和愿望。我们需要这样的新闻报道,更多的人看到之后会认为这是一个不可或缺的目的地,值得他们每天花时间去看,并支付订阅费用。
请注意,重点是成为目的地,也就是用户直接访问的网站;这是订阅业务模式的基本品质。来自《本地新闻的商业模式》:
订阅的含义非常重要。首先,这不是捐赠:而是要求顾客为产品付款。那么,产品是什么?事实上,产品不是任何一篇文章(对微交易的误导性关注忽略了这一点)。相反,订阅者正在为定期交付明确定义的价值付费。
定期交付:订阅者不需要依赖于内容的随机发现;所述内容可以直接交给给订阅者,无论是通过电子邮件、书签还是app。
这一切都与档案无关,二是与制作有关:对互联网的影响取决于你最近所做的事情,也就是说,《》的价值取决于其每天持续生产出来的高质量内容。不过,关于人工智能的事情是这样的:我上个月在《令人遗憾的加速主义》中写道,人工智能有可能让网络(本来就已经是一个越来越不适合高质量内容生存之地)变得更糟,对谷歌的潜在损害尤其巨大。推而广之,这会让目的地网站变得更有价值,也就是说,它会让《》变得更有价值。