OpenAI GPT 模型的巨大飞跃可能来自于吸收整个书面网络。其中包括 Axel Springer、Condé Nast 和美联社等主要出版商的全部档案——未经他们的许可。但出于某种原因,OpenAI 还是宣布与其中许多企业集团达成了交易。
乍一看,这完全说不通。OpenAI 为什么要为它已经拥有的东西付费?为什么出版商会同意呢?其中一些出版商对自己的作品被盗用感到愤怒,甚至提起诉讼。
我想,如果我们仔细研究这些交易,我们就能看出网络未来的一种可能形态。谷歌引流到外部的流量越来越少,这威胁到了整个网络的存在。这是搜索领域的权力真空,OpenAI 可能正试图填补这一真空。
让我们先从已知的情况说起。根据宣布与 Axel Springer 达成交易的新闻稿,这些交易让 OpenAI 能够访问出版物,例如,“通过添加各种主题的最新权威内容,丰富用户对 ChatGPT 的体验” 。 “最新内容”部分至关重要。抓取网络意味着 ChatGPT 无法检索信息的日期超过该日期。OpenAI 越接近实时访问,其产品就越接近实时结果。
一方面,这只是微不足道的一笔钱,少得可怜
我猜想,这些交易的条款仍然模糊不清,因为每个人都签署了保密协议。当然,我对与 Vox Media(该出版物的母公司)的交易细节一无所知。对于出版商而言,当他们转向谷歌和人工智能初创公司 Anthropic 时,保密细节会让他们更有优势——就像不披露你之前的薪水可以让你向新的潜在雇主要求更高的薪水一样。
据The Information报道, OpenAI 每年向出版商提供的报酬仅为 100 万至 500 万美元。有报道称,该公司与 Axel Springer、金融时报、NewsCorp、Condé Nast 和美联社等出版商达成了交易。根据公开报道的数据,我粗略计算得出,这些交易的上限为每份出版物每年 1000 万美元。
一方面,这些钱微不足道,微不足道。(该公司前首席研究员 Ilya Sutskever仅在 2016 年就赚了 190 万美元。)另一方面,OpenAI 已经抓取了所有这些出版物的数据。除非法院禁止它这样做,否则它可以继续这样做。那么,它到底是为了什么而付钱呢?
也许是 API 访问,让抓取变得更容易、更及时。就目前情况而言,ChatGPT 无法回答最新的查询;API 访问可能会改变这种情况。
但这些付款也可以被视为一种确保出版商不会因为已经抓取的内容而起诉 OpenAI 的方式。一家主要出版物已经提起诉讼,而 OpenAI 的损失可能要大得多。这场法律纠纷将持续数年。
《纽约时报》准备提起诉讼
如果 OpenAI 吸收了整个基于文本的互联网,那就意味着几件事。首先,短期内无法再次生成如此大量的数据,因此这可能会限制 ChatGPT 的实用性进一步飞跃。(值得注意的是,OpenAI 尚未发布 GPT-5。)其次,很多人都很生气。
其中许多人已经提起诉讼,其中最重要的一起是由《纽约时报》提起的。 《纽约时报》的诉讼称,OpenAI 在培训法学硕士时采用了 OpenAI 的工作成果,这侵犯了版权。此外,OpenAI 通过这种方式创建的产品现在与《纽约时报》竞争,目的是“抢走它的观众”。
《纽约时报》在诉讼中称,它曾试图与 OpenAI 谈判,以允许使用其作品,但谈判失败了。根据我上面的计算,我大胆猜测,这是因为 OpenAI 向《纽约时报》提供的报酬低得离谱。它的借口是什么?合理使用——一项允许在某些情况下未经许可使用受版权保护材料的条款。
如果该报胜诉,OpenAI 将不得不支付至少 75 亿美元的法定损害赔偿金
如果《纽约时报》赢得诉讼,它可能有权获得法定赔偿,起价为每件作品 750 美元。(我知道这些数字是因为——你可能从我使用的“法定”一词中猜到了——它们是法律规定的。该报还要求补偿性赔偿、赔偿和律师费。)《纽约时报》称,OpenAI 总共吸收了 1000 万件作品——因此仅法定赔偿金一项就绝对至少有 75 亿美元。难怪《纽约时报》不会以数百万美元的价格达成协议。
因此,当 OpenAI 与出版商达成协议时,从功能上讲,这些协议是保证出版商不会像《纽约时报》那样起诉 OpenAI 的和解协议。这些协议的结构也使得 OpenAI 能够坚持其之前对出版商作品的使用是合理使用——因为 OpenAI 将不得不在多起法庭案件中争辩这一点,其中最著名的是与《纽约时报》的那起。
新闻媒体联盟首席执行官丹尼尔·科菲表示:“我确实有充分的理由相信,他们希望保留在合理使用原则下使用的权利。如果他们不这么做,他们就不会在法庭上为此辩护。”
OpenAI 似乎希望稍微恢复一下自己的名声。如果你要推出一款新产品,希望人们为之付费,那么它就不能带来太多负担和不确定性。而 OpenAI 确实有负担:为了进行合理使用辩护,它必须承认未经许可使用了《纽约时报》的版权材料——这暗示它也未经许可使用了许多其他版权材料。它的论点只是它有合法的权利这样做。
还有一个准确性问题。目前,我们都知道生成式人工智能会编造一些东西。出版商交易不仅提供了合法性——它们还可能帮助生成式人工智能提供不太可能导致尴尬错误的信息。
谷歌
除了诉讼预防和声誉管理之外,还有更多事情要做。还记得这些交易还为 OpenAI 提供了最新信息吗?OpenAI 最近宣布推出自己的搜索引擎SearchGPT 。人工智能原生网络搜索仍处于起步阶段,但能够过滤掉人工智能生成的 SEO 垃圾信息,转而使用真正可靠的信息来源,这将是一大优势。
过去几年,谷歌搜索的性能严重下降,而谷歌在其搜索结果顶部添加的人工智能聊天机器人并没有起到什么帮助作用。它有时会给出不准确的答案,同时将包含真实信息的链接隐藏在页面的深处。如果你想开发一款产品来颠覆我们所知的网络搜索,现在正是时候。
OpenAI 的交易为出版商提供了更多的筹码,并可能最终迫使谷歌坐上谈判桌
谷歌还惹怒了出版商——它不仅将所有数据都输入到自己的大型语言模型中,还将自己重新定位。谷歌搜索曾是出版商的主要流量来源,也是将人们引导至主要来源的一种方式。但后来,谷歌推出了“摘要”,这意味着人们不必点击链接就能知道,比如,要稀释椰奶多少才能制成椰奶等。因为人们没有去原始来源,所以出版商的广告展示次数就没有那么多。多年来,谷歌对搜索进行了各种 其他 更改,这意味着谷歌为出版商(尤其是小型出版商)带来的流量减少了。
现在,谷歌的人工智能聊天机器人进一步排挤了出版商。但 OpenAI 的交易让出版商获得了更多的筹码,并可能最终迫使谷歌坐上谈判桌。
谷歌通常不习惯为搜索达成付费交易;直到最近,这种安排都是出版商获得流量推荐。但对于其聊天机器人,谷歌确实与 Reddit 达成了交易。谷歌每年只需支付 6000 万美元,就可以访问 Reddit,从而切断所有未达成类似交易的搜索引擎。这比 OpenAI 支付给出版商的费用要高得多,并且打开了一扇似乎出版商打算走进的大门。
占领搜索市场才能够证明所有的投资都是合理的
多年来,谷歌对普通用户的用处越来越小。生成式人工智能可能会使情况变得更糟,因为它会创建充斥着垃圾文本和广告的网站。当然,谷歌不会以同样的方式对待它抓取的所有网站。但如果有人能想出一种承诺提供更高质量信息的替代方案,那么迷失方向的搜索引擎可能会陷入真正的麻烦。毕竟,谷歌就是这样取代了之前的搜索引擎,比如 AltaVista。
OpenAI 烧钱,今年可能亏损 50 亿美元。目前,该公司正在洽谈新一轮融资,估值超过 1000 亿美元。要证明接近这一估值的合理性,它需要一条盈利之路。占领搜索市场就是可以证明所有投资合理性的事情。
OpenAI 的 SearchGPT 目前还不构成严重威胁。它仍处于“原型”阶段,这意味着如果它犯了错误,比如告诉人们在披萨上涂胶水,那么这更容易解释。与几乎每个上网用户都能使用的 Google 不同,SearchGPT 的用户数量有限——因此很少有人会发现早期的错误。
与出版商的协议也为 SearchGPT 提供了另一个声誉缓冲。其竞争对手 Perplexity 因抓取明确禁止其的网站而受到抨击。相比之下,SearchGPT 是与签署协议的出版商合作的。
当法院真正做出裁决时会发生什么?
目前还不清楚转向“答案引擎”对出版商的利润意味着什么。也许有些人会继续点击查看原始资料,尤其是如果无法从大型语言模型中去除幻觉的话。另一个可能的模型来自 Perplexity,它迟迟推出了一项收益分享计划。
收益分享计划让 Perplexity 更容易声称其抓取行为是合理使用(听起来很熟悉?)。Perplexity 的情况与 ChatGPT 略有不同;它创建了一款“Pages”产品,不幸地存在剽窃受版权保护材料的倾向。福布斯和康泰纳仕已经向 Perplexity 发送了法律警告。
所以,最大的问题是:当法院真的做出裁决时会发生什么?这些出版商协议存在的部分原因就是为了减少法律诉讼的威胁。但它们的存在本身可能与“为人工智能抓取受版权保护的材料是合理使用”的论点相悖。
版权错误
有利于《纽约时报》的裁决可能会对谷歌和 OpenAI 以及支持 OpenAI 的微软有利。也许这就是前谷歌首席执行官埃里克·施密特所说的企业家应该对受版权保护的作品做任何他们想做的事情,并“聘请一大群律师来收拾残局”的意思。
法院在版权法方面是不可预测的,因为它有点像色情片——法官一看到就知道侵权。此外,如果《纽约时报》和 OpenAI 之间确实有一场审判,那么几乎肯定会对判决提出上诉,无论谁赢。
诉讼案件需要时间,上诉需要更多时间。法院需要数年时间才能解决所有问题。对于像 OpenAI 这样的公司来说,这段时间足以发展主导业务。
她特别指出,谷歌的规模如此之大,以至于它可以强迫出版商遵守其条款
假设 OpenAI 最终失败了。这意味着所有大型语言模型的创建者都必须付出代价。这可能会变得非常昂贵,而且非常快——这意味着只有最大的参与者才能参与竞争。它让每一个老牌参与者都陷入困境,并有可能摧毁许多开源 LLM。这使得谷歌、微软、亚马逊和 Meta 在生态系统中的重要性甚至超过了它们已经占据的主导地位——以及 OpenAI 和 Anthropic,这两家公司都与一些主要参与者达成了协议。
新闻媒体联盟的科菲表示,大型科技公司如何应对不利于它们的裁决也有一些先例。她特别提到谷歌,因为谷歌规模如此之大,以至于它可以强迫出版商遵守其条款;似乎是为了强调她的观点,在我们采访几周后,谷歌在一场反垄断案中被合法宣布为垄断企业。
以下是谷歌超强实力的一个例子:2019 年,欧盟赋予数字出版商在谷歌使用其作品片段时要求付费的权利。这项法律首先在法国实施,导致谷歌告诉出版商,它只会使用他们作品的标题,而不会付费。“因此,他们向法国出版物发送了大量信件,称如果你想被找到,就放弃你的版权保护,”科菲说。“从这个意义上说,他们几乎凌驾于法律之上”,因为谷歌搜索占据主导地位。
谷歌目前正在利用其在搜索领域的主导地位,以类似的方式挤压出版商。阻止其人工智能总结人们的作品意味着谷歌根本不会列出它们,因为它使用相同的工具来抓取网页搜索和人工智能训练。
“这将是生态系统初期一场真正的反竞争悲剧。”
因此,如果《纽约时报》胜诉,谷歌和其他主要人工智能公司似乎仍有可能要求达成对出版商没有多大好处的交易,同时摧毁竞争对手的法学硕士课程。“我非常担心,我们正在建立一个生态系统,在这个生态系统中,只有最大的公司才能买得起训练数据,”公共知识政策顾问尼古拉斯·加西亚 (Nicholas Garcia) 表示。
事实上,这起诉讼的存在可能足以阻止一些参与者使用公开数据来训练他们的模型。人们可能会认为他们无法使用公开数据进行训练——这将使竞争态势比已经存在的计算和专家供应瓶颈更加缩小。“这将是生态系统初期一场真正的反竞争悲剧,”加西亚说。
OpenAI 并不是《纽约时报》案件中唯一的被告,另一个被告是其合作伙伴微软。如果 OpenAI 确实必须支付至少数亿美元的和解金,那么它可能会被微软收购——而微软将拥有 OpenAI 已经谈判好的所有许可协议,而在一个版权法要求许可协议的世界里。这是相当大的竞争优势。诚然,目前,由于政府对反垄断的新兴趣,微软假装它并不真正了解 OpenAI,但随着版权案件在系统中展开,这种情况可能会改变。
OpenAI 可能会因为其谈判达成的许可协议而蒙受损失。这些协议为出版商的数据创造了一个市场,根据版权法,如果你扰乱了这样的市场,那么这就不属于合理使用。这一论点最近出现在最高法院的一个案件中,该案件涉及安迪·沃霍尔的一幅画作,该画作被裁定与创作这幅画的原始照片不公平地竞争。
当然,法律问题并不是唯一的问题。我一直在思考一个更基本的问题:人们是否想要答案引擎?如果是,它们在经济上是否可持续?搜索不仅仅是寻找答案——谷歌是一种无需记住或收藏网址即可找到特定网站的方式。此外,人工智能成本高昂。OpenAI 可能会失败,因为它根本无法盈利。至于谷歌,它可能会因为垄断调查结果而被监管机构拆分。
在这种情况下,也许出版商毕竟是聪明人:趁着钱还多的时候去赚钱
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...