纽约时报:三大年夜科技巨擘为演习人工智能模型可疑获取数据_人工智能_数据
该报告首先针对 OpenAI,声称该公司利用一种名为 Whisper 的语音识别工具来转录 YouTube ***中的音频,并为 A. 演习天生新的对话文本。
宣布称,OpenAI 事情职员谈论了转录 YouTube ***的决定是否可能违反该***网站的规则,这显然是一个戳穿。
随后透露,OpenAI 确实转录了超过 100 万小时的 YouTube ***,并且这得到了 OpenAI 总裁 Greg Brockman 的帮忙。然后将转任命作演习 GPT-4 的一部分。
报告声称,人工智能已经成为对推进技能所需的数字数据的冒死征采,然后补充道,「为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司走捷径,忽略公司政策,并辩论改变人工智能的发展方向。」
该报告随后声称,Meta 显然考虑收购出版商 Simon & Schuster LLC,以采购长篇作品来帮忙演习他们的人工智能,并谈论了从互联网上网络受版权保护的数据,纵然这意味着面临诉讼以及与出版商会谈容许、艺术家、音乐家和***业须要太永劫光。”
随后,谷歌被指控转录 YouTube ***为其人工智能模型网络文本,《纽约时报》宣布称,谷歌可能陵犯了***的版权,并变动了条款,许可抓取公开可用的谷歌文档、谷歌舆图上的餐馆评论和其他在线材料来演习他们的人工智能。
鉴于这种措辞,《纽约时报》彷佛试图描述一幅大规模版权盗窃的恐怖画面,但每每避免直接这么说。谷歌并没有盗取转录内容,它可能陵犯了版权; Meta谈论了抓取公共数据的合法性; OpenAI 谈论了转录 YouTube 是否可能违反某些规则。
这些都是任何开拓人工智能的公司在与他人友好相处和遵守法律时该当进行的合理对话。关于人工智能的合理利用和数据,法律仍旧非常灰色,《纽约时报》知道这一点,否则它不会起诉 OpenAI。
值得把稳的是,合理利用是人工智能公司所做事情的核心,也是 OpenAI在《纽约时报》诉讼中辩解的关键。人工智能开拓职员认为,利用公开内容演习人工智能模型是合理利用。
这篇文章的另一个显著特点是,《纽约时报》的文章用了 17 段才表露其正在就报告中的一些指控诉状 OpenAI,这使得这篇文章无论故意还是无意,读起来就像是针对该公司的攻击文章。
以下为纽约时报全文:
2021年底,OpenAI面临数据供应问题。
在开拓最新的人工智能系统时,人工智能实验室已经耗尽了互联网上所有有信誉的英语文本库。它须要更多的数据来演习其技能的下一个版本——更多。
因此 OpenAI 研究职员创建了一款名为 Whisper 的语音识别工具。它可以转录 YouTube ***中的音频,天生新的对话文本,使人工智能系统变得更加智能。
三名知情人士表示,一些 OpenAI 员工谈论了此举可能违反 YouTube 的规则。谷歌旗下的 YouTube 禁止将其***用于独立于该***平台的运用程序。
知情人士称,终极 OpenAI 团队转录了超过 100 万小时的 YouTube ***。
两位知情人士称,该团队包括 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman),他亲自帮助网络了这些***。然后这些文本被输入一个名为GPT-4的系统,该系统被广泛认为是天下上最强大的人工智能模型之一,也是最新版本 ChatGPT 谈天机器人的根本。
引领人工智能的竞赛已经变成了对推进技能所需的数字数据的冒死征采。
根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司纷纭走捷径,忽略公司政策,并谈论违反法律。
根据《纽约时报》得到的内部会议记录,在拥有 Facebook 和 Instagram 的 Meta 公司,经理、状师和工程师去年谈论了收购 Simon & Schuster 出版社以采购长篇作品。他们还商定从互联网上网络受版权保护的数据,纵然这意味着面临诉讼。
他们说,与出版商、艺术家、音乐家和***业会谈容许将花费太永劫光。
五位理解该公司实践的人士表示,与 OpenAI 一样,谷歌也转录了 YouTube ***,为其人工智能模型网络文本。这可能陵犯了***的版权,这些***属于其创作者。
去年,谷歌还扩大了其做事条款。
根据该公司隐私团队的成员和《纽约时报》看到的一份内部,这一变革的动机之一是许可谷歌能够利用公开的谷歌文档、谷歌舆图上的餐厅评论和其他在线材料来获取更多信息。
这些公司的行动解释了在线信息——***故事、虚构作品、留言板帖子、维基百科文章、打算机程序、照片、播客和电影剪辑——如何日益成为发达发展的人工智能行业的命脉。创建创新系统取决于是否有足够的数据来教导技能立即天生类似于人类创建的文本、图像、声音和***。
数据量至关主要。
领先的谈天机器人系统已经从涵盖多达 3 万亿字的数字文本池中学习,大约是牛津大学博德利图书馆存储的字数的两倍,该图书馆自 1602 年以来一贯网络手稿。
人工智能研究职员表示,最有代价的数据是优质信息,例如由专业人士精心撰写和编辑的已出版书本和文章。
多年来,互联网(包括维基百科和Reddit等网站)彷佛是无穷无尽的数据源。但随着人工智能的进步,科技公司寻求更多的存储库。
谷歌和 Meta 拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,这在很大程度上受到隐私法和他们自己的政策的限定,无法将大部分内容用于人工智能。
他们的情形很紧急。
研究机构 Epoch 表示,科技公司最早可以在 2026 年运行互联网上的高质量数据。这些公司利用数据的速率比产生数据的速率还要快。
硅谷风险投资公司 Andreessen Horowitz 的代表状师 Sy Damle在谈到人工智能模型时表示: 这些工具存在的唯一实用方法是,它们可以接管大量数据的演习,而无需得到这些数据的容许。所需的数据如此弘大,纵然是集体容许也确实行不通。
科技公司如此渴望新数据,以至于一些公司正在开拓合成信息。这不是人类创建的有机数据,而是人工智能模型天生的文本、图像和代码——换句话说,系统从它们自己天生的内容中学习。
OpenAI 表示,其每个人工智能模型都拥有我们精心策划的独特数据集,以帮助他们理解天下并在研究中保持环球竞争力。
谷歌表示,其人工智能模型接管了一些 YouTube 内容的演习,这是与 YouTube 创作者达成的协议所许可的,并且该公司没有在实验操持之外利用来自办公运用程序的数据。
Meta 表示,它已经进行了积极投资,将人工智能整合到其做事中,并从 Instagram 和 Facebook 获取了数十亿公开共享的图像和***来演习其模型。
对付创作者来说,人工智能公司越来越多地利用他们的作品,引发了有关版权和容许的诉讼。
《纽约时报》去年起诉 OpenAI 和微软,称其在未经容许的情形下利用受版权保护的***文章来演习人工智能谈天机器人。
OpenAI 和微软表示,利用这些文章是合理利用,或者说是版权法许可的,由于他们为了不同的目的而改造了这些作品。
去年,超过 10,000 个贸易团体、作者、公司和其他人士向版权局提交了有关人工智能模型利用创意作品的评论,版权局是一个正在准备版权法在人工智能时期如何适用的联邦机构的指南。
电影制作人、前演员和两本书的作者贾斯汀·贝特曼 (Justine Bateman) 见告版权局,人工智能模型在未经容许或付费的情形下获取内容(包括她的作品和电影)。
「这是美国最大的盗窃案。」她在接管采访时说。
「规模便是你所须要的」
2020 年 1 月,约翰·霍普金斯大学理论物理学家 Jared Kaplan 揭橥了一篇关于人工智能的首创性论文,引发了人们对在线数据的兴趣。
他的结论很明确:演习大型措辞模型(驱动在线谈天机器人的技能)所需的数据越多,它的性能就越好。正如学生通过阅读更多书本可以学到更多知识一样,大型措辞模型可以更好地查明文本中的模式,并通过更多信息变得更加准确。
「每个人都非常惊异,这些趋势——我们所说的这些缩放定律——基本上和你在天文学或物理学中看到的一样精确。」卡普兰博士说,他与九名 OpenAI 研究职员一起揭橥了这篇论文。
他现在在人工智能初创公司 Anthropic 事情。
「规模便是你所须要的」很快成为人工智能的战斗口号
研究职员长期以来一贯利用大型公共数字信息数据库来开拓人工智能,包括维基百科和 Common Crawl,这是一个自 2007 年以来网络的超过 2500 亿个网页的数据库。
研究职员常常通过在利用之前删除仇恨辞吐和其他不须要的文本来清理数据。
按照本日的标准,2020 年的数据集很小。一个包含来自照片网站 Flickr 的 30,000 张照片的数据库在当时被视为主要资源。
在卡普兰博士揭橥论文之后,这些数据量已经不足了。纽约人工智能公司 Nomic 的首席实行官布兰登·杜德施塔特 (Brandon Duderstadt) 表示,统统都是为了把事情做大。
当 OpenAI 于 2020 年 11 月推出GPT-3时,它接管了迄今为止最大量的数据演习——约 3000 亿个token,这些token实质上是单词或单词片段。从这些数据中学习后,系统以惊人的准确性天生文本,编写博客文章、诗歌和自己的打算机程序。
2022 年,谷歌旗下的人工智能实验室 DeepMind 走得更远。它测试了 400 个人工智能模型,并改变了演习数据量和其他成分。表现最好的模型利用的数据乃至比卡普兰博士在论文中预测的还要多。个中一个模型 Chinchilla 接管了 1.4 万亿个token的演习。
很快就被超越了。
去年,中国研究职员发布了一个人工智能模型Skywork,该模型利用来自英文和中文文本的 3.2 万亿个标记进行演习。谷歌还推出了人工智能系统PaLM 2,token打破3.6万亿。
转录 YouTube
今年 5 月,OpenAI 首席实行官萨姆·奥尔特曼 (Sam Altman ) 承认,人工智能公司将耗尽互联网上所有可行的数据。
「那将会耗尽。」他在一次技能会议上的演讲中说道。
奥特曼师长西席曾近间隔不雅观察过这一征象。
在 OpenAI,研究职员多年来一贯在网络数据、清理数据并将其输入到大量文本中来演习公司的措辞模型。他们挖掘了打算机代码存储库 GitHub,清理了国际象棋走法数据库,并从 Quizlet 网站上提取了描述高中考试和家庭作业的数据。
八位理解该公司的人士表示,到 2021 年底,这些供应已耗尽,但他们未获授权公开拓言。
OpenAI 急迫须要更多数据来开拓其下一代人工智能模型 GPT-4。
知情人士称,员工们因此谈论了转录播客、有声读物和 YouTube ***的问题。他们谈论了利用人工智能系统从头开始创建数据。他们还考虑收购网络了大量数字数据的初创企业。
六位人士表示,OpenAI 终极开拓出了语音识别工具 Whisper,用于转录 YouTube ***和播客。但 YouTube 不仅禁止人们将其***用于独立运用程序,还禁止人们通过任何自动化办法(例如机器人、僵尸网络或抓取工具)访问其***。
知情人士称,OpenAI 员工知道他们正在涉入法律灰色地带,但相信用***演习人工智能是合理利用。
OpenAI 总裁布罗克曼师长西席在一份研究论文中被列为Whisper 的创建者。
两位知情人士称,他亲自帮助网络 YouTube ***并将其输入到该技能中。
布罗克曼师长西席将置评要求转给了 OpenAI,该公司表示它利用浩瀚来源的数据。
去年,OpenAI 发布了 GPT-4,它借鉴了 Whisper 转录的超过 100 万小时的 YouTube ***。 Brockman 师长西席领导的团队开拓了 GPT-4。
两位理解这两家公司的人士表示,一些谷歌员工知道 OpenAI 已经网络了 YouTube ***作为数据。但知情人士称,他们并没有阻挡 OpenAI,由于谷歌还利用 YouTube ***的笔墨记录来演习其人工智能模型。这种做法可能陵犯了 YouTube 创作者的版权。
知情人士表示,因此,如果谷歌在 OpenAI 上大惊小怪,"大众可能会对其自己的方法提出强烈抗议。
谷歌发言人马特·布莱恩特表示,该公司对 OpenAI 的做法一无所知,并禁止未经授权抓取或*** YouTube 内容。他说,当谷歌有明确的法律或技能依据时,就会采纳行动。
谷歌的规则许可其利用 YouTube 用户数据为该***平台开拓新功能。但目前尚不清楚谷歌是否可以利用 YouTube 数据构建***平台之外的商业做事,例如谈天机器人。
Berger Singerman 状师事务所的知识产权状师杰弗里·洛滕伯格 (Geoffrey Lottenberg) 表示,谷歌对付 YouTube ***记录可以做什么、不能做什么的说法暗昧其辞。
他说:这些数据是否可以用于新的商业做事,还有待阐明,并可能引发诉讼。
2022 年末,在 OpenAI 发布 ChatGPT 并掀起全行业的追赶竞赛后,谷歌研究职员和工程师谈论了利用其他用户数据。人们的 Google 文档和其他免费 Google 运用程序中包含数十亿字。
但三名理解谷歌做法的人士表示,该公司的隐私限定限定了他们利用这些数据的办法。
据隐私团队的两名成员和《纽约时报》看到的一份内部称,谷歌法律部门于 6 月哀求隐私团队起草说话,以扩大该公司可以利用消费者数据的用场。
员工被奉告,谷歌希望将人们在谷歌文档、谷歌表格和干系运用程序中公开的内容用于一系列人工智能产品。员工表示,他们不知道公司之前是否曾利用此类数据演习过人工智能。
当时,谷歌的隐私政策称,该公司只能利用公开信息来帮助演习谷歌的措辞模型并构建谷歌翻译等功能。
隐私团队编写了新条款,以便谷歌可以利用其人工智能模型并构建谷歌翻译、巴德和云人工智能功能等产品和功能的数据,这是更广泛的人工智能技能凑集。
「这里的终极目标是什么?」隐私团队的一名成员在内部中问道。 「我们要走多远?」
工们表示,该团队被特殊奉告要在 7 月 4 日周末发布新条款,由于当时人们常日都在关注假期。修订后的政策于 7 月 1 日长周末开始时首次推出。
两名隐私团队成员表示,今年 8 月,他们向管理职员施压,讯问谷歌是否可以开始利用免费消费者版本的 Google Docs、Google Sheets 和 Google Slides 中的数据。
他们说,他们没有得到明确的答案。
布莱恩特表示,隐私政策的变更是为了清楚起见,谷歌不会在未经用户明确容许的情形下,利用谷歌文档或干系运用程序中的信息来演习措辞模型,他指的是一项许可用户测尝尝验性措辞模型的志愿操持。
「我们没有根据这种措辞变革开始对其他类型的数据进行培训。」他说。
Meta 上的辩论
Meta 首席实行官马克·扎克伯格 (Mark Zuckerberg) 已投资人工智能多年,但当 OpenAI 在 2022 年发布 ChatGPT 时,他溘然创造自己掉队了。
他立即推动遇上并超越 ChatGPT,彻夜打电话给高管和工程师,推动他们开拓三名现任和前任员工表示,他们没有被授权谈论机密对话。
但到去年初,Meta 碰着了与其竞争对手相同的障碍:没有足够的数据。
Meta 的天生人工智能副总裁 Ahmad Al-Dahle 见告高管,根据内部会议的记录,他的团队险些利用了互联网上所有可用的英语书本、论文、诗歌和***文章来开拓模型。
Al-Dahle 师长西席见告同事,除非得到更多数据,否则 Meta 无法与 ChatGPT 相匹配。 2023 年 3 月和 4 月,该公司的一些业务开拓领导、工程师和状师险些每天都会开会来办理该问题。
一些人辩论是否要支付每本书 10 美元才能得到新书的完备容许权。录音显示,他们谈论了收购西蒙与舒斯特出版社,该公司出版了斯蒂芬·金等作家的作品。
他们还谈到了如何未经容许从互联网上总结书本、论文和其他作品,并谈论如何接管更多内容,纵然这意味着面临诉讼。录音显示,一名状师就从艺术家手中攫取知识产权提出了道德担忧,但遭到了沉默。
员工们表示,扎克伯格哀求找到办理方案。
「马克在产品中探求的功能正是我们目前无法供应的。」一位工程师说道。
两名员工表示,只管 Meta 运营着弘大的社交网络,但它并没有大量的用户帖子可供给用。他们表示,许多 Facebook 用户已经删除了之前的帖子,而且该平台并不是人们撰写文章类型内容的地方。
Meta 还受到2018 年与选民剖析公司 Cambridge Analytica 共享用户数据丑闻后推出的隐私变革的限定。
扎克伯格在最近的一次投资者电话会议上表示,Facebook 和 Instagram 上数十亿公开分享的***和照片比 Common Crawl 数据集还要多。
在录音谈论中,Meta 高管谈到了他们如何在非洲聘请承包商来汇总小说和非小说的择要。
一位经理在一次会议上表示,择要中包含受版权保护的内容,「由于我们无法不网络这些内容」。
Meta 的高管表示,OpenAI 彷佛未经容许利用了受版权保护的材料。根据录音,他们表示,Meta 须要很永劫光才能与出版商、艺术家、音乐家和***业会谈容许。
「唯一阻碍我们达到 ChatGPT 水平的成分便是数据量。」环球互助和内容副总裁尼克·格鲁丁 (Nick Grudin) 在一次会议上表示。
他补充说,OpenAI 彷佛正在采取受版权保护的材料,而 Meta 可以遵照这一市场先例。
录音显示,Meta 的高管赞许参考 2015 年涉及作家协会诉谷歌的法院讯断。在这种情形下,谷歌被许可对在线数据库中的书本进行扫描、数字化和编目,情由是它仅在网上复制了作品的片段,并对原件进行了改造,从而使其合理利用。
Meta 的状师在会议上表示,利用数据演习人工智能系统同样该当属于合理利用。
录音显示,至少有两名员工对利用知识产权以及不公正或根本不向作者和其他艺术家支付报酬表示担忧。
一名员工讲述了与 Meta 首席产品官克里斯·考克斯 (Chris Cox) 等高等管理职员就版权数据进行的单独谈论,并表示那次会议上没有人考虑利用人们的创意作品的道德问题。
合成数据
OpenAI 的 Altman 师长西席制订了一个操持来应对迫不及待的数据短缺问题。
他在五月的会议上表示,像他这样的公司终极将利用人工智能天生的文本(也称为合成数据)来演习他们的人工智能。
奥特曼和其他人认为,由于人工智能模型可以天生类似人类的文本,因此系统可以创建额外的数据来开拓更好的自身版本。这将帮助开拓职员构建日益强大的技能并减少对受版权保护的数据的依赖。
「只要你能够超过合成数据事宜范围,即模型足够智能,能够天生良好的合成数据,统统都会好起来的。」奥尔特曼师长西席说。
人工智能研究职员多年来一贯在探索合成数据。但构建一个能够自我演习的人工智能系统提及来随意马虎做起来难。从自己的输出中学习的人工智能模型可能会陷入一个循环,它们会强化自己的怪癖、缺点和局限性。
「这些系统所需的数据就像穿越丛林的道路。」前 OpenAI 研究员、现在不列颠哥伦比亚大学教授打算机科学的杰夫·克鲁恩 (Jeff Clune) 说。 「如果他们只根据合成数据进行演习,他们可能会在丛林中迷路。」
为理解决这个问题,OpenAI 和其他公司正在研究两种不同的人工智能模型如何协同事情来天生更有用和更可靠的合成数据。一个别系产生数据,而第二个别系则判断信息以区分好坏。研究职员对付这种方法是否有效存在不合。
只管如此,人工智能高管仍在快速提高。
「该当没问题。」奥特曼师长西席在会议上说。
本文系作者个人观点,不代表本站立场,转载请注明出处!