硅谷大年夜厂被曝违规“偷”数据:苹果Anthropic用YouTube***演习AI_***_字幕
编译 | ZeR0编辑 | 漠影
智东西7月17日,Proof News的一项最新调查创造,从超过48,000个频道盗取的173,536个YouTube***的字幕被Anthropic、英伟达、苹果、Salesforce等硅谷巨子利用。
这些一些环球最有钱的AI公司已经利用成千上万个YouTube***中的素材来演习人工智能(AI)。只管YouTube规定禁止未经容许从该平台获取素材,但这些公司还是这样做了。
这个名为YouTube字幕(YouTube Subtitles)的数据集包含了来自可汗学院、麻省理工学院和哈佛大学等教诲和在线学习频道的***文本。《华尔街日报》、美国国家公共电台和英国广播公司的***均被用来演习AI,《斯蒂芬·科尔伯特深夜秀》、《约翰·奥利弗上周今夜秀》和《吉米·坎摩尔秀》也是如此。
Proof News还创造了来自YouTube巨星的素材,包括MrBeast(2.89亿订阅者,2个***被用于演习)、 Marques Brownlee(1900万订阅者,7个***被)、 Jacksepticeye(近3100万订阅者,377个***)和PewDiePie(1.11亿订阅者,337个***)。一些用于演习AI的素材还鼓吹了“地平说”等阴谋论。
一、YouTube素材被科技巨子用于演习AI,创作者绝不知情Proof News创建了一个工具来在YouTube AI演习数据集中搜索创作者。
“没有人来找我说‘我们想用这个’。”大卫·帕克曼(David Pakman)说道。《大卫·帕克曼秀》是一个偏左的政治频道,有200多万订阅者和20多亿次不雅观看量。他的近160个***被纳入YouTube字幕演习数据集。
帕克曼的企业有4个全职员工,除了制作播客、TikTok***和其他平台的素材外,该公司每天还会发布多个***。帕克曼说,如果AI公司得到报酬,那么他该当因利用自己的数据而得到补偿。此前一些媒体公司最近签署了协议,赞许因利用他们的事情来演习AI而得到报酬。
“这是我的生存,我投入了韶光、资源、金钱和员工韶光来创作这些内容,”帕克曼说,“真的不缺事情。”
“这是盗窃。”流媒体做事Nebula的首席实行官戴夫·威斯库斯(Dave Wiskus)认为。Nebula的部分股权由其创造者所有,个中一些创造者的作品被从YouTube上盗用,用来演习AI。
在他看来,未经创作者赞许利用他们的作品是“不尊重”的行为,尤其是事情室可能会“利用天生式AI来尽可能多地取代艺术家”。
“这会被用来剥削和侵害艺术家吗?是的,绝对会的。”威斯库斯说。
该数据集的创建者EleutherAI的代表没有回应对Proof调查结果的置评要求,包括对未经容许利用***的指控。该公司的网站表示,其总体目标是降落AI开拓的门槛,让那些身处科技巨子之外的人能够参与个中,该公司历来“通过演习和发布模型,让大家打仗到尖真个AI技能”。
YouTube字幕不包含***图像,而是由***字幕的纯文本组成,常日还附带日语、德语和阿拉伯语等措辞的翻译。
根据EleutherAI揭橥的研究论文,该数据集是该非营利组织发布的名为Pile的汇编的一部分。Pile的开拓者不仅网络了YouTube的材料,还网络了欧洲议会、英语维基百科以及安然公司员工的大量电子邮件,这些电子邮件是联邦政府对该公司进行调查时发布的。
Pile的大部分数据集都是开放的,任何拥有足够空间和打算能力的人都可以在互联网上访问。学术界和大型科技公司以外的其他开拓职员利用了该数据集,但他们并不是唯一的利用者。
市值数千亿乃至数万亿美元的苹果、英伟达、Salesforce等公司在其研究论文和帖子中描述了如何利用Pile演习AI。
文件还显示,苹果利用Pile演习OpenELM,这是一个备受瞩目的模型,于4月发布,几周后该公司宣告将为iPhone和MacBook添加新AI功能。
干系出版物显示,彭博和Databricks也在Pile上演习模型。
明星AI大模型独角兽Anthropic同样如此,它从亚马逊得到了40亿美元的投资,并强调其对“AI安全”的关注。
Anthropic发言人Jennifer Martinez在一份声明中称:“The Pile只包含一小部分YouTube字幕。”该声明证明Anthropic的天生式AI助手Claude 利用了Pile,“YouTube的条款涵盖了其平台的直策应用,这与利用The Pile数据集不同。关于可能违反YouTube做事条款的问题,建议问The Pile的作者。”
Salesforce证明将利用Pile构建AI模型,用于“学术和研究目的”。Salesforce AI研究副总裁Caiming Xiong在一份声明中强调,该数据集是“公开可用的”。
Salesforce后来在2022年发布了相同的AI模型供"大众年夜众利用,根据其Hugging Face页面显示,该模型自发布以来已被***至少86,000次。
Salesforce开拓职员在他们的研究论文中指出,Pile包含轻渎性措辞以及“对性别和某些宗教群体的偏见”,并警告说这可能会导致“漏洞和安全问题”。Proof News在YouTube字幕中创造了数千个轻渎性措辞的例子,以及种族和性别辱骂的例子。
Salesforce的代表没有回应有关安全问题。英伟达的一位代表谢绝揭橥评论。苹果、Databricks、彭博社的代表均未回应置评要求。
二、YouTube数据“金矿”巴西里约热内卢热取利奥·巴尔加斯基金会法学院人工智能政策研究员兼CyberBRICS研究员杰·维普拉(Jai Vipra)认为,AI公司相互竞争,部分缘故原由在于获取更高质量的数据。这是公司对数据来源保密的缘故原由之一。
今年早些时候,《纽约时报》宣布称,YouTube母公司谷歌利用该平台上的***作为文本来演习其模型。对此一位发言人见告该报,根据与YouTube创作者的协议,谷歌被许可利用这些文本。
《纽约时报》的调查还创造,OpenAI未经授权利用了YouTube***。该公司代表既没有证明也没有否认该论文的调查结果。
OpenAI高管曾多次谢绝公开回答有关其是否利用YouTube***来演习其AI产品Sora(该产品可根据文本提示制作***)的问题。今年早些时候,《华尔街日报》向OpenAI首席技能官米拉·穆拉蒂提出了这个问题,穆拉蒂回答说:“我实际上并不愿定。”
在维普拉看来,YouTube字幕和其他类型的语音转文本数据可能是一座“金矿”,由于它们可以帮助演习模型来复制人们说话和互换的办法。
“这仍旧是纯粹的事理问题。”《戴夫教授讲解》的主持人戴夫·法里纳(Dave Farina)说。他的频道展示化学和其他科学教程,拥有 300万订阅者,并有140个***被盗用YouTube字幕。
他说:“如果你从我所做的事情(制造产品)中获利,而这却会让我失落业或让我这样的人失落业,那么就须要就补偿或某种监管进行谈论。”
YouTube字幕数据集于2020年发布,个中还收录了12,000多个***的字幕,这些***现已从YouTube上删除。至少有一个案例中,创作者删除了他们的全体在线信息,但这项事情已被纳入了数量不详的 AI 模型中。
Proof News考试测验联系本宣布中提到的频道所有者。许多人没有回应置评要求。在其采访的创作者中,没有人意识到他们的信息被盗取了,更不用说这些信息是如何被利用的了。
令人惊异的是:Crash Course(近1600万订阅者,871个***)和SciShow(800万订阅者,228个***)的制作人,它们是汉克和约翰·格林兄弟的教诲***帝国的支柱。该节目制作公司Complexly的首席实行官朱莉·沃尔什·史密斯(Julie Walsh Smith)在一份声明中称:“我们精心制作的教诲内容在未经我们赞许的情形下被以这种办法利用,我们对此感到非常沮丧。”
YouTube字幕并不是第一组给创意家当带来麻烦的AI演习数据。
Proof News撰稿人亚历克斯·赖斯纳(Alex Reisner)得到了Pile的另一个数据集Books3的副本,并于去年在《大泰西月刊》上揭橥了一篇文章,报告了他的创造:超过18万本书被盗取,个中包括玛格丽特·阿特伍德、迈克尔·波伦和扎迪·史密斯的作品。
此后,许多作家起诉AI公司未经授权利用他们的作品并涉嫌陵犯版权。类似案件如滚雪球般越滚越大,托管Books3的平台已将其下架。
针对这些诉讼,Meta、OpenAI、彭博社等被告辩称,他们的行为构成了合理利用。原告主动撤回了针对最初抓取书本并公开的EleutherAI的诉讼。
别的案件的诉讼仍处于早期阶段,容许和付款问题尚未办理。The Pile已从其官方***网站删除,但仍可在文件共享做事上获取。
“科技公司一贯粗暴地对待我们。”消费者保护状师、DiCello Levitt状师事务所合资人艾米·凯勒(Amy Keller)说,她曾代表创意人士提起诉讼,指控他们的作品在未经赞许的情形下被AI公司盗取。
“人们担心自己在这件事上别无选择,”凯勒谈道,“我认为这才是真正的问题所在。”
三、“鹦鹉学舌”许多创作者对付未来的道路感到迷茫。
全职YouTube博主会巡查其作品是否被未经授权利用,并定期发送删除关照,有些人担心,AI天生与他们的作品类似的内容只是韶光问题。
《大卫·帕克曼秀》的创作者帕克曼最近在浏览TikTok时看到了AI的威力。他有时创造了一段被标记为塔克·卡尔森剪辑的***,但当帕克曼不雅观看时,他大吃一惊——这段***听起来像卡尔森的,但逐字逐句都和帕克曼在YouTube节目上说的一样,乃至连节奏都一样。
同样让他感到震荡的是,只有一位***评论者彷佛意识到这是假的——一个语音克隆的卡尔森声音读了帕克曼的剧本。
“这会是个问题,”帕克曼在一段有关赝品的YouTube***中说,“基本上你可以对任何人这样做。”
EleutherAI创始人希德·布莱克(Sid Black)在GitHub上写道,他利用脚本创建了YouTube字幕。该脚本从YouTube的API***字幕,办法与YouTube不雅观众在不雅观看***时浏览器***字幕的办法相同。
根据GitHub上的文档,布莱克利用了495个搜索词来筛选***,包括“搞笑***博主”、“爱因斯坦”、“黑人新教徒”、“保护性社会做事”、“信息战役”、“量子色动力学”、“本·夏皮罗”、“维吾尔族”、“果食主义者”、“蛋糕食谱”、“纳斯卡线条”和“地球是平的”。
只管YouTube的做事条款禁止通过“自动办法”访问其***,但超过2000名GitHub用户已收藏或认可该代码。
机器学习工程师乔纳斯·德泊伊克斯(Jonas Depoix)在GitHub上的谈论中写道:“如果YouTube想要阻挡该模块运行,他们有很多方法可以做到。”他在GitHub上发布了布莱克用来访问YouTube字幕的代码,“到目前为止,这种情形还没有发生。”
在给Proof News的一封电子邮件中,德泊伊克斯称,自从几年前他在大学期间为一个项目编写了这段代码后,他就再也没有利用过它,他很惊异人们竟然以为它很有用。他谢绝回答有关YouTube规则的问题。
谷歌发言人杰克·马龙(Jack Malon)在回答置评要求的电子邮件中表示,该公司“多年来一贯采纳行动,防止未经授权的滥用数据抓取行为”。他没有回答有关其他公司利用这些材料作为演习数据的问题。
AI公司利用的***中,有146个来自“爱因斯坦鹦鹉”频道,该频道拥有近15万订阅者。非洲灰鹦鹉的喂养员玛西娅不愿透露自己的姓氏,由于担心会危及这只著名鸟类的安全。她说,起初她以为AI模型竟然能记住一只模拟鹦鹉的话语很有趣。
“谁会想用鹦鹉的声音?”玛西娅说,“但我知道他说得很好。他用我的声音说话。以是他在模拟我,然后AI在模拟鹦鹉。”
一旦被AI接管,数据就无法被遗忘。玛西娅担心她的鹦鹉信息可能会被以各种未知办法利用,包括创建一只数字复制鹦鹉,她担心的是,这只鹦鹉可能会骂人。
“我们正在踏入未知领域。”玛西娅说道。
来源:Proof
本文系作者个人观点,不代表本站立场,转载请注明出处!