新闻详情

苹果、英伟达、Salesforce 等科技巨头据称未经授权用 YouTube 内容训练 AI

据连线报导

,包含苹果在内的一些科技巨子未经 YouTube 视频创作者赞同,就运用了他们视频的字幕文件来练习人工智能模型。

此次事情影响到的创作者包含闻名科技博主 MKBHD(Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬·科尔伯特、约翰·奥利弗和吉米·坎摩尔等。这些被用于练习 AI 的字幕文件相当于视频的文本转录内容。

查询记者发表,一些世界上最富有的科技公司一直在运用来自不计其数个 YouTube 视频的资料来练习 AI,而这违反了 YouTube 制止从平台上未经许可抓取内容的规则。据悉,超越 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来练习人工智能模型,其中就包含苹果、英伟达、Salesforce 等硅谷巨子。

据报导,下载这些字幕文件的是一个名为 EleutherAI 的非盈利安排,他们宣称其意图是协助开发者练习 AI 模型。虽然 EleutherAI 的初衷或许是为小型开发者和学术研讨者供给练习资料,但该数据集也被苹果等科技巨子运用。

依据 EleutherAI 发布的一篇研讨论文,这份数据集是他们发布的名为“The Pile”的大型数据集的一部分。“The Pile”中的大部分数据集都是揭露的,任何具有满足存储空间和核算才能的人都可以拜访。除了科技巨子之外,一些学者和开发者也运用了该数据集。但是,苹果、英伟达和 Salesforce 等市值数百亿乃至数千亿美元的公司也在他们的研讨论文和帖子中提到了他们怎么运用该数据集来练习 AI 模型。

有文件显现,苹果在 4 月份发布了备受重视的 OpenELM 模型几周之前,就运用了“The Pile”进行练习。而 OpenELM 模型的发布恰逢苹果宣告将在 iPhone 和 Macbook 中参加新的 AI 功用。

需求留意的是,苹果自己并没有下载这些数据,而是由 EleutherAI 完结的。因而,从技能层面来说,是 EleutherAI 违反了 YouTube 的运用条款。

虽然苹果和其他公司或许运用了揭露的数据集,但此事情凸显了从网络上抓取数据来练习 AI 体系所带来的法令危险。此前就曾呈现过 AI 体系在答复小众论题时抄袭整段文本的事例,当公司运用第三方编译的数据集时,只会添加未经许可运用资料的危险。

← 返回新闻列表