一项调查发现,科技巨头从与这些公司无关的 48,000 多个频道中的 170,000 多个 YouTube 视频中获取了数据。
由于人工智能开发、使用和维护方面有争议的做法仍然是一个热点问题,最近的一项调查可能揭示了 Apple、NVIDIA、Salesforce 和其他科技巨头在人工智能模型训练中粗暴且未经批准地使用 YouTube 视频的情况。调查表明,大量第三方 YouTube 频道及其内容可能已被数据收集者抓取并未经批准用于人工智能训练。
据Proof News报道,Proof News进行了大规模调查有线。该调查调查了 AI 模型训练中使用的材料和数据集,其中包括从大约 173,536 个 YouTube 视频(代表超过 48,000 个不同频道)中提取的字幕和文字记录。据说这些数据已被许多科技巨头使用,包括 Apple、NVIDIA、Salesforce 和 Anthropic。
— 马克斯·布朗利 (@MKBHD)2024 年 7 月 16 日苹果从多家公司获取了人工智能数据
其中之一从 YouTube 视频(包括我的视频)中抓取了大量数据/文字记录
苹果在技术上避免了这里的“错误”,因为他们不是抄袭的人
但这将是一个长期发展的问题https://t.co/U93riaeSlY
“YouTube 字幕”数据集中使用的数据来源包括来自麻省理工学院和哈佛大学等各种教育和信息渠道、BBC 和华尔街日报等新闻媒体集团,甚至是《斯蒂芬深夜秀》等娱乐来源的材料。科尔伯特和上周今晚与约翰奥利弗。 MrBeast、Jacksepticeye 和 PewDiePie 等海量 YouTube 内容创作者也出现在数据集中。创作者如马克斯·布朗利MKBHD 播客的成员表示,他们从未允许以这种方式使用他们的视频,但他们的内容无论如何都被使用了。
随着科技巨头们疯狂地追寻他们可以获得的用于训练人工智能的任何数据,这种抗议是否会促使对未经批准的视频的数据抓取进行调整或停止,还有待观察。请继续关注,我们将在我们的网站上关注此故事的进一步更新人工智能专题。
TJ Denzer 是一位玩家兼作家,对游戏的热情占据了他的一生。他于 2019 年底进入 Shacknews 名单,此后一直担任高级新闻编辑。在新闻报道之余,他还特别协助直播项目,例如专注于独立游戏的 Indie-licious、Shacknews Stimulus Games 和 Shacknews Dump。您可以通过以下方式联系他:[email protected]也可以在 Twitter 上找到他@JohnnyChugs。