蘋果、NVIDIA、Salesforce 等公司被指控抓取 YouTube 影片來訓練人工智慧模型

一項調查發現,科技巨頭從與這些公司無關的 48,000 多個頻道中的 170,000 多個 YouTube 影片中獲取了數據。

由於人工智慧開發、使用和維護方面有爭議的做法仍然是一個熱門議題,最近的一項調查可能揭示了Apple、NVIDIA、Salesforce 和其他科技巨頭在人工智慧模型訓練中粗暴且未經批准地使用YouTube影片的情況。調查表明,大量第三方 YouTube 頻道及其內容可能已被資料收集者抓取並未經批准用於人工智慧訓練。

根據Proof News報道,Proof News進行了大規模調查有線。該調查調查了 AI 模型訓練中使用的材料和資料集,其中包括從大約 173,536 個 YouTube 影片(代表超過 48,000 個不同頻道)中提取的字幕和文字記錄。據說這些數據已被許多科技巨頭使用,包括 Apple、NVIDIA、Salesforce 和 Anthropic。

蘋果從多家公司取得了人工智慧數據

其中一個從 YouTube 影片(包括我的影片)中抓取了大量資料/文字記錄

蘋果在技術上避免了這裡的“錯誤”,因為他們不是抄襲的人

但這將是一個長期發展的問題https://t.co/U93riaeSlY

— 馬克斯‧布朗利 (@MKBHD)2024 年 7 月 16 日

「YouTube 字幕」資料集中使用的資料來源包括來自麻省理工學院和哈佛大學等各種教育和資訊管道、BBC 和華爾街日報等新聞媒體集團,甚至是《斯蒂芬深夜秀》等娛樂來源的資料。爾伯特和上週今晚與約翰奧利弗。 MrBeast、Jacksepticeye 和 PewDiePie 等海量 YouTube 內容創作者也出現在資料集中。創作者如馬克斯·布朗利MKBHD 播客的成員表示,他們從未允許以這種方式使用他們的視頻,但他們的內容無論如何都被使用了。

隨著科技巨頭們瘋狂地追尋他們可以獲得的用於訓練人工智慧的任何數據,這種抗議是否會促使對未經批准的影片的數據抓取進行調整或停止,還有待觀察。請繼續關注,我們將在我們的網站上關注此故事的進一步更新人工智慧專題

TJ Denzer 是一位玩家兼作家,對遊戲的熱情佔據了他的一生。他於 2019 年底進入 Shacknews 名單,此後一直擔任高級新聞編輯。在新聞報導之餘,他也特別協助直播項目,例如專注於獨立遊戲的 Indie-licious、Shacknews Stimulus Games 和 Shacknews Dump。您可以透過以下方式聯絡他:[email protected]也可以在 Twitter 上找到他@JohnnyChugs