Investigasi menemukan bahwa raksasa teknologi telah bersumber dari lebih dari 170.000 video YouTube di lebih dari 48.000 saluran yang tidak berafiliasi dengan perusahaan.
Karena praktik kontroversial pengembangan, penggunaan, dan pemeliharaan intelijen buatan tetap menjadi masalah panas, penyelidikan baru-baru ini mungkin telah mengungkapkan penggunaan video YouTube yang kotor dan tidak disetujui dalam pelatihan model AI di Apple, Nvidia, Salesforce, dan raksasa teknologi lainnya lainnya . Investigasi menunjukkan bahwa sejumlah besar saluran YouTube pihak ketiga dan isinya mungkin telah dikikis oleh pengumpul data dan digunakan tanpa persetujuan dalam pelatihan AI.
Investigasi skala besar dilakukan oleh bukti berita, seperti yang dilaporkan olehKabel. Investigasi melihat ke dalam materi dan set data yang digunakan dalam pelatihan model AI, yang termasuk subtitle dan transkrip yang dirobek dari sekitar 173.536 video YouTube, mewakili lebih dari 48.000 saluran yang berbeda. Data ini dikatakan telah digunakan oleh sejumlah raksasa teknologi, termasuk Apple, Nvidia, Salesforce, dan Anthropic.
- Brownlee Brands (@MKBHD)16 Juli 2024Apple telah bersumber dari data untuk AI mereka dari beberapa perusahaan
Salah satunya dikikis banyak data/transkrip dari video YouTube, termasuk milik saya
Apple secara teknis menghindari "kesalahan" di sini karena mereka bukan yang mengikis
Tapi ini akan menjadi masalah yang berkembang untuk waktu yang lamahttps://t.co/u93riaesly
Di antara sumber data tersebut yang digunakan dalam dataset “Subtitle YouTube” ini adalah bahan dari berbagai saluran pendidikan dan informasi seperti MIT dan Harvard, kelompok media berita seperti BBC dan Wall Street Journal, dan bahkan sumber hiburan seperti The Late Show dengan Stephen Colbert dan minggu lalu malam ini dengan John Oliver. Pembuat konten YouTube besar -besaran seperti Mrbeast, Jacksepticeye, dan Pewdiepie juga tampak menonjol di antara dataset. Pencipta sepertiMarques BrownleePodcast MKBHD berbagi bahwa mereka tidak pernah memberikan izin untuk menggunakan video mereka dengan cara seperti itu, tetapi konten mereka digunakan.
Dengan raksasa teknologi dengan tergesa -gesa mengejar data apa pun yang bisa mereka dapatkan untuk penggunaan AI pelatihan, itu akan tetap terlihat jika protes meminta penyesuaian atau berhenti dalam pengikis data dari video yang tidak disetujui. Tetap disini saat kami menonton pembaruan lebih lanjut untuk cerita ini di kamiTopik Kecerdasan Buatan.
TJ Denzer adalah pemain dan penulis dengan hasrat untuk permainan yang telah mendominasi seumur hidup. Dia menemukan jalan ke daftar Shacknews pada akhir 2019 dan telah bekerja ke editor berita senior sejak itu. Antara liputan berita, ia juga membantu dalam proyek-proyek langsung seperti indie-fokus indie-licious, permainan stimulus Shacknews, dan Shacknews dibuang. Anda dapat menghubunginya di[email protected]dan juga menemukannya di bluesky@Johnnychugs.