Siasatan mendapati bahawa gergasi teknologi telah memperoleh data daripada lebih 170,000 video YouTube merentas lebih daripada 48,000 saluran yang tidak bergabung dengan syarikat itu.
Memandangkan amalan kontroversi pembangunan, penggunaan dan penyelenggaraan kecerdasan buatan masih menjadi isu hangat, siasatan baru-baru ini mungkin mendedahkan penggunaan video YouTube secara kasar dan tidak diluluskan dalam latihan model AI di Apple, NVIDIA, Salesforce dan gergasi teknologi lain. . Siasatan menunjukkan bahawa sejumlah besar saluran YouTube pihak ketiga dan kandungannya mungkin telah dikikis oleh pengumpul data dan digunakan tanpa kelulusan dalam latihan AI.
Siasatan berskala besar telah dijalankan oleh Proof News, seperti yang dilaporkan olehberwayar. Siasatan meneliti bahan dan set data yang digunakan dalam latihan model AI, yang termasuk sari kata dan transkrip yang dirobek daripada anggaran 173,536 video YouTube, mewakili lebih daripada 48,000 saluran berbeza. Data ini dikatakan telah digunakan oleh beberapa gergasi teknologi, termasuk Apple, NVIDIA, Salesforce, dan Anthropic.
— Marques Brownlee (@MKBHD)16 Julai 2024Apple telah memperoleh data untuk AI mereka daripada beberapa syarikat
Salah seorang daripada mereka mengikis banyak data/transkrip daripada video YouTube, termasuk saya
Apple secara teknikal mengelakkan "kesalahan" di sini kerana mereka bukan yang mengikis
Tetapi ini akan menjadi masalah yang berkembang untuk masa yang lamahttps://t.co/U93riaeSlY
Antara sumber data tersebut yang digunakan dalam set data "Sarikata YouTube" ini ialah bahan daripada pelbagai saluran pendidikan dan maklumat seperti MIT dan Harvard, kumpulan media berita seperti BBC dan Wall Street Journal, dan juga sumber hiburan seperti The Late Show With Stephen Colbert dan Minggu Terakhir Malam Ini Bersama John Oliver. Pencipta kandungan YouTube yang besar-besaran seperti MrBeast, Jacksepticeye dan PewDiePie juga muncul dengan ketara di kalangan set data. Pencipta sepertiMarques Brownleedaripada Podcast MKBHD berkongsi bahawa mereka tidak pernah memberi kebenaran untuk menggunakan video mereka dengan cara sedemikian, tetapi kandungan mereka digunakan juga.
Dengan gergasi teknologi mengejar apa-apa data yang mereka boleh perolehi untuk penggunaan latihan AI, ia akan kekal untuk dilihat jika bantahan itu mendorong pelarasan atau berhenti dalam mengikis data video yang tidak diluluskan. Nantikan semasa kami menonton untuk kemas kini lanjut untuk cerita ini di kamiTopik Kecerdasan Buatan.
TJ Denzer ialah pemain dan penulis yang mempunyai minat untuk permainan yang telah mendominasi seumur hidup. Dia menemui senarai Shacknews pada akhir 2019 dan telah bekerja dengan caranya ke Editor Berita Kanan sejak itu. Di antara liputan berita, beliau turut membantu terutamanya dalam projek strim langsung seperti Indie-licious yang memfokuskan permainan indie, Permainan Rangsangan Shacknews dan Shacknews Dump. Anda boleh menghubunginya di[email protected]dan juga menemuinya di Twitter@JohnnyChugs.