Έρευνα των Proof News και Wired αποκάλυψε ότι πάνω από 170.000 βίντεο του YouTube αποτελούν μέρος ενός εκτεταμένου συνόλου δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης από μεγάλες τεχνολογικές εταιρείες.

Εταιρείες όπως η Apple, η Anthropic, η Nvidia και η Salesforce φέρεται να έχουν χρησιμοποιήσει τα δεδομένα "YouTube Subtitles", τα οποία αποτελούνται από υπότιτλους που αποσπάστηκαν χωρίς άδεια από τη δημοφιλή πλατφόρμα βίντεο.

Το σύνολο δεδομένων περιλαμβάνει υπότιτλους από βίντεο που ανήκουν σε περισσότερα από 48.000 κανάλια, χωρίς να περιέχει οπτικό υλικό. Μεταξύ των επηρεαζόμενων δημιουργών περιεχομένου βρίσκονται δημοφιλείς YouTubers όπως ο MrBeast και ο Marques Brownlee, καθώς και ειδησεογραφικά πρακτορεία όπως το ABC News, το BBC και οι New York Times. Επιπλέον, πάνω από 100 βίντεο από το The Verge και πολλά από το Vox εμφανίζονται στο σύνολο δεδομένων.

Ο Marques Brownlee, γνωστός ως MKBHD, εξέφρασε την ανησυχία του για την κατάσταση μέσω ανάρτησης στο X (πρώην Twitter), επισημαίνοντας ότι το ζήτημα αναμένεται να αποτελέσει μακροχρόνιο πρόβλημα.

Το Proof News δημιούργησε επίσης ένα διαδραστικό εργαλείο αναζήτησης, επιτρέποντας στους χρήστες να ελέγξουν αν το περιεχόμενό τους ή το περιεχόμενο των αγαπημένων τους YouTubers περιλαμβάνεται στο σύνολο δεδομένων.

Το σύνολο δεδομένων που προέρχεται από υπότιτλους αποτελεί μέρος μιας ευρύτερης συλλογής υλικού που ονομάζεται The Pile, η οποία δημιουργήθηκε από τον μη κερδοσκοπικό οργανισμό EleutherAI. Η συλλογή περιλαμβάνει επίσης σύνολα δεδομένων από βιβλία, άρθρα της Wikipedia και άλλες πηγές. Μια προηγούμενη ανάλυση του συνόλου δεδομένων Books3 αποκάλυψε ποιων συγγραφέων τα έργα είχαν χρησιμοποιηθεί για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης, οδηγώντας σε νομικές ενέργειες από συγγραφείς εναντίον των εταιρειών που χρησιμοποίησαν τα δεδομένα.

Οι εταιρείες τεχνητής νοημοσύνης σπάνια είναι πρόθυμες να αποκαλύψουν λεπτομέρειες σχετικά με τα δεδομένα που χρησιμοποιούν για την εκπαίδευση των συστημάτων τους. Η χρήση περιεχομένου από το YouTube έχει αποτελέσει κεντρικό ζήτημα τους τελευταίους μήνες. Όταν η OpenAI παρουσίασε το εργαλείο παραγωγής βίντεο Sora από περιγραφή κειμένου, η CTO της εταιρείας, Mira Murati απέφυγε να απαντήσει σε ερωτήσεις σχετικά με τη χρήση βίντεο από το YouTube στην εκπαίδευση του συστήματος.

Ο Διευθύνων Σύμβουλος του YouTube, Neal Mohan, έχει δηλώσει ότι η χρήση περιεχομένου βίντεο για την εκπαίδευση τεχνητής νοημοσύνης, συμπεριλαμβανομένων των απομαγνητοφωνήσεων, θα παραβίαζε τους όρους χρήσης της πλατφόρμας. Ο Διευθύνων Σύμβουλος της Google, Sundar Pichai, συμφώνησε με την εκτίμηση του Mohan, δηλώνοντας ότι αν η OpenAI όντως χρησιμοποίησε περιεχόμενο του YouTube για την εκπαίδευση του Sora, θα παραβίαζε τους όρους χρήσης της πλατφόρμας.

  • Like 1