Η Apple, η Anthropic και άλλες εταιρείες χρησιμοποίησαν βίντεο από το YouTube για να εκπαιδεύσουν τα AI μοντέλα τους

Crash24 · 16 Ιουλίου 2024

Έρευνα των Proof News και Wired αποκάλυψε ότι πάνω από 170.000 βίντεο του YouTube αποτελούν μέρος ενός εκτεταμένου συνόλου δεδομένων που χρησιμοποιήθηκε για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης από μεγάλες τεχνολογικές εταιρείες.

Εταιρείες όπως η Apple, η Anthropic, η Nvidia και η Salesforce φέρεται να έχουν χρησιμοποιήσει τα δεδομένα "YouTube Subtitles", τα οποία αποτελούνται από υπότιτλους που αποσπάστηκαν χωρίς άδεια από τη δημοφιλή πλατφόρμα βίντεο.

Το σύνολο δεδομένων περιλαμβάνει υπότιτλους από βίντεο που ανήκουν σε περισσότερα από 48.000 κανάλια, χωρίς να περιέχει οπτικό υλικό. Μεταξύ των επηρεαζόμενων δημιουργών περιεχομένου βρίσκονται δημοφιλείς YouTubers όπως ο MrBeast και ο Marques Brownlee, καθώς και ειδησεογραφικά πρακτορεία όπως το ABC News, το BBC και οι New York Times. Επιπλέον, πάνω από 100 βίντεο από το The Verge και πολλά από το Vox εμφανίζονται στο σύνολο δεδομένων.

Ο Marques Brownlee, γνωστός ως MKBHD, εξέφρασε την ανησυχία του για την κατάσταση μέσω ανάρτησης στο X (πρώην Twitter), επισημαίνοντας ότι το ζήτημα αναμένεται να αποτελέσει μακροχρόνιο πρόβλημα.

Το Proof News δημιούργησε επίσης ένα διαδραστικό εργαλείο αναζήτησης, επιτρέποντας στους χρήστες να ελέγξουν αν το περιεχόμενό τους ή το περιεχόμενο των αγαπημένων τους YouTubers περιλαμβάνεται στο σύνολο δεδομένων.

Το σύνολο δεδομένων που προέρχεται από υπότιτλους αποτελεί μέρος μιας ευρύτερης συλλογής υλικού που ονομάζεται The Pile, η οποία δημιουργήθηκε από τον μη κερδοσκοπικό οργανισμό EleutherAI. Η συλλογή περιλαμβάνει επίσης σύνολα δεδομένων από βιβλία, άρθρα της Wikipedia και άλλες πηγές. Μια προηγούμενη ανάλυση του συνόλου δεδομένων Books3 αποκάλυψε ποιων συγγραφέων τα έργα είχαν χρησιμοποιηθεί για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης, οδηγώντας σε νομικές ενέργειες από συγγραφείς εναντίον των εταιρειών που χρησιμοποίησαν τα δεδομένα.

Οι εταιρείες τεχνητής νοημοσύνης σπάνια είναι πρόθυμες να αποκαλύψουν λεπτομέρειες σχετικά με τα δεδομένα που χρησιμοποιούν για την εκπαίδευση των συστημάτων τους. Η χρήση περιεχομένου από το YouTube έχει αποτελέσει κεντρικό ζήτημα τους τελευταίους μήνες. Όταν η OpenAI παρουσίασε το εργαλείο παραγωγής βίντεο Sora από περιγραφή κειμένου, η CTO της εταιρείας, Mira Murati απέφυγε να απαντήσει σε ερωτήσεις σχετικά με τη χρήση βίντεο από το YouTube στην εκπαίδευση του συστήματος.

Ο Διευθύνων Σύμβουλος του YouTube, Neal Mohan, έχει δηλώσει ότι η χρήση περιεχομένου βίντεο για την εκπαίδευση τεχνητής νοημοσύνης, συμπεριλαμβανομένων των απομαγνητοφωνήσεων, θα παραβίαζε τους όρους χρήσης της πλατφόρμας. Ο Διευθύνων Σύμβουλος της Google, Sundar Pichai, συμφώνησε με την εκτίμηση του Mohan, δηλώνοντας ότι αν η OpenAI όντως χρησιμοποίησε περιεχόμενο του YouTube για την εκπαίδευση του Sora, θα παραβίαζε τους όρους χρήσης της πλατφόρμας.

Διαβάστε ολόκληρο το άρθρο

Arkin · 16 Ιουλίου 2024

nepomuk · 16 Ιουλίου 2024

Αριστα επραξαν, το ιδιο πρατω και γω για DIY καταστασεις , να κανω τον υδραυλικο , τον ηλεκτρολογο κοκ.

karma_nade · 16 Ιουλίου 2024

Ευτυχώς αντλούν πληροφορία από εκεί που κάποιοι αναδεικνύουν την βλακεία τους. Αυτό λέει πολλά…

cat1967 · 16 Ιουλίου 2024

Κλεφτοκοταδες κανονικοί.

cpc464 · 16 Ιουλίου 2024

Dimitris_1981 · 16 Ιουλίου 2024

Κλασική ανθρωπότητα βγάζουμε πυρηνικά , τα δοκιμάζουμε και μετά φτιάχνουμε κανονιστικό πλαίσιο που πάντα είναι στην διακριτική ευκαιρία κάποιων να το αγνοήσουν.

Σε άλλη κλίμακα βέβαια κανουν το ίδιο με το ΑΙ. Τα πνευματικά δικαιώματα των δημιουργών ίσως είναι αμελητέα για κάποιους. Η επιστημονική κοινότητα όμως φωνάζει για ακόμα πιο σοβαρούς λόγους αλλά business as usual….

σ.σ. Αυτό δεν είναι πειρατεία ;;;

freegr · 17 Ιουλίου 2024

Με αλλά λόγια εκπαίδευση ΤΥΠΟΥ αχταρμά μπορεί να γίνει σε γλωσσικό μοντέλο…

vorlon68 · 17 Ιουλίου 2024

Πιστέυω θα ειναι κριμα αν δεν χρησιμοποιησαν video των ΑΜΑΝ, λαμψη και καλημέρα ζωη.....

KilliK · 17 Ιουλίου 2024

κυνικη αποψη: καλα να παθουν.

οχι ολοι, αλλα μεγαλο μερος των content creators εχουν στησει ολοκληρες καριερες πατωντας πανω στην σκληρη δουλεια των αλλων με τα βιντεο "αντιδρασης" που ξεπετανε στα γρηγορα. ο αλλος φτυνει αιμα για να δημιουργησει απο το μηδεν περιεχομενο μεσω της ερευνας, της επεξεργασιας και της προωθησης, και εχει τον καθε γλιτσα τυπου Asmongold, να του παιρνει το βιντεο, να τα κοιταει σε αργο παιξιμο απο την καρεκλα του, να χαχανιζει για κανενα 10λεπτο πετωντας και καμια βαθυστοχαστη αμπελοφιλοσοφια στην μεση, να μαζευει 1εκ views απο τους αυλικους του, να παιρνει τα ποσοστα του απο τις διαφημισεις, ενω δεν εμπιπτει καν το δικο του βιντεο στον νομο περι Fair Use, διοτι δεν μπηκε καν στο κοπο να "μεταλλαξει" την πηγη που χρησιμοποιησε.

Ενω ο αλλος που εφτιαξει το πρωτευων υλικο, δεν κερδισε τιποτα. ουτε καν views, αφου οι περισοτεροι θα ασχοληθουν με το βιντεο του "influencer". Kαι το χειροτερο, αν ζητησει τα ρεστα ο αρχικος δημιουργος, θα πεσoυν οι fans του influencer να τον φανε.

τεραστιο προβλημα που υπαρχει εδω και χρονια στο Youtube, και παρα τις εντονες διαμαρτυριες των δημιουργων, η Google δεν εχει κανει τιποτα για αυτο.

ο κλεψας του κλεψαντος γινεται ουτως η αλλως στην πλατφορμα, απλως οι πολυεθνικες βρηκαν ετοιμα δεδομενα και πεσανε και εκεινες με τα μουτρα στο φαγοποτι. Οποτε καμια λυπηση, it's business as usual.

deafman · 17 Ιουλίου 2024

αν το ai μαθει απο το verge πως να στηνει pc θα εχει φοβερο ενδιαφερον...

cpc464 · 17 Ιουλίου 2024

Το άρθρο αναφέρει πως έκλεψαν τα δεδομένα "YouTube Subtitles", τα οποία αποτελούνται από υπότιτλους που αποσπάστηκαν χωρίς άδεια από την πλατφόρμα βίντεο. Άρα δεν εκπαίδευσαν την AI στα ίδια τα βίντεο αλλά πάνω στο κείμενο των υποτίτλων και τις μεταφράσεις σε άλλες γλώσσες, δεν ξέρω κατά πόσο διώκεται αυτό ποινικά, από την άλλη εάν η AI μπορεί να μεταφράζει γλώσσες ίσως σε μερικά χρόνια να αναπτυχθεί ένας παγκόσμιος μεταφραστής και να μπορούμε να συνεννοηθούμε με κάποιον που δεν μιλάει την γλώσσα μας.

dbrillis · 17 Ιουλίου 2024

Κριμα που το youtube κατεβασε πριν χρονια τα βίντεο του Mavrou Thanatou apo ti Somalia. Οι υπότιτλοι του και η μετάφραση σε αλλες γλωσσες θα ειχαν μεγαλη αξια για εκπαίδευση AI.

filip123go · 17 Ιουλίου 2024

5 hours ago, cpc464 said:

Το άρθρο αναφέρει πως έκλεψαν τα δεδομένα "YouTube Subtitles", τα οποία αποτελούνται από υπότιτλους που αποσπάστηκαν χωρίς άδεια από την πλατφόρμα βίντεο. Άρα δεν εκπαίδευσαν την AI στα ίδια τα βίντεο αλλά πάνω στο κείμενο των υποτίτλων και τις μεταφράσεις σε άλλες γλώσσες, δεν ξέρω κατά πόσο διώκεται αυτό ποινικά, από την άλλη εάν η AI μπορεί να μεταφράζει γλώσσες ίσως σε μερικά χρόνια να αναπτυχθεί ένας παγκόσμιος μεταφραστής και να μπορούμε να συνεννοηθούμε με κάποιον που δεν μιλάει την γλώσσα μας.

Α, εσύ είσαι από αυτους του περίεργους που διαβάζουν και το άρθρο, πέρα από τον τίτλο, πριν σχολιάσουν. Επίσης το άρθρο δεν διευκρινίζει εάν οι υπότιτλοι είναι auto generated, η εάν όντως έκατσε και τους έγραψε κάποιος άνθρωπος...

GiorgosT · 17 Ιουλίου 2024

7 ώρες πριν, deafman είπε

αν το ai μαθει απο το verge πως να στηνει pc θα εχει φοβερο ενδιαφερον...

Μα πραγματικά, θυμάμαι εκείνα τα θεϊκά "άρθρα". Πόση αναπηρία;

Σύνδεση

Η Apple, η Anthropic και άλλες εταιρείες χρησιμοποίησαν βίντεο από το YouTube για να εκπαιδεύσουν τα AI μοντέλα τους

Προτεινόμενες αναρτήσεις

Crash24

Arkin

nepomuk

karma_nade

cat1967

cpc464

Dimitris_1981

freegr

vorlon68

KilliK

deafman

cpc464

dbrillis

filip123go

GiorgosT

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση