Η Meta δημιούργησε ένα γλωσσικό μοντέλο τεχνητής νοημοσύνης που δεν είναι ένας κλώνος του ChatGPT.

Το project ονομάζεται Massively Multilingual Speech (MMS) και μπορεί να αναγνωρίσει πάνω από 4.000 ομιλούμενες γλώσσες και να παράγει ομιλία (text-to-speech) σε πάνω από 1.100. Όπως και τα περισσότερα από τα άλλα δημόσια projects τεχνητής νοημοσύνης που έχει ανακοινώσει, η Meta κάνει από σήμερα δημόσια διαθέσιμο το MMS για να βοηθήσει στη διατήρηση της γλωσσικής ποικιλομορφίας και να ενθαρρύνει τους ερευνητές να το χρησιμοποιήσουν για τα δικά τους έργα.

Τα μοντέλα αναγνώρισης ομιλίας και μετατροπής κειμένου σε ομιλία απαιτούν συνήθως εκπαίδευση με χιλιάδες ώρες ηχητικών δεδομένων. Όμως για γλώσσες που δεν χρησιμοποιούνται ευρέως, πολλές από τις οποίες κινδυνεύουν να εξαφανιστούν τις επόμενες δεκαετίες, "αυτά τα δεδομένα απλά δεν υπάρχουν", αναφέρει χαρακτηριστικά η Meta.

Η εταιρεία χρησιμοποίησε μια αντισυμβατική προσέγγιση για τη συλλογή ηχητικών δεδομένων αξιοποιώντας ηχογραφήσεις μεταφρασμένων θρησκευτικών κειμένων. Ενσωματώνοντας τις ηχογραφήσεις της Βίβλου και παρόμοιων κειμένων, οι ερευνητές της Meta αύξησαν τις διαθέσιμες γλώσσες του μοντέλου σε πάνω από 4.000.

Αφού εκπαίδευσαν ένα μοντέλο για να καταστήσουν τα δεδομένα πιο εύχρηστα, η Meta χρησιμοποίησε το wav2vec 2.0, το μοντέλο "αυτοεπιβλεπόμενης μάθησης αναπαράστασης ομιλίας" της εταιρείας, το οποίο μπορεί να εκπαιδευτεί σε μη επισημασμένα δεδομένα. Ο συνδυασμός μη συμβατικών πηγών δεδομένων και ενός μοντέλου ομιλίας με αυτοεπίβλεψη οδήγησε σε εντυπωσιακά αποτελέσματα.

Η Meta προειδοποιεί πάντως ότι τα νέα μοντέλα της δεν είναι τέλεια. "Για παράδειγμα, υπάρχει κάποιος κίνδυνος το μοντέλο μετατροπής ομιλίας σε κείμενο να μεταφέρει λανθασμένα επιλεγμένες λέξεις ή φράσεις", αναφέρει η εταιρεία. "Ανάλογα με το αποτέλεσμα, αυτό θα μπορούσε να οδηγήσει σε προσβλητική ή/και ανακριβή γλώσσα".

Τώρα που η Meta κυκλοφόρησε το MMS για έρευνα ως open-source project, ελπίζει ότι μπορεί να αντιστρέψει την τάση των μεγάλων εταιρείων να περιορίζουν την υποστήριξη γλωσσών για τα προιόντα τους, σε 100 ή και ακόμα λιγότερες. Προσβλέπει σε έναν κόσμο όπου η υποστηρικτική τεχνολογία, το TTS, ακόμη και η τεχνολογία VR / AR θα επιτρέπουν σε όλους να μιλούν και να μαθαίνουν στη μητρική τους γλώσσα.

  • Like 1
  • Thanks 1