Η ερευνητική ομάδα της Yandex, σε συνεργασία με ερευνητές από το MIT, το ISTA και το KAUST, ανέπτυξε μια μέθοδο ταχείας συμπίεσης μεγάλων γλωσσικών μοντέλων χωρίς σημαντική απώλεια

Η ερευνητική ομάδα της Yandex, σε συνεργασία με ερευνητές από το Τεχνολογικό Ινστιτούτο της Μασαχουσέτης (MIT), το Αυστριακό Ινστιτούτο Επιστήμης και Τεχνολογίας (ISTA) και το Πανεπιστήμιο Επιστήμης και Τεχνολογίας King Abdullah (KAUST), ανέπτυξε μια μέθοδο ταχείας συμπίεσης μεγάλων γλωσσικών μοντέλων (LLMs) χωρίς σημαντική απώλεια ποιότητας.

Η νέα μέθοδος, με την ονομασία HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), επιτρέπει τη συμπίεση (ποσοτικοποίηση) των LLMs σε λίγα μόλις λεπτά απευθείας σε smartphones ή φορητούς υπολογιστές, χωρίς την ανάγκη για βιομηχανικού επιπέδου υπολογιστική ισχύ ή ισχυρές GPU.

Προηγουμένως, η ανάπτυξη μεγάλων γλωσσικών μοντέλων σε φορητές συσκευές απαιτούσε διαδικασία ποσοτικοποίησης που διαρκούσε από ώρες έως εβδομάδες και έπρεπε να εκτελεστεί σε βιομηχανικούς servers για να διατηρηθεί η καλή ποιότητα.

Η HIGGS μειώνει τα εμπόδια για τη δοκιμή και την ανάπτυξη νέων μοντέλων σε συσκευές καταναλωτικού επιπέδου, όπως οικιακούς υπολογιστές και smartphones, καταργώντας την ανάγκη για βιομηχανική υπολογιστική ισχύ.

Σύμφωνα με την ανακοίνωση, η καινοτόμος μέθοδος συμπίεσης προωθεί τη δέσμευση της εταιρείας να καταστήσει τα μεγάλα γλωσσικά μοντέλα προσιτά σε όλους, από μεγάλους παίκτες, μικρομεσαίες επιχειρήσεις και μη κερδοσκοπικούς οργανισμούς έως μεμονωμένους συνεισφέροντες, προγραμματιστές και ερευνητές.

Πέρυσι, οι ερευνητές της Yandex συνεργάστηκαν με σημαντικά πανεπιστήμια επιστήμης και τεχνολογίας για να παρουσιάσουν δύο νέες μεθόδους συμπίεσης LLM: την Additive Quantization of Large Language Models (AQLM) και την PV-Tuning. Συνδυαστικά, αυτές οι μέθοδοι μπορούν να μειώσουν το μέγεθος του μοντέλου έως και 8 φορές διατηρώντας το 95% της ποιότητας απόκρισης.

Η μέθοδος HIGGS επιτρέπει στους προγραμματιστές να μειώσουν το μέγεθος του μοντέλου χωρίς να θυσιάσουν την ποιότητα και να τα εκτελέσουν σε πιο οικονομικές συσκευές. Για παράδειγμα, αυτή η μέθοδος μπορεί να χρησιμοποιηθεί για τη συμπίεση LLMs όπως το DeepSeek R1 με 671B παραμέτρους και το Llama 4 Maverick με 400B παραμέτρους, τα οποία προηγουμένως μπορούσαν να ποσοτικοποιηθούν μόνο με σημαντική απώλεια ποιότητας.

Η Yandex χρησιμοποιεί ήδη το HIGGS για την ανάπτυξη πρωτοτύπων και την επιτάχυνση της ανάπτυξης προϊόντων καθώς τα συμπιεσμένα μοντέλα επιτρέπουν ταχύτερες δοκιμές από τα πλήρους κλίμακας αντίστοιχά τους. Όπως αναφέρεται, η HIGGS συμπιέζει μεγάλα γλωσσικά μοντέλα χωρίς να απαιτεί πρόσθετα δεδομένα ή μεθόδους κλίσης, καθιστώντας την ποσοτικοποίηση πιο προσιτή και αποτελεσματική για ένα ευρύ φάσμα εφαρμογών και συσκευών.

Η μέθοδος δοκιμάστηκε στα μοντέλα της οικογένειας LLaMA 3.1 και 3.2, καθώς και στα μοντέλα της οικογένειας Qwen. Τα πειράματα δείχνουν ότι η HIGGS ξεπερνά άλλες μεθόδους ποσοτικοποίησης χωρίς δεδομένα, συμπεριλαμβανομένων των NF4 και HQQ, όσον αφορά τον λόγο ποιότητας-μεγέθους.

Οι προγραμματιστές και οι ερευνητές μπορούν ήδη να έχουν πρόσβαση στη μέθοδο στο Hugging Face ή να εξερευνήσουν την ερευνητική εργασία, η οποία είναι διαθέσιμη στο arXiv. Στο τέλος αυτού του μήνα, η ομάδα θα παρουσιάσει την εργασία τους στο NAACL, ένα από τα κορυφαία συνέδρια AI στον κόσμο.

Πέρα από την ποσοτικοποίηση LLM, η Yandex έχει διαθέσει με ανοιχτό κώδικα διάφορα εργαλεία που βελτιστοποιούν τους πόρους που χρησιμοποιούνται στην εκπαίδευση LLM. Για παράδειγμα, η βιβλιοθήκη YaFSDP επιταχύνει την εκπαίδευση LLM έως και 25% και μειώνει τους πόρους GPU για εκπαίδευση έως και 20%. Νωρίτερα φέτος, οι προγραμματιστές της Yandex διέθεσαν ως λογισμικού ανοιχτού κώδικα το Perforator, ένα εργαλείο για συνεχή παρακολούθηση και ανάλυση serivers και εφαρμογών σε πραγματικό χρόνο, το οποίο βοηθά τις εταιρείες να μειώσουν το κόστος υποδομής έως και 20%.

  • Like 8