Σύμφωνα με το whitepaper που δημοσίευσε η εταιρεία, το κύριο μοντέλο NVLM-D-72B με 72 δισεκατομμύρια παραμέτρους επιτυγχάνει επιδόσεις εφάμιλλες με τα κορυφαία ιδιόκτητα μοντέλα από εταιρείες όπως η OpenAI, η Anthropic, η Meta και η Google.
Οι ερευνητές της Nvidia υποστηρίζουν ότι η οικογένεια μεγάλων γλωσσικών μοντέλων του NVLM 1.0 πετυχαίνει κορυφαία αποτελέσματα σε εργασίες που συνδυάζουν όραση και γλώσσα, ανταγωνιζόμενη τόσο τα κορυφαία ιδιόκτητα μοντέλα (όπως το GPT-4o) όσο και τα ανοιχτού κώδικα μοντέλα (όπως το InternVL 2). Αξιοσημείωτο είναι ότι το NVLM 1.0 παρουσιάζει βελτιωμένες επιδόσεις και σε εργασίες που αφορούν μόνο κείμενο, σε σύγκριση με το βασικό LLM μοντέλο στο οποίο βασίστηκε.
Για να επιτύχουν αυτές τις επιδόσεις, οι ερευνητές της Nvidia ενσωμάτωσαν ένα υψηλής ποιότητας σύνολο δεδομένων κειμένου στην πολυτροπική εκπαίδευση, μαζί με ένα σημαντικό όγκο πολυτροπικών δεδομένων μαθηματικών και συλλογισμού. Αυτή η προσέγγιση οδήγησε σε ενισχυμένες δυνατότητες στα μαθηματικά και τον προγραμματισμό σε διάφορες μορφές εισόδου.
Το αποτέλεσμα είναι ένα μοντέλο γλώσσας μεγάλης κλίμακας (LLM) που μπορεί να εξηγήσει με την ίδια ευκολία γιατί ένα meme είναι αστείο και να επιλύσει πολύπλοκες μαθηματικές εξισώσεις, βήμα προς βήμα. Η Nvidia κατάφερε επίσης να αυξήσει την ακρίβεια του μοντέλου σε εργασίες αποκλειστικά κειμένου κατά μέσο όρο 4,3 μονάδες σε κοινά σημεία αναφοράς του κλάδου, χάρη στην πολυτροπική μέθοδο εκπαίδευσης.
Η εταιρεία φαίνεται να λαμβάνει σοβαρά υπόψη τον νέο ορισμό του "ανοιχτού κώδικα" από το Open Source Initiative. Όχι μόνο καθιστά διαθέσιμα τα βάρη εκπαίδευσης του μοντέλου για δημόσιο έλεγχο, αλλά υπόσχεται επίσης να δημοσιοποιήσει τον πηγαίο κώδικα του μοντέλου στο εγγύς μέλλον. Η προσέγγιση αυτή διαφέρει σημαντικά από τις ενέργειες ανταγωνιστών όπως η OpenAI και η Google, οι οποίες προστατεύουν τις λεπτομέρειες των βαρών και του πηγαίου κώδικα των LLM τους.
Με αυτόν τον τρόπο, η Nvidia τοποθετεί την οικογένεια NVLM όχι ως άμεσο ανταγωνιστή του ChatGPT-4o και του Gemini 1.5 Pro, αλλά ως θεμέλιο για τρίτους προγραμματιστές που επιθυμούν να αναπτύξουν τα δικά τους chatbots και εφαρμογές τεχνητής νοημοσύνης.
Η δυνατότητα του μοντέλου να χειρίζεται τόσο οπτικά όσο και γλωσσικά δεδομένα το καθιστά ιδιαίτερα ευέλικτο για ένα ευρύ φάσμα εφαρμογών. Από την ανάλυση εικόνων και την κατανόηση του περιεχομένου τους, μέχρι την επίλυση σύνθετων μαθηματικών προβλημάτων, το NVLM 1.0 φαίνεται να προσφέρει ένα ολοκληρωμένο πακέτο δυνατοτήτων, αποτελώντας μια εξαιρετική εναλλακτική σε ένα άλλο opensource LLM, το LLama της Meta.
Η απόφαση της Nvidia να διαθέσει το μοντέλο ως ανοιχτού κώδικα θα μπορούσε να επιταχύνει την έρευνα και την ανάπτυξη στον τομέα της τεχνητής νοημοσύνης, επιτρέποντας σε ερευνητές και προγραμματιστές να μελετήσουν, να βελτιώσουν και να προσαρμόσουν το μοντέλο για διάφορες εφαρμογές.
Σύμφωνα με την ανακοίνωση της Nvidia, το NVLM-D-72B μπορεί να εκτελέσει εργασίες "παραγωγικού επιπέδου πολυτροπικότητας", υποδηλώνοντας ότι είναι έτοιμο για χρήση σε πραγματικές εφαρμογές και όχι μόνο για ερευνητικούς σκοπούς.
- 9
ΣΧΟΛΙΑ (2)
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώραΔημοσίευση ως Επισκέπτης
· Αποσύνδεση