Νέο μοντέλο τεχνητής νοημοσύνης από την OpenAI, με την κωδική ονομασία Strawberry και επίσημη ονομασία OpenAI o1, το οποίο υπόσχεται να φέρει σημαντικές βελτιώσεις στον τομέα του GenerativeAI, με ιδιαίτερη έμφαση στις ικανότητες συλλογισμού.

Το o1 διαφοροποιείται από προηγούμενα μοντέλα χάρη στην ικανότητά του να "σκέφτεται" πριν απαντήσει σε ερωτήσεις, χρησιμοποιώντας μια μέθοδο που η OpenAI αποκαλεί "αλυσίδα συλλογισμού".

Η προσέγγιση αυτή επιτρέπει στο o1 να αναλύει ολιστικά ένα πρόβλημα, σχεδιάζοντας εκ των προτέρων και εκτελώντας μια σειρά ενεργειών για μεγαλύτερο χρονικό διάστημα, προτού καταλήξει σε μια απάντηση. Ως αποτέλεσμα, το μοντέλο είναι ιδιαίτερα κατάλληλο για εργασίες που απαιτούν τη σύνθεση αποτελεσμάτων από πολλαπλές υποεργασίες, όπως η ανίχνευση εμπιστευτικών emails σε ένα δικηγορικό γραφείο ή ο σχεδιασμός στρατηγικής μάρκετινγκ προϊόντων.

Το o1 αποτελεί στην πραγματικότητα μια οικογένεια μοντέλων, με δύο εκδόσεις να είναι διαθέσιμες από σήμερα: το o1-preview και το o1-mini, μια μικρότερη, φθηνότερη και πιο αποδοτική έκδοση που στοχεύει κυρίως στη δημιουργία κώδικα.

Οι συνδρομητές του ChatGPT Plus και Team έχουν ήδη πρόσβαση στο o1 μέσω του ChatGPT, ενώ οι εταιρικοί και εκπαιδευτικοί χρήστες θα αποκτήσουν πρόσβαση στις αρχές της επόμενης εβδομάδας. Ωστόσο, η εμπειρία χρήσης του o1 chatbot είναι προς το παρόν αρκετά περιορισμένη. Σε αντίθεση με τον προκάτοχό του, το GPT-4o, το o1 δεν μπορεί ακόμη να περιηγηθεί στο διαδίκτυο ή να αναλύσει αρχεία. Επιπλέον, αν και διαθέτει λειτουργίες ανάλυσης εικόνων, αυτές έχουν απενεργοποιηθεί προσωρινά για περαιτέρω δοκιμές.

Ένα σημαντικό μειονέκτημα του o1 είναι το υψηλό κόστος χρήσης του. Με χρήση του API, το o1-preview κοστίζει 15 δολάρια ανά 1 εκατομμύριο tokens εισόδου (input) και 60 δολάρια ανά 1 εκατομμύριο tokens εξόδου (output), κόστος που αντιστοιχεί σε τριπλάσιο κόστος σε σύγκριση με το GPT-4o για input ενέργειες και τετραπλάσιο για output.

Σύμφωνα με τον Noam Brown, ερευνητή επιστήμονα στην OpenAI, το o1 έχει εκπαιδευτεί με ενισχυτική μάθηση, η οποία διδάσκει στο σύστημα να "σκέφτεται" πριν απαντήσει μέσω μιας ιδιωτικής αλυσίδας σκέψης. Ο Brown ανέφερε επίσης ότι η OpenAI χρησιμοποίησε έναν νέο αλγόριθμο βελτιστοποίησης και ένα σύνολο δεδομένων εκπαίδευσης που περιέχει "δεδομένα συλλογισμού" και επιστημονική βιβλιογραφία ειδικά προσαρμοσμένα για εργασίες συλλογισμού.

Ο Pablo Arredondo, Αντιπρόεδρος της Thomson Reuters, ο οποίος είχε την ευκαιρία να δοκιμάσει το o1, δήλωσε στο TechCrunch ότι το μοντέλο είναι καλύτερο από τα προηγούμενα μοντέλα της OpenAI σε τομείς όπως η ανάλυση νομικών εγγράφων και η εύρεση λύσεων σε λογικά παιχνίδια τύπου LSAT. Ο Arredondo πρόσθεσε ότι παρατήρησαν το o1 να αντιμετωπίζει πιο ουσιαστικές και πολύπλευρες αναλύσεις.

Η OpenAI ισχυρίζεται ότι σε εξετάσεις για τη Διεθνή Μαθηματική Ολυμπιάδα, το o1 έλυσε σωστά το 83% των προβλημάτων, ενώ το GPT-4o αντίστοιχα μόνο το 13%. Επιπλέον, η εταιρεία αναφέρει ότι το o1 έφτασε στο 89ο εκατοστημόριο των συμμετεχόντων σε διαγωνισμούς προγραμματισμού Codeforces.

image.png.608f028e0f98b9a1d69f5f1be0fc1575.png

Ωστόσο, το o1 δεν είναι τέλειο αφού μπορεί να είναι πιο αργό από άλλα μοντέλα, ανάλογα με το ερώτημα. Ο Arredondo ανέφερε ότι το o1 μπορεί να χρειαστεί πάνω από 10 δευτερόλεπτα για να απαντήσει σε ορισμένες ερωτήσεις. Επιπλέον, ο Brown παραδέχτηκε ότι το o1 μπορεί να κάνει λάθη σε παιχνίδια όπως η τρίλιζα. Ο Ethan Mollick, καθηγητής διοίκησης στο Wharton, ο οποίος χρησιμοποίησε το o1 για ένα μήνα, ανέφερε ότι το μοντέλο τα πήγε καλά σε ένα δύσκολο σταυρόλεξο, αλλά εξακολουθεί να κάνει λάθη και να έχει ψευδαισθήσεις. 

Η OpenAI δεν είναι η μόνη εταιρεία που ερευνά αυτούς τους τύπους μεθόδων συλλογισμού για τη βελτίωση της ακρίβειας των μοντέλων. Ερευνητές της Google DeepMind δημοσίευσαν πρόσφατα μια μελέτη που δείχνει ότι δίνοντας στα μοντέλα περισσότερο χρόνο υπολογισμού και καθοδήγηση για την εκτέλεση αιτημάτων, η απόδοσή τους μπορεί να βελτιωθεί σημαντικά χωρίς πρόσθετες τροποποιήσεις.

image.png.ad5e32dfa11fe2f643180025dbb7a8c1.png

Ο δημιουργός του ChatGPT σχεδιάζει να πειραματιστεί με μοντέλα o1 που θα μπορούν να συλλογίζονται για ώρες, ημέρες ή ακόμη και εβδομάδες για να ενισχύσουν περαιτέρω τις ικανότητες συλλογισμού τους. Ωστόσο, η πραγματική πρόκληση για την εταιρεία θα είναι να κάνει το o1 ευρέως διαθέσιμο και σε χαμηλότερο κόστος.

Η OpenAI ανέφερε ότι αποφάσισε να μην εμφανίζει τις ακατέργαστες "αλυσίδες σκέψεων" του o1 στο ChatGPT, εν μέρει λόγω "ανταγωνιστικού πλεονεκτήματος". Αντ' αυτού, η εταιρεία επέλεξε να εμφανίζει "περιλήψεις που δημιουργούνται από το μοντέλο" των αλυσίδων.