To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider

Axlmon · 27 Μαρτίου

Οι διαφορές είναι μικρές, όμως το Claude 3 επιβεβαιώνει την ανοδική τροχιά που διαγράφει εδώ και καιρό, έχοντας συγκεντρώσει το ενδιαφέρον σημαντικών επενδυτών.

Η Anthropic μόλις κυκλοφόρησε νέα μοντέλα του Claude 3, με τις πρώτες δοκιμές να δείχνουν ότι αποδίδει καλύτερα σε οδηγίες για τη σύνταξη κώδικα. Αυτό επιβεβαιώνεται από τις μετρήσεις που πραγματοποιήθηκαν μέσω του benchmark που έχει αναπτύξει η Aider.

Oι διαφορές είναι μικρές, όμως το Claude 3 Opus αποδίδει καλύτερα σε σχέση με όλα τα μοντέλα του GPT-4, καθιστώντας το τη δεδομένη στιγμή το καλύτερο διαθέσιμο μοντέλο για συνδυαστικό προγραμματισμό με την αρωγή της τεχνητής νοημοσύνης.

Μέχρι στιγμής, οι διάφορες εκδοχές του GPT-4 κατατάσσονταν πρώτες, επομένως η έστω και οριακή επικράτηση του Claude 3 είναι μια σημαντική στιγμή, στη σχετικά σύντομη ιστορία των γλωσσικών μοντέλων τεχνητής νοημοσύνης. Εντωμεταξύ, ένα από τα μικρότερα μοντέλα της Anthropic, το Haiku, κερδίζει τις εντυπώσεις με τις επιδόσεις που καταγράφει.

"Για πρώτη φορά, τα καλύτερα διαθέσιμα μοντέλα -το Opus για προηγμένες διαδικασίες, το Haiku για όσους προκρίνουν κόστος και αποδοτικότητα- προέρχονται από εταιρία που δεν είναι η OpenAI", ανέφερε ο ανεξάρτητος ερευνητής Σάιμον Γουίλισον, σε δηλώσεις του στο Ars Technica. "Αυτό είναι θετικό, καθώς όλοι ωφελούμαστε από το να υπάρχει ποικιλία προτάσεων σε αυτό το χώρο. Από την άλλη, το GPT-4 μετράει ήδη ένα χρόνο στην αγορά και χρειάστηκε αυτός ο ένας χρόνος για να πιάσει τις επιδόσεις του κάποιο άλλο μοντέλο".

Τα παραπάνω στοιχεία προέρχονται από τη Chatbot Arena, την οποία διοργανώνει ο Large Model Systems Organization (LMSYS ORG), ένας ερευνητικός οργανισμός που αναλύει τα ανοιχτά μοντέλα και δημιουργήθηκε μέσα από τη συνεργασία φοιτητών και σχολών των Πανεπιστημίων της Καλιφόρνια με έδρα το Μπέρκλεϊ, του Σαν Ντιέγκο και του Κάρνεγκι Μέλον.

Η Chatobot Arena είναι ένα σημαντικό εργαλείο, καθώς τόσο οι ερευνητές όσο και οι χρήστες συχνά δυσκολεύονται στην προσπάθεια μέτρησης των επιδόσεων των διαφόρων AI chatbot, με τη βαθμολόγηση των συχνά πολύ διαφορετικών επιδόσεών τους να αποδεικνύεται δύσκολη. Σημαντική παράμετρος στην όλη διαδικασία είναι και η αίσθηση που αφήνει στο χρήστη το κάθε μοντέλο, πράγμα που επίσης δύσκολα βαθμολογείται.

Η βελτίωση του Claude, εντωμεταξύ, μπορεί να θορυβήσει κάπως την OpenAI όμως, όπως σχολίασε και ο Γουίλισον, η οικογένεια των μοντέλων GPT-4 (αν και έχουν βελτιωθεί αρκετές φορές στην πορεία) μετρά πάνω από ένα χρόνο στην αγορά. Αυτή τη στιγμή, η Arena περιλαμβάνει τέσσερις διαφορετικές εκδοχές του GPT-4, που αντιστοιχούν σε σημαντικές βελτιώσεις του συγκεκριμένου μεγάλου γλωσσικού μοντέλου (LLM), με τις επιμέρους εκδόσεις να παγώνουν στο χρόνο, καθώς κάθε μία έχει ένα μοναδικό τρόπο παρουσίασης αποτελεσμάτων, και ορισμένοι developers που τις χρησιμοποιούν σε συνδυασμό με το ΑΡΙ της OpenAI προκρίνουν τη σταθερότητα, έτσι ώστε να μην πάψουν να λειτουργούν οι εφαρμογές που δημιουργούν στη βάση των αποτελεσμάτων που εμφανίζει η εκάστοτε έκδοση του GPT-4.

Σε κάθε περίπτωση, και παρά την παρουσία τεσσάρων εκδόσεων του GPT-4 στη σχετική λίστα, τα μοντέλα του Claude 3 κατέγραφαν συστηματικά ανοδική πορεία στις κατατάξεις, από τη στιγμή που κυκλοφόρησαν, νωρίτερα μέσα στο Μάρτιο, ενώ ιδιαίτερα σημαντική αποδεικνύεται η ευκολία με την οποία μπορεί κανείς να περάσει από τη χρήση του GPT-4 στο Claude 3, επομένως είναι αντίστοιχα ευκολότερο να απειληθεί το μερίδιο αγοράς που κατέχει το GPT-4.

Ανάλογη ανοδική τροχιά καταγράφει το επίσης αξιόλογο Gemini της Google, στο χώρο των βοηθών τεχνητής νοημοσύνης. Η OpenAI, επομένως, αισθάνεται την πίεση του ανταγωνισμού, όμως παράλληλα αναπτύσσει νέα μοντέλα. Αναμένεται να διαθέσει στην αγορά ένα σημαντικό διάδοχο του GPT-4 Turbo (είτε αυτός θα ονομάζεται GPT-4.5 είτε GPT-5) κάποια στιγμή μέσα στο 2024, ενδεχομένως ακόμη και στη διάρκεια του καλοκαιριού. Είναι προφανές ότι ο χώρος των LLM θα χαρακτηρίζεται από έντονο ανταγωνισμό στο προσεχές μέλλον, πράγμα που ενδεχομένως να οδηγήσει σε ενδιαφέρουσες ανακατατάξεις στα αποτελέσματα της Chatobot Arena στους επόμενους μήνες και ακόμη παραπέρα.

Διαβάστε ολόκληρο το άρθρο

shadowlike · 28 Μαρτίου

όσο δεν είναι διαθέσιμο σε εμένα είναι στο 0

Konos93 · 28 Μαρτίου

σύνδεση με vpn και ip αμερικής ή αγγλίας μέσω opera . ένα google account θέλει για εγγραφή

Tlykog · 28 Μαρτίου

Στο "οι διαφορές είναι μικρές" θα σταθώ, καθώς και στο ότι δεν είναι διαθέσιμο σε εμάς. Οπότε chatgpt 4.0 προς το παρόν.

thomasG4 · 28 Μαρτίου

25 minutes ago, shadowlike said:

όσο δεν είναι διαθέσιμο σε εμένα είναι στο 0

Εδώ είσαι. Διαλέγεις το Claude-3-Opus στη καρτέλα direct chat. Τζάμπα εντελώς, απλά το UX είναι λίγο χάλια.

https://chat.lmsys.org/

cghera · 28 Μαρτίου

Βάλτε το ένα να μιλήσει με το άλλο και να το εκπαιδεύσει.

blacckvodka · 28 Μαρτίου

Tatofski64 · 28 Μαρτίου

1 λεπτό πριν, blacckvodka είπε

Έφαγε bad trip 😂

deafman · 28 Μαρτίου

5 minutes ago, blacckvodka said:

αντε καλα κερδη.

blacckvodka · 28 Μαρτίου

3 λεπτά πριν, Tatofski64 είπε

Έφαγε bad trip 😂

ίσως ήθελε να μου πει ευγενικά ότι θα μου τα παίρνει ο οπαπ μέχρι να σβήσει ο ήλιος

Conan2046 · 28 Μαρτίου

Δεν ξέρω για την σύνταξη κώδικα ή για το Claude πάντως την δωρεάν έκδοση του chat-gpt την έχω εγκαταλείψει τελείως.

Κατ' αρχήν απλές εντολές που του έδινα για να μου φτιάξει κείμενα τα έκανε σαλάτα, χρησιμοποιώντας τις ίδιες εντολές μου εμφάνιζε κάθε φορά διαφορετικά αποτελέσματα. Στις ερωτήσεις που του έκανα ήταν σαν να βαριόταν να απαντήσει και να δώσει στοιχεία. Το Gemini είναι σαφώς καλύτερο, δίνει καλύτερες απαντήσεις, είναι ενημερωμένο έως τώρα (περίπου). Δεν ξέρω πως αντί να γίνει καλύτερο το gpt έγινε χειρότερο.

NiKoSmile · 28 Μαρτίου

Δεν έχει πραγματική πρόσβαση στο διαδίκτυο 👎. Gemini και πάλι Gemini!

alexx_bauer · 28 Μαρτίου

Ισχύει, το χρησιμοποιώ πάρα πολύ από τότε που βγήκε

56 λεπτά πριν, blacckvodka είπε

Δεν ξέρω γιατί στο έβγαλε αυτό. Σε μένα είπε τα εξής (γενικότητες φυσικά, αλλά γενική ήταν και η ερώτηση):

Δυστυχώς, δεν υπάρχει κάποια μαγική συνταγή για να μεγιστοποιήσετε τις πιθανότητες νίκης στο "Πάμε Στοίχημα". Τα παιχνίδια τύχης όπως αυτό είναι σχεδιασμένα έτσι ώστε η στοιχηματική εταιρία να έχει πάντα πλεονέκτημα μακροπρόθεσμα. Ωστόσο, υπάρχουν κάποιες συμβουλές που μπορούν να βοηθήσουν:

1. Μελετήστε καλά τα στοιχεία των ομάδων/αθλητών που θα στοιχηματίσετε. Οι πιθανότητες νίκης βασίζονται σε στατιστικά στοιχεία απόδοσης.

2. Επιλέξτε στοιχήματα με υψηλές αποδόσεις εάν έχετε αναλύσει καλά τα στοιχεία και πιστεύετε ότι υπάρχει υψηλή πιθανότητα επιτυχίας.

3. Ορίστε ένα προϋπολογισμό και μην ξεπεράσετε το ποσό που μπορείτε να χάσετε.

4. Αποφύγετε τις παρορμητικές και συναισθηματικές επιλογές στοιχημάτων.

5. Θυμηθείτε ότι το στοίχημα είναι παιχνίδι τύχης και οι πιθανότητες πάντα θα είναι υπέρ της εταιρίας μακροπρόθεσμα.

Το πιο σημαντικό είναι να παίζετε υπεύθυνα, για διασκέδαση και όχι με την ελπίδα να πλουτίσετε. Έτσι θα αποφύγετε πιθανά οικονομικά προβλήματα.

Shyn · 28 Μαρτίου

3 hours ago, thomasG4 said:

Εδώ είσαι. Διαλέγεις το Claude-3-Opus στη καρτέλα direct chat. Τζάμπα εντελώς, απλά το UX είναι λίγο χάλια.

https://chat.lmsys.org/

Δεν ξερω τι prompt χρησιμοποιουν στο lmsys, παντως τα αποτελεσματα ηταν υποδεεστερα σε συγκριση με το API μεσα απο την Anthropic

Retromaniac · 28 Μαρτίου

Όταν οι διαφορές είναι μικρές τότε θα επικρατήσει το πιο προσβάσιμο από άποψη κόστους και integration. Προς το παρών δηλαδή copilot.

Σύνδεση

To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider

Προτεινόμενες αναρτήσεις

Axlmon

shadowlike

Konos93

Tlykog

thomasG4

cghera

blacckvodka

Tatofski64

deafman

blacckvodka

Conan2046

NiKoSmile

alexx_bauer

Shyn

Retromaniac

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση