Τα Claude 3.7 Sonnet και Claude Code αλλάζουν το τοπίο στην τεχνητή νοημοσύνη για προγραμματιστές

Αλέξης Σολωμός 25/02/2025 08:24 πμ

Η Anthropic παρουσίασε το νέο μοντέλο τεχνητής νοημοσύνης Claude 3.7 Sonnet, το οποίο προσφέρει στους χρήστες πρωτοφανή έλεγχο στο χρόνο "σκέψης" της AI.

Η Anthropic ανακοίνωσε την κυκλοφορία του νέου μοντέλου τεχνητής νοημοσύνης Claude 3.7 Sonnet, το οποίο διαθέτει μια καινοτόμο δυνατότητα "εκτεταμένης σκέψης" που επιτρέπει στο σύστημα να επεξεργάζεται προβλήματα βήμα προς βήμα. Παράλληλα, η εταιρεία αποκάλυψε το Claude Code, ένα εργαλείο γραμμής εντολών με τεχνητή νοημοσύνη για προγραμματιστές, το οποίο διατίθεται προς το παρόν ως περιορισμένη ερευνητική προεπισκόπηση.

Το Claude 3.7 Sonnet χαρακτηρίζεται από την Anthropic ως το πρώτο "υβριδικό μοντέλο συλλογισμού" στην αγορά, προσφέροντας στους χρήστες τη δυνατότητα επιλογής μεταξύ γρήγορων απαντήσεων ή εκτεταμένης, ορατής αλυσιδωτής διαδικασίας σκέψης. Αυτή η προσέγγιση μοιάζει με τα μοντέλα της σειράς o1 και o3 της OpenAI, το Gemini 2.0 Flash Thinking της Google και το R1 της DeepSeek.

Όταν χρησιμοποιούν το API του Claude 3.7, οι προγραμματιστές μπορούν να καθορίσουν με ακρίβεια πόσα tokens θα χρησιμοποιήσει το μοντέλο για τη διαδικασία σκέψης, έως το όριο των 128.000 tokens. Αυτό δίνει στους χρήστες πρωτοφανή έλεγχο στη διαδικασία συλλογισμού του μοντέλου, επιτρέποντας προσαρμογή ανάλογα με την πολυπλοκότητα του προβλήματος.

Το νέο μοντέλο είναι διαθέσιμο σε όλα τα συνδρομητικά πακέτα του Claude, ενώ η λειτουργία εκτεταμένης σκέψης προσφέρεται σε όλα τα πακέτα εκτός από τη δωρεάν έκδοση. Η τιμολόγηση του API παραμένει αμετάβλητη στα 3 δολάρια ανά εκατομμύριο tokens εισόδου και 15 δολάρια ανά εκατομμύριο tokens εξόδου, με τα tokens σκέψης να συμπεριλαμβάνονται στην τιμολόγηση εξόδου.

Ένα ενδιαφέρον στοιχείο είναι ότι η Anthropic μείωσε τις περιττές αρνήσεις στο Claude 3.7 Sonnet κατά 45% σε σύγκριση με προηγούμενες εκδόσεις. Αυτό πρακτικά σημαίνει ότι το μοντέλο είναι πιο πιθανό να εκτελέσει αυτό που του ζητείται χωρίς να διαμαρτύρεται για ηθικά όρια, τα οποία μπορεί να εμφανίζονται σε αθώες περιπτώσεις όταν ερμηνεύονται λανθασμένα από το νευρωνικό δίκτυο.

Στις συγκριτικές αξιολογήσεις, το τελευταίο μοντέλο της Anthropic φαίνεται να διατηρεί το επίπεδό του και μάλιστα να διαπρέπει ιδιαίτερα στον προγραμματισμό. Ο προκάτοχός του, το Claude 3.5 Sonnet, ήταν ήδη εξαιρετικό σε προγραμματιστικές εργασίες συγκριτικά με άλλα μοντέλα τεχνητής νοημοσύνης, και σύμφωνα με την Anthropic, οι αρχικές δοκιμές δείχνουν εξαιρετική απόδοση σε αυτόν τον τομέα.

Η εταιρεία υποστηρίζει ότι το Claude 3.7 Sonnet πέτυχε κορυφαίες βαθμολογίες στο SWE-bench Verified, το οποίο αξιολογεί πώς τα μοντέλα τεχνητής νοημοσύνης χειρίζονται πραγματικά προβλήματα λογισμικού. Επίσης, διέπρεψε στο TAU-bench, το οποίο δοκιμάζει agents τεχνητής νοημοσύνης σε σύνθετες εργασίες με αλληλεπιδράσεις χρήστη και εργαλείων.

Στοχεύοντας στους προγραμματιστές λογισμικού, η Anthropic έχει επεκτείνει την ενσωμάτωση του GitHub σε όλα τα πακέτα Claude, επιτρέποντας στους προγραμματιστές να συνδέουν αποθετήρια κώδικα (repositories) απευθείας στο Claude για διορθώσεις bugs, ανάπτυξη χαρακτηριστικών και εργασίες documentation.

Παρά τις εντυπωσιακές δυνατότητες του μοντέλου, πολλοί χρήστες αντιμετωπίζουν περιορισμούς χρήσης. Μέχρι στιγμής, η Anthropic δεν έχει ανακοινώσει νέο πακέτο συνδρομής πέραν του υπάρχοντος "Claude Pro" (20 δολάρια/μήνα) που θα μπορούσε να επεκτείνει αυτούς τους περιορισμούς. Αυτό αποτελεί πρόκληση για προγραμματιστές που βασίζονται όλο και περισσότερο στο συγκεκριμένο μοντέλο για τις καθημερινές τους εργασίες.

Το 2025 έχει χαρακτηριστεί μέχρι στιγμής ως το έτος τόσο των μοντέλων συλλογισμού (όπως το R1 και το o3) όσο και των εργαλείων τεχνητής νοημοσύνης με δυνατότητες agent. Η Anthropic εισέρχεται σε αυτή την αγορά με το πρώτο της εργαλείο πράκτορα, το Claude Code.

Το Claude Code λειτουργεί απευθείας από τερματικό κονσόλας και είναι ένας αυτόνομος βοηθός προγραμματισμού. Επιτρέπει στο Claude να αναζητά μέσα σε βάσεις κώδικα, να διαβάζει και να επεξεργάζεται αρχεία, να γράφει και να εκτελεί δοκιμές, να δεσμεύει και να κάνει push κώδικα σε GitHub repositories, και να εκτελεί εργαλεία γραμμής εντολών, ενημερώνοντας παράλληλα τους προγραμματιστές καθ' όλη τη διαδικασία.

Η Anthropic στοχεύει επίσης στη χρήση του Claude Code ως βοηθού για εργασίες debugging και refactoring κώδικα. Η εταιρεία ισχυρίζεται ότι κατά τη διάρκεια εσωτερικών δοκιμών, το Claude Code ολοκλήρωσε εργασίες σε μία μόνο συνεδρία που κανονικά θα απαιτούσαν πάνω από 45 λεπτά χειροκίνητης εργασίας.

Η Anthropic έχει αναφέρει ότι σχεδιάζει να συνεχίσει να βελτιώνει τόσο το Claude 3.7 Sonnet όσο και το Claude Code βάσει των σχολίων των χρηστών με την πάροδο του χρόνου. Το Claude 3.7 Sonnet διατίθεται άμεσα μέσω του ιστότοπου Claude, της εφαρμογής Claude, του Anthropic API, του Amazon Bedrock και του Vertex AI της Google Cloud, ενώ το Claude Code παραμένει σε preview έκδοση με περιορισμένη πρόσβαση.

Claude.AI

ΣΧΟΛΙΑ (29)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

Δημοσίευση ως Επισκέπτης

· Αποσύνδεση

flik

Δημοσ. 25 Φεβρουαρίου

- Share

10 minutes ago, V.I.Smirnov said:

Αυτά τα ποσοστά επιτυχίας φαίνεται να μην έχουν καμιά σχέση με την πραγματικότητα.
Π.χ., ρωτάω απλά πράγματα σε μαθηματικά και φυσική και το τι μπούρδες απαντάνε δεν περιγράφεται.
Επικές ανοησίες, ότι να 'ναι....
Μόνον το deepseek απαντά σωστά.
Π.χ., δείτε το αποτέλεσμα στην ερώτηση "πες μου ένα αστρόβιλο πεδίο". (φυσική 3η λυκείου).

chatGPT, copilot, perplexity, deepseek

Αυτό αφορά βασικά οχι ακριβως την αποδοση τους γενικά, αλλά τις δυνατότητες στην ελληνική γλωσσα.
Και το claude 3.7 απαντησε σωστά btw, αλλά αν το ρωτήσεις στα αγγλικά όπως γενικά δυστυχώς κανω εγω παντα, irrotanioal field, θα απαντησουν ολα σωστά.

Εννοειται πως ακομα εχουμε πολυ δρομο για να τα ρωταμε δσκολα πραγματα.
Προς το παρον μενουν σε πραγματα που ξερουμε και οι ιδιοι ή ειανι λιγο εκτος του πεδιου γνωσεως μας αλλα μπορυμε να αξιολογησουμε την απαντηση, αλλα σε κανουν πραγματικα πολλες φορες πιο παραγωγικο. Εχω γλυτωσει πολλες ωρες διαβασματος ή γραψιματος τετριμενου κωδικα με αυτά.

Συνδέστε για να σχολιάσετε

https://www.insomnia.gr/forums/topic/839828-%CF%84%CE%B1-claude-37-sonnet-%CE%BA%CE%B1%CE%B9-claude-code-%CE%B1%CE%BB%CE%BB%CE%AC%CE%B6%CE%BF%CF%85%CE%BD-%CF%84%CE%BF-%CF%84%CE%BF%CF%80%CE%AF%CE%BF-%CF%83%CF%84%CE%B7%CE%BD-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7-%CE%B3%CE%B9%CE%B1-%CF%80%CF%81%CE%BF%CE%B3%CF%81%CE%B1%CE%BC%CE%BC%CE%B1%CF%84%CE%B9%CF%83%CF%84%CE%AD%CF%82/#findComment-60638040

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 25 Φεβρουαρίου

- Share

49 λεπτά πριν, flik είπε

Αυτό αφορά βασικά οχι ακριβως την αποδοση τους γενικά, αλλά τις δυνατότητες στην ελληνική γλωσσα.
Και το claude 3.7 απαντησε σωστά btw, αλλά αν το ρωτήσεις στα αγγλικά όπως γενικά δυστυχώς κανω εγω παντα, irrotanioal field, θα απαντησουν ολα σωστά.

Εννοειται πως ακομα εχουμε πολυ δρομο για να τα ρωταμε δσκολα πραγματα.
Προς το παρον μενουν σε πραγματα που ξερουμε και οι ιδιοι ή ειανι λιγο εκτος του πεδιου γνωσεως μας αλλα μπορυμε να αξιολογησουμε την απαντηση, αλλα σε κανουν πραγματικα πολλες φορες πιο παραγωγικο. Εχω γλυτωσει πολλες ωρες διαβασματος ή γραψιματος τετριμενου κωδικα με αυτά.

Εξίσου λάθος απαντήσεις δίνουν και στα αγγλικά.
Ειδικά το chatGPT,
- είτε απαντά λάθος με δικαιολόγηση που παραπλανά μοιάζοντας σωστή,
- είτε απαντά σωστά με λάθος δικαιολόγηση που μοιάζει σωστή,
- είτε απαντά σωστά με σωστή δικαιολόγηση - αλλά αρκετά λιγότερο.

Όταν προσπαθείς να κατανοήσεις ένα θέμα προφανώς δεν το ξέρεις καλά,
και γι αυτό είναι δύσκολο να αντιληφθείς αν και πού λέει λάθος.

Αντίθετα, το deepseek έχει απαντήσει πολύ περισσότερες φορές σωστά με σωστή δικαιολόγηση.
Κι αυτό μου έχει κάνει λάθη, αλλά πολύ λιγότερα. Επίσης, η ορολογία του στην ελληνική είναι γενικά σωστότερη απ' του chatGPT.

Δεν ξέρω τι κάνουν στον προγραμματισμό αλλά στα μαθηματικά το deepeek είναι πολύ παραπάνω της εμπιστοσύνης από τα άλλα.
Έχω πολλά παραδείγματα σε δύσκολα πράγματα, ξέρω ΄γώ Θεωρία Ομάδων, Τοπολογία κ.α.
Εξάλλου, στον προγραμματισμό είναι πολύ πιο εύκολο να βρεις τα λάθη διότι απλώς δεν τρέχει το πρόγραμμα ή δεν κάνει αυτό που περιμένεις.
Στα υπόλοιπα όμως δεν είναι έτσι...

Επεξ/σία 25 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 25 Φεβρουαρίου

- Share

34 λεπτά πριν, V.I.Smirnov είπε

Αυτά τα ποσοστά επιτυχίας φαίνεται να μην έχουν καμιά σχέση με την πραγματικότητα.
Π.χ., ρωτάω απλά πράγματα σε μαθηματικά και φυσική και το τι μπούρδες απαντάνε δεν περιγράφεται.
Επικές ανοησίες, ότι να 'ναι....
Μόνον το deepseek απαντά σωστά.
Π.χ., δείτε το αποτέλεσμα στην ερώτηση "πες μου ένα αστρόβιλο πεδίο". (φυσική 3η λυκείου).

chatGPT, copilot, perplexity, deepseek.

Εξαιρουμένου του deepseek (που κι εκείνο κάνει λάθη αλλά πολύ λιγότερα), γελάνε και τα παρδαλά κατσίκια.
Άντε τώρα να τα εμπιστευτείς για σοβαρά πράγματα......

Η αλήθεια είναι ότι δεν θυμάμαι τη φυσική Γ λυκείου. Εμένα το chatgpt μου έδωσε αυτή την απάντηση:

είναι σωστή; Το ρώτησα με την έκδοση Ο3 mini high.

Επεξ/σία 25 Φεβρουαρίου από Tlykog

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 25 Φεβρουαρίου

- Share

5 λεπτά πριν, Tlykog είπε

Η αλήθεια είναι ΄τοι δεν θυμάμαι τη φυσική Γ λυκείου. Εμένα το chatgpt μου έδωσε αυτή την απάντηση:

είναι σωστή;

Καταφανές λάθος είναι.

Το πεδίο από στατικά ηλεκτρικά φορτία είναι αστρόβιλο, όπως γράφει.
Εγώ όμως του ζήτησα να πει ένα που ΔΕΝ είναι τέτοιο (να είναι μη αστρόβιλο).
Τι να λέμε τώρα, ούτε την ερώτηση δεν κατάλαβε 😂😂😂....

Η σωστή απάντηση, πλήρης και περιεκτική, είναι αυτή που δίνει το deepseek παραπάνω.

Επεξ/σία 25 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

flik

Δημοσ. 25 Φεβρουαρίου

- Share

46 minutes ago, V.I.Smirnov said:

Εξίσου λάθος απαντήσεις δίνουν και στα αγγλικά.
Ειδικά το chatGPT,
- είτε απαντά λάθος με δικαιολόγηση που παραπλανά μοιάζοντας σωστή,
- είτε απαντά σωστά με λάθος δικαιολόγηση που μοιάζει σωστή,
- είτε απαντά σωστά με σωστή δικαιολόγηση - αλλά αρκετά λιγότερο.

Όταν προσπαθείς να κατανοήσεις ένα θέμα προφανώς δεν το ξέρεις καλά,
και γι αυτό είναι δύσκολο να αντιληφθείς αν και πού λέει λάθος.

Αντίθετα, το deepseek έχει απαντήσει πολύ περισσότερες φορές σωστά με σωστή δικαιολόγηση.
Κι αυτό μου έχει κάνει λάθη, αλλά πολύ λιγότερα. Επίσης, η ορολογία του στην ελληνική είναι γενικά σωστότερη απ' του chatGPT.

Δεν ξέρω τι κάνουν στον προγραμματισμό αλλά στα μαθηματικά το deepeek είναι πολύ παραπάνω της εμπιστοσύνης από τα άλλα.
Έχω πολλά παραδείγματα σε δύσκολα πράγματα, ξέρω ΄γώ Θεωρία Ομάδων, Τοπολογία κ.α.
Εξάλλου, στον προγραμματισμό είναι πολύ πιο εύκολο να βρεις τα λάθη διότι απλώς δεν τρέχει το πρόγραμμα ή δεν κάνει αυτό που περιμένεις.
Στα υπόλοιπα όμως δεν είναι έτσι...

Ισχύει οτι το deepseek R1 κατανοεί περισσότερο, ίσως μπαινει όντως περισσότερο σε thinking mode.
Αλλά το δοκιμασα απλα λεγονας "name me an irrotanial field" και μου απαντησαν ολα σωστα και οταν χρειαστηκε να ζητησω κανονικο παραδειγμα μου εδωσαν βαρυτικο και ηλεκτροστατικο που εικναι και τα 2 σωστά ε;
Τιπ: Θα ελεγα να δοκιμασεις και το reasoning του grok ειναι πραγματικα καλο, όπως επισης και στο τσατ παντα να εισαι σε reasoning mode. Αν σε πεταξει στο non-reasoning λογω οριου, απλα το κλειενις πας αλλού, θελω αν πω εχει διαφορά.

40 minutes ago, V.I.Smirnov said:

Καταφανές λάθος είναι.

Το πεδίο από στατικά ηλεκτρικά φορτία είναι αστρόβιλο, όπως γράφει.
Εγώ όμως του ζήτησα να πει ένα που ΔΕΝ είναι τέτοιο (να είναι μη αστρόβιλο).
Τι να λέμε τώρα, ούτε την ερώτηση δεν κατάλαβε 😂😂😂....

Η σωστή απάντηση, πλήρης και περιεκτική, είναι αυτή που δίνει το deepseek παραπάνω.

-

Ναι, τον ρωτησε ομως ενα "μη αστροβιλο" χαχ αρα σωστα απαντησε (σε αλλη ερωτηση)

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 25 Φεβρουαρίου

- Share

48 λεπτά πριν, flik είπε

Ισχύει οτι το deepseek R1 κατανοεί περισσότερο, ίσως μπαινει όντως περισσότερο σε thinking mode.
Αλλά το δοκιμασα απλα λεγονας "name me an irrotanial field" και μου απαντησαν ολα σωστα και οταν χρειαστηκε να ζητησω κανονικο παραδειγμα μου εδωσαν βαρυτικο και ηλεκτροστατικο που εικναι και τα 2 σωστά ε;
Τιπ: Θα ελεγα να δοκιμασεις και το reasoning του grok ειναι πραγματικα καλο, όπως επισης και στο τσατ παντα να εισαι σε reasoning mode. Αν σε πεταξει στο non-reasoning λογω οριου, απλα το κλειενις πας αλλού, θελω αν πω εχει διαφορά.

Ναι, μας υποχρέωσε και το Grok....
Δες την απάντησή του.
Δυο δοκιμές (η δεύτερη με ενεργοποιημένο το Think).

Στην πρώτη :
πεδίο που δεν είναι αστρόβιλο είναι το στροβιλό !
Γελάνε και τα παρδαλά κατσίκια 😂😂😂....

Η δεύτερη είναι μεν σωστή - αλλά μακράν πίσω από αυτή που έδωσε το deepseek.

Ας πάνε να πάρουν μαθήματα απ' τους κινέζους....

Επεξ/σία 25 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 25 Φεβρουαρίου

- Share

9 ώρες πριν, V.I.Smirnov είπε

Καταφανές λάθος είναι.

Το πεδίο από στατικά ηλεκτρικά φορτία είναι αστρόβιλο, όπως γράφει.
Εγώ όμως του ζήτησα να πει ένα που ΔΕΝ είναι τέτοιο (να είναι μη αστρόβιλο).
Τι να λέμε τώρα, ούτε την ερώτηση δεν κατάλαβε 😂😂😂....

Η σωστή απάντηση, πλήρης και περιεκτική, είναι αυτή που δίνει το deepseek παραπάνω.

-

Αλλάζω την ερώτηση σε αυτή:

και μου απαντά:

είναι σωστό; Υπάρχει λόγος που σε ρωτάω και ευχαριστώ προκαταβολικά για το χρόνο σου.

Επεξ/σία 25 Φεβρουαρίου από Tlykog

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 25 Φεβρουαρίου

- Share

11 ώρες πριν, Tlykog είπε

Τώρα μου έδωσε αυτό:

είναι σωστό;

Σωστό, αλλά με διαφορετικά διατυπωμένο ερώτημα δεν μπορεί να γίνει σωστή σύγκριση.
Σύγκρινέ το με την απάντηση του Deepseek παραπάνω (την οποία έδωσε με την πρώτη)
και θα διαπιστώσεις αμέσως την διαφορά (σαφήνεια, ακριβολογία και περιεκτικότητα).
Η απάντηση του deepseek είναι αυτή που θα ήθελε να πάρει κάποιος στο αρχικό ερώτημα.

Δυστυχώς το chatgpt αποτυγχάνει πολύ συχνά, και εν προκειμένω δεν πρόκειται για κάτι εξεζητημένο.
Οι απαντήσεις του μοιάζουν περισσότερο θέμα τύχης και ημιμάθειας παρά συγκροτημένης γνώσης.
Αν είναι κάθε φορά να ψάχνουμε αν έχει λάθος και πού, καλύτερα να μας λείπει...

Σε ότι αφορά το deepseek, ούτε αυτό είναι αψεγάδιαστο. Κι αυτό μου έχει απαντήσει λάθος, αλλά λιγότερες φορές.
Και με ελάχιστες υποδείξεις απάντησε σωστά όπως έπρεπε.

---------------------
Nα κι ένα παράδειγμα από πραγματικό ερώτημα όπου και τα δυο (chatGPT, Deepseek) απαντούν σωστά.
Ωστόσο, η απάντηση του Deepseek πάλι υπερτερεί στη σαφήνεια, στην περιεκτικότητα, και στην ακριβολογία της,
και είναι αυτό που θα ήθελε να λάβει κάποιος για να καταλάβει το πρόβλημα.
Ακόμη και την ορολογία την αποδίδει καλύτερα στα ελληνικά.
Π.χ., το chatGPT γράφει "μη αναστρέψιμη επιφάνεια" (λάθος όρος),
ενώ το Deepseek "μη προσανατολίσιμη" που είναι και το σωστό.

Από τη χρήση που έκανα, τις περισσότερες φορές το deepseek υπερτερούσε.....

Επεξ/σία 26 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 26 Φεβρουαρίου

- Share

1 ώρα πριν, V.I.Smirnov είπε

Σωστό αλλά γραμμένο πολύ άκομψα.
Σύγκρινέ το με την απάντηση του Deepseek παραπάνω (την οποία έδωσε με την πρώτη)
και θα διαπιστώσεις αμέσως την διαφορά (σαφήνεια, ακριβολογία και περιεκτικότητα).
Η απάντηση του deepseek είναι αυτή που θα ήθελε να πάρει κάποιος.

Δυστυχώς το chatgpt αποτυγχάνει πολύ συχνά, και εν προκειμένω δεν πρόκειται για κάτι εξεζητημένο.
Οι απαντήσεις του μοιάζουν περισσότερο θέμα τύχης και ημιμάθειας παρά συγκροτημένης γνώσης.
Αν είναι κάθε φορά να ψάχνουμε αν έχει λάθος και πού, καλύτερα να μας λείπει...

Σε ότι αφορά το deepseek, ούτε αυτό είναι αψεγάδιαστο. Κι αυτό μου έχει απαντήσει λάθος, αλλά λιγότερες φορές.
Και με ελάχιστες υποδείξεις απάντησε σωστά όπως έπρεπε.

---------------------
Nα κι ένα παράδειγμα από πραγματικό ερώτημα όπου και τα δυο (chatGPT, Deepseek) απαντούν σωστά.
Ωστόσο, η απάντηση του Deepseek πάλι υπερτερεί στη σαφήνεια, στην περιεκτικότητα, και στην ακριβολογία της,
και είναι αυτό που θα ήθελε να λάβει κάποιος για να καταλάβει το πρόβλημα.

Από τη χρήση που έκανα, τις περισσότερες φορές το deepseek υπερτερούσε.....

Δεν διαφωνώ ότι, με τον τρόπο που το προσέγγισες, έτσι δείχνει. Όμως, το συμπέρασμά σου βασίζεται σε μια γενίκευση από ένα συγκεκριμένο παράδειγμα.

Το να συγκρίνουμε AI μοντέλα με βάση μία μόνο ερώτηση μπορεί να οδηγήσει σε λάθος συμπεράσματα. Τα γλωσσικά μοντέλα επεξεργάζονται φυσική γλώσσα, και η ποιότητα της απάντησης εξαρτάται τόσο από το πώς διατυπώνεται η ερώτηση όσο και από τη βάση δεδομένων που έχουν στη διάθεσή τους.

Όταν διατύπωσα την ερώτηση πιο συγκεκριμένα, το ChatGPT έδωσε τη σωστή απάντηση. Αυτό δείχνει ότι γνώριζε την πληροφορία, απλώς χρειαζόταν πιο ακριβή καθοδήγηση. Δεν είναι αδυναμία αυτό, αλλά μια φυσική ιδιότητα όλων των AI που βασίζονται στη γλώσσα.

Από την άλλη, το ότι το DeepSeek απάντησε σωστά με την πρώτη δεν σημαίνει απαραίτητα ότι είναι συνολικά καλύτερο. Ίσως έχει εκπαιδευτεί με περισσότερα παραδείγματα σε αυτό το θέμα ή έχει σχεδιαστεί να δίνει πιο άμεσες απαντήσεις σε τέτοιες περιπτώσεις. Για μια δίκαιη σύγκριση, θα έπρεπε να το αξιολογήσουμε σε ένα ευρύτερο σύνολο ερωτήσεων και θεμάτων, κάτι που υπογραμμίζεται και σε σχετικές αναλύσεις.

Δεν λέω ότι η ερώτησή σου ήταν λάθος, αλλά ότι ο τρόπος διατύπωσης επηρεάζει την απάντηση που θα λάβεις. Οι γενικές ερωτήσεις δεν οδηγούν πάντα σε ακριβείς απαντήσεις, και αυτό δεν είναι απαραίτητα αδυναμία του AI.

Συνολικά, η διατύπωση της ερώτησης παίζει πολύ σημαντικό ρόλο. Αν περιμένουμε ότι ένα AI θα δίνει πάντα τη σωστή απάντηση ανεξάρτητα από το πώς το ρωτάμε, τότε υποτιμούμε τον ρόλο που έχει ο τρόπος χρήσης του… Τουλάχιστον με την τωρινή μορφή τους.

Επεξ/σία 26 Φεβρουαρίου από Tlykog

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 26 Φεβρουαρίου

- Share

33 λεπτά πριν, Tlykog είπε

Το να συγκρίνουμε AI μοντέλα με βάση μία μόνο ερώτηση μπορεί να οδηγήσει σε λάθος συμπεράσματα. Τα γλωσσικά μοντέλα επεξεργάζονται φυσική γλώσσα, και η ποιότητα της απάντησης επηρεάζεται από το πώς διατυπώνεται η ερώτηση και τη βάση που έχουν στη διάθεσή τους.

Όταν διατύπωσα την ερώτηση πιο συγκεκριμένα, το ChatGPT έδωσε τη σωστή απάντηση. Αυτό δείχνει ότι γνώριζε την πληροφορία, απλώς χρειαζόταν πιο ακριβή καθοδήγηση. Δεν είναι αδυναμία αυτό, αλλά μια φυσική ιδιότητα όλων των AI που βασίζονται στη γλώσσα.

Από την άλλη, το ότι το DeepSeek απάντησε σωστά με την πρώτη δεν σημαίνει απαραίτητα ότι είναι συνολικά καλύτερο. Ίσως απλώς έχει εκπαιδευτεί με περισσότερα παραδείγματα σε αυτό το θέμα ή έχει σχεδιαστεί να δίνει πιο άμεσες απαντήσεις σε τέτοιες περιπτώσεις. Για μια δίκαιη σύγκριση, θα έπρεπε να το αξιολογήσουμε σε ένα ευρύτερο φάσμα ερωτήσεων και θεμάτων. Αυτό δείχνει και το άρθρο.

Δεν λέω ότι η ερώτησή σου ήταν λάθος, αλλά ότι ο τρόπος διατύπωσης επηρεάζει την απάντηση που θα λάβεις. Οι γενικές ερωτήσεις δεν οδηγούν πάντα σε ακριβείς απαντήσεις, και αυτό δεν είναι απαραίτητα αδυναμία του AI.

Συνολικά, η διατύπωση της ερώτησης παίζει πολύ σημαντικό ρόλο. Αν περιμένουμε ότι ένα AI θα δίνει πάντα τη σωστή απάντηση ανεξάρτητα από το πώς το ρωτάμε, τότε υποτιμούμε το ρόλο που έχει ο τρόπος χρήσης του… Τουλάχιστον με την τωρινή μορφή τους.

Έχεις δίκιο - αλλά όχι τελείως.

Το ερώτημά μου δεν ήταν γενικό αλλά συγκεκριμένο, και αυτές οι μπούρδες δεν δικαιολογούνται - απ' όλα, όχι μόνον από το chatGPT.
Οι περιπτώσεις στις οποίες διαπίστωσα ότι το chatGPT αποτύγχανε ή υπολειπόταν ήταν σε πολύ συγκεκριμένα ερωτήματα.
Π.χ., και στο δεύτερο παράδειγμα που δείχνω πιο πάνω, το Deepseek απαντά φανερά καλύτερα.

Το αρχικό ερώτημα δεν είναι μεμονωμένη περίπτωση, έχω πολλές άλλες, από πρακτική χρήση, όχι "περιβάλλον εργαστηρίου".
Το συμπέρασμά μου είναι ότι γενικά δεν είναι της εμπιστοσύνης, και είναι χειρότερο απ' το deepseek για τέτοια δουλειά....

Επεξ/σία 26 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 26 Φεβρουαρίου

- Share

5 λεπτά πριν, V.I.Smirnov είπε

Έχεις δίκιο - αλλά εν μέρει.

Το ερώτημά μου δεν ήταν γενικό αλλά συγκεκριμένο, και αυτές οι μπούρδες δεν δικαιολογούνται - απ' όλα, όχι μόνον από το chatGPT.
Οι περιπτώσεις στις οποίες διαπίστωσα ότι το chatGPT αποτύγχανε ή υπολειπόταν ήταν σε πολύ συγκεκριμένα ερωτήματα.
Π.χ., και στο δεύτερο παράδειγμα που δείχνω πιο πάνω, το Deepseek απαντά φανερά καλύτερα.
Και δεν είναι η μόνη τέτοια περίπτωση, έχω πολλές άλλες, από πρακτική χρήση, όχι "περιβάλλον εργαστηρίου".
Το συμπέρασμά μου είναι ότι δεν είναι της εμπιστοσύνης, και είναι χειρότερο απ' το deepseek για τέτοια δουλειά.
Πιθανώς και γι αυτό λύσσαξαν εναντίον του....

-

Καταλαβαίνω ότι η εμπειρία σου με το DeepSeek ήταν θετική και ότι το θεωρείς καλύτερο σε συγκεκριμένες περιπτώσεις. Δεν διαφωνώ ότι μπορεί σε κάποιες ερωτήσεις να έχει αποδώσει καλύτερα. Είναι φυσιολογικό κάποια μοντέλα να υπερέχουν σε συγκεκριμένους τομείς.

Το άρθρο που συζητάμε περιέχει συγκριτικά δεδομένα που δείχνουν ότι διαφορετικά AI έχουν διαφορετικά δυνατά σημεία. Για παράδειγμα, το DeepSeek αποδίδει εξαιρετικά σε μαθηματικά προβλήματα (97.3%, σχεδόν όσο και το OpenAI o1), αλλά σε άλλες κατηγορίες, όπως η πολυγλωσσική κατανόηση και η εκτέλεση οδηγιών, υστερεί σε σχέση με τα κορυφαία OpenAI και Claude μοντέλα.

Ταυτόχρονα, η Anthropic παρουσίασε νέες δυνατότητες στο Claude 3.7 Sonnet, όπως η εκτεταμένη σκέψη (extended thinking), που του επιτρέπει να επεξεργάζεται προβλήματα βήμα προς βήμα, και το Claude Code, ένα εργαλείο ειδικά σχεδιασμένο για debugging και refactoring κώδικα. Σύμφωνα με τις δοκιμές τους, μπορεί να ολοκληρώνει εργασίες που θα απαιτούσαν πάνω από 45 λεπτά χειροκίνητης δουλειάς, κάτι που δείχνει μια διαφορετική εστία βελτίωσης.

Αυτό ενισχύει το επιχείρημα ότι δεν υπάρχει ένα "ανώτερο AI" σε όλα, αλλά διαφορετικά AI που είναι πιο δυνατά σε συγκεκριμένες χρήσεις. Το DeepSeek μπορεί να υπερέχει σε συγκεκριμένες ερωτήσεις, αλλά τα Claude και OpenAI μοντέλα έχουν επίσης ισχυρά σημεία, ειδικά σε πιο σύνθετες εργασίες σκέψης και προγραμματισμού.

Τελικά, η επιλογή του "καλύτερου" AI εξαρτάται από το τι χρειάζεται κανείς. Αν το DeepSeek σου δίνει καλύτερα αποτελέσματα για τις ανάγκες σου, είναι λογικό να το προτιμάς. Αυτό που ήθελα να πω είναι ότι τα δεδομένα δείχνουν πως δεν είναι αντικειμενικά ανώτερο από τα υπόλοιπα AI σε όλες τις περιπτώσεις και ότι η σύγκριση πρέπει να γίνεται πιο σφαιρικά.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

V.I.Smirnov

Δημοσ. 26 Φεβρουαρίου

- Share

Εμένα το αρχικό μου σχόλιο ήταν πώς τα μοντέλα παίρνουν τόσο υψηλή βαθμολογία στα μαθηματικά,
όταν στην πράξη αυτό δεν φαίνεται να επαληθεύεται....

Αν στην καθημερινή πρακτική πρέπει διαρκώς να ελέγχεις την ορθότητα των απαντήσεων, η χρησιμότητά τους ακυρώνεται.
Ο προγραμματισμός είναι σχετικά εύκολη υπόθεση, καθώς εκεί το πρόγραμμα είτε τρέχει όπως περιμένεις είτε όχι.
Αλλά στη φυσική και τα μαθηματικά είναι εντελώς διαφορετικά τα πράγματα.
Έστω ότι προσπαθείς να κατανοήσεις ένα μαθηματικό ή φυσικό θέμα και το ρωτάς επ αυτού.
Επειδή δεν το κατέχεις καλά, η αξιολόγηση των απαντήσεων είναι πολύ πιο δύσκολη -
πώς θα κρίνεις την ορθότητα των απαντήσεων όταν δεν ξέρεις το θέμα και προσπαθείς να το κατανοήσεις απ' αυτές ;
Δεν μπορείς να διαπιστώσεις εύκολα αν σου απαντά λάθος ή αν σου απαντά σωστά με λάθος δικαιολόγηση.
Έχω ένα σωρό τέτοιες περιπτώσεις...

Επεξ/σία 26 Φεβρουαρίου από V.I.Smirnov

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Lucifer

Δημοσ. 26 Φεβρουαρίου

- Share

34 λεπτά πριν, V.I.Smirnov είπε

Αν στην καθημερινή πρακτική πρέπει διαρκώς να ελέγχεις την ορθότητα των απαντήσεων, η χρησιμότητά τους ακυρώνεται.-

Το ίδιο πρόβλημα μαστίζει και τις απαντήσεις από ανθρώπους βέβαια.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Tlykog

Δημοσ. 26 Φεβρουαρίου

- Share

16 ώρες πριν, V.I.Smirnov είπε

Εμένα το αρχικό μου σχόλιο ήταν πώς τα μοντέλα παίρνουν τόσο υψηλή βαθμολογία στα μαθηματικά,
όταν στην πράξη αυτό δεν φαίνεται να επαληθεύεται....

Αν στην καθημερινή πρακτική πρέπει διαρκώς να ελέγχεις την ορθότητα των απαντήσεων, η χρησιμότητά τους ακυρώνεται.
Ο προγραμματισμός είναι σχετικά εύκολη υπόθεση, καθώς εκεί το πρόγραμμα είτε τρέχει όπως περιμένεις είτε όχι.
Αλλά στη φυσική και τα μαθηματικά είναι εντελώς διαφορετικά τα πράγματα.
Έστω ότι προσπαθείς να κατανοήσεις ένα μαθηματικό ή φυσικό θέμα και το ρωτάς επ αυτού.
Επειδή δεν το κατέχεις καλά, η αξιολόγηση των απαντήσεων είναι πολύ πιο δύσκολη -
πώς θα κρίνεις την ορθότητα των απαντήσεων όταν δεν ξέρεις το θέμα και προσπαθείς να το κατανοήσεις απ' αυτές ;
Δεν μπορείς να διαπιστώσεις εύκολα αν σου απαντά λάθος ή αν σου απαντά σωστά με λάθος δικαιολόγηση.
Έχω ένα σωρό τέτοιες περιπτώσεις...

-

Καταλαβαίνω την σκέψη σου. Πράγματι, αν κάποιος δεν έχει γνώση ενός θέματος, η αξιολόγηση των απαντήσεων που λαμβάνει από ένα AI γίνεται πολύ δύσκολη.

Αλλά εδώ οι ερωτήσεις που κάνουμε συνήθως εμπίπτουν σε δύο κατηγορίες:

1) Όταν έχουμε κάποια βασική γνώση. Σε αυτή την περίπτωση μπορούμε να κρίνουμε αν η απάντηση φαίνεται σωστή ή αν κάτι δεν στέκει. Αν το AI δώσει μια απάντηση που μας φαίνεται παράξενη ή ανακριβής, μπορούμε να την ερευνήσουμε περαιτέρω και να τη διασταυρώσουμε.

2) Όταν δεν έχουμε καμία γνώση. Σε αυτή την περίπτωση, είναι λιγότερο πιθανό να κάνουμε εξαιρετικά εξειδικευμένες ερωτήσεις. Συνήθως ξεκινάμε από πιο βασικές έννοιες και, καθώς μαθαίνουμε, αποκτούμε σταδιακά την ικανότητα να αξιολογούμε τις πληροφορίες που λαμβάνουμε.

Το πρόβλημα που θέτεις προκύπτει όταν κάποιος εμπιστεύεται τυφλά μια απάντηση AI χωρίς να την ελέγξει. Αλλά αυτό δεν συμβαίνει μόνο στα AI – το ίδιο γίνεται όταν διαβάζουμε ένα άρθρο στο διαδίκτυο, βλέπουμε ένα βίντεο ή ακούμε μια γνώμη χωρίς να έχουμε τα μέσα να την αξιολογήσουμε.

Η λύση δεν είναι να περιμένουμε τα AI να είναι αλάνθαστα, αλλά να αναπτύξουμε κριτική σκέψη και να χρησιμοποιούμε διαφορετικές πηγές για επιβεβαίωση.

Γι’ αυτό τα AI δεν πρέπει να θεωρούνται "τελικές αυθεντίες" σε κανένα θέμα, αλλά εργαλεία που μπορούν να βοηθήσουν στη μάθηση, αρκεί να τα χρησιμοποιούμε σωστά. Αυτός είναι και ο κύριος λόγος ύπαρξής τους, αλλά και μια από τις πιο συχνές παρανοήσεις που κάνουν οι χρήστες. Προσωπικά, τα βλέπω καθαρά ως συνεργατικά εργαλεία, που ενισχύουν τη σκέψη μας, αλλά δεν μπορούν και δεν πρέπει να την αντικαθιστούν.

Επεξ/σία 26 Φεβρουαρίου από Tlykog

Σύνδεση

Τα Claude 3.7 Sonnet και Claude Code αλλάζουν το τοπίο στην τεχνητή νοημοσύνη για προγραμματιστές

Trending

ΣΧΟΛΙΑ (29)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Σύνδεση