Το ChatGPT αποκτά δυνατότητες εκτενούς έρευνας με το Deep Research

Axlmon · 3 Φεβρουαρίου

Η OpenAI παρουσίασε έναν νέο user agent με την ονομασία "deep research", που ενσωματώνεται στο ChatGPT για την εκτέλεση εκτενών και πολύπλοκων ερευνών.

Η ανακοίνωση έγινε μέσω ανάρτησης στο εταιρικό blog της εταιρείας την Κυριακή, με την εταιρεία να στοχεύει σε επαγγελματίες από τους τομείς των οικονομικών, της επιστήμης, της πολιτικής και της μηχανικής. Η νέα λειτουργία έχει σχεδιαστεί για να καλύψει τις ανάγκες όσων απαιτούν ακριβή και αξιόπιστη έρευνα για τη λήψη αποφάσεων.

Το νέο εργαλείο διαφοροποιείται από τις συνηθισμένες λειτουργίες του ChatGPT, καθώς επεξεργάζεται δεδομένα από πολλαπλές πηγές του διαδικτύου για να παρέχει εμπεριστατωμένες απαντήσεις. Επιπλέον, μπορεί να αναλύσει και να συνδυάσει πληροφορίες από διαφορετικούς ιστότοπους, επιστημονικές δημοσιεύσεις και βάσεις δεδομένων, δημιουργώντας μια ολοκληρωμένη εικόνα για κάθε θέμα που ερευνάται.

Η πρόσβαση στο deep research ξεκινά με τους συνδρομητές του ChatGPT Pro, με όριο 100 ερωτημάτων μηνιαίως. Η OpenAI σχεδιάζει να επεκτείνει τη διαθεσιμότητα στους συνδρομητές Plus και Team μέσα στον επόμενο μήνα, με αυξημένα όρια ερωτημάτων. Ωστόσο, η υπηρεσία δεν είναι ακόμη διαθέσιμη στο Ηνωμένο Βασίλειο, την Ελβετία και τον Ευρωπαϊκό Οικονομικό Χώρο.

Από τεχνική άποψη, το σύστημα χρησιμοποιεί μια εξειδικευμένη έκδοση του μοντέλου o3, που έχει εκπαιδευτεί μέσω ενισχυτικής μάθησης. Η εκπαίδευση περιλαμβάνει πραγματικές εργασίες που απαιτούν χρήση προγραμματισμού Python και περιήγηση στο διαδίκτυο. Το μοντέλο έχει τη δυνατότητα να αναλύει κείμενο, εικόνες και αρχεία PDF, ενώ μπορεί να δημιουργεί και να τροποποιεί γραφήματα χρησιμοποιώντας εργαλεία Python.

Η διαδικασία λειτουργίας του deep research είναι αρκετά απλή στη χρήση. Οι χρήστες επιλέγουν τη λειτουργία από τo ίδιο μενού που υποβάλλουν το ερώτημά τους, με δυνατότητα επισύναψης αρχείων και υπολογιστικών φύλλων. Η επεξεργασία διαρκεί από 5 έως 30 λεπτά, ανάλογα με την πολυπλοκότητα του ερωτήματος. Το σύστημα ειδοποιεί τον χρήστη μόλις ολοκληρωθεί η έρευνα.

Οι επιδόσεις του συστήματος είναι αξιοσημείωτες. Στην αξιολόγηση μέσω του Humanity's Last Exam, μιας δοκιμασίας με πάνω από 3.000 ερωτήσεις υψηλού επιπέδου, το μοντέλο o3 πέτυχε ακρίβεια 26,6%. Η επίδοση αυτή ξεπερνά κατά πολύ ανταγωνιστικά μοντέλα όπως το Gemini Thinking με 6,2%, το Grok-2 με 3,8% και το GPT-4o με 3,3%.

Παρά τις εντυπωσιακές δυνατότητες, η OpenAI είναι διαφανής σχετικά με τους περιορισμούς του συστήματος. Το deep research μπορεί να κάνει λάθη στην ερμηνεία πληροφοριών και δυσκολεύεται να διακρίνει αξιόπιστες πηγές από φήμες. Επιπλέον, δεν εκφράζει πάντα την αβεβαιότητά του όταν χρειάζεται και μπορεί να παρουσιάσει σφάλματα στη μορφοποίηση αναφορών και παραπομπών.

Η εξέλιξη αυτή εντάσσεται σε ένα ευρύτερο πλαίσιο ανταγωνισμού στον τομέα της τεχνητής νοημοσύνης. Η Google είχε προηγηθεί με την ανακοίνωση παρόμοιας λειτουργίας με το ίδιο όνομα περίπου δύο μήνες νωρίτερα, υπογραμμίζοντας τη στρατηγική σημασία των εργαλείων προηγμένης έρευνας για τους τεχνολογικούς κολοσσούς.

Για την ακαδημαϊκή και ερευνητική κοινότητα, το deep research ανοίγει νέους ορίζοντες στην αναζήτηση και σύνθεση πληροφοριών. Η έμφαση στην τεκμηρίωση και τις παραπομπές προσφέρει ένα επίπεδο διαφάνειας που είναι απαραίτητο για την επιστημονική έρευνα. Ωστόσο, παραμένει το ερώτημα κατά πόσο οι χρήστες θα αξιοποιήσουν πλήρως τις δυνατότητες επαλήθευσης που προσφέρει το σύστημα.

Στα μελλοντικά σχέδια της OpenAI περιλαμβάνονται σημαντικές αναβαθμίσεις του συστήματος. Μεταξύ αυτών είναι η προσθήκη ενσωματωμένων εικόνων, η οπτικοποίηση δεδομένων και η δυνατότητα σύνδεσης με εξειδικευμένες πηγές πληροφοριών, συμπεριλαμβανομένων συνδρομητικών υπηρεσιών και εσωτερικών πόρων οργανισμών.

Οι ενδιαφερόμενοι μπορούν να δουν συγκεκριμένα παραδείγματα για τις διαφορές στα αποτελέσματα των μοντέλων GPT-o3 και GPT- Deep Research, στην ιστοσελίδα της ανακοίνωσης.

Διαβάστε ολόκληρο το άρθρο

artocube · 3 Φεβρουαρίου

DeepSeek.....Deep Research....

I see what you did there!

Επεξ/σία 3 Φεβρουαρίου από artocube

anonymous999 · 3 Φεβρουαρίου

"Το deep research μπορεί να κάνει λάθη στην ερμηνεία πληροφοριών και δυσκολεύεται να διακρίνει αξιόπιστες πηγές από φήμες. Επιπλέον, δεν εκφράζει πάντα την αβεβαιότητά του όταν χρειάζεται και μπορεί να παρουσιάσει σφάλματα στη μορφοποίηση αναφορών και παραπομπών."

Με 26% ακρίβεια; Δηλαδή 3 στις 4 φορές ανακρίβεια; Καλά δουλευομαστε; Ποιο είναι το προϊόν εδώ ακριβώς, αν πρέπει να τα ξανακάνεις όλα με το χέρι (γιατί δεν θα ξέρεις και πότε λέει ψέματα);

Εγώ γερνάω και τα θυμάμαι ρομαντικά, ή σε παλιότερα χρόνια αν κάποιος προσπαθούσε να πλασάρει ενα προϊόν\υπηρεσια με τέτοια χαρακτηριστικά, δεν θα τον έλεγαν απατεώνα και να τον έπαιρναν με τις πέτρες;

Edit: α, και ουδόλως με απασχολεί ποιο είναι το λιγότερο καθυστερημένο ΑΙ, αν χρειαστώ όχημα για χωματουργικές εργασίες δεν θα κοιτάξω στο παιχνιδαδικο αν η μπουλντόζα του Μπομπ Μάστορα είναι καλύτερη από του Μπομπ Σφουγγαράκη

Επεξ/σία 3 Φεβρουαρίου από anonymous999

cpc464 · 3 Φεβρουαρίου

Τους έχει τσούξει πολύ το Deepseek.

Hetfield · 3 Φεβρουαρίου

21 minutes ago, cpc464 said:

Τους έχει τσούξει πολύ το Deepseek.

Ανταγωνισμος λεγεται και τον θελουμε.

Οποιος πληρωνει ChatGPT απεκτησε καλυτερο προϊον for free.

cpc464 · 3 Φεβρουαρίου

5 minutes ago, Hetfield said:

Ανταγωνισμος λεγεται και τον θελουμε.

Οποιος πληρωνει ChatGPT απεκτησε καλυτερο προϊον for free.

Δέν διαφωνώ, απλά έσφιξαν λίγο οι πωποί λόγω deepseek.

Tilemaxx · 3 Φεβρουαρίου

48 λεπτά πριν, Hetfield είπε

Ανταγωνισμος λεγεται και τον θελουμε.

Οποιος πληρωνει ChatGPT απεκτησε καλυτερο προϊον for free.

Χρησιμοποιώ το Grok του Χ και μπορώ να πω ότι είναι πολύ πιο «ανθρώπινο» και «ζεστό» στις απαντήσεις του με αυτά που σου λέει σε σχέση με το Chat GPT. Επισης είναι κομματάκι πιο ευστοχο, και με περισσότερες δυνατότητες. Και είναι δωρεάν (μέχρι 25 ερωτήσεις).

Diavolos666 · 3 Φεβρουαρίου

Εγώ που έχω χρησιμοποιήσει το πληρωμένο chatgpt για κώδικα συνειδητοποίησα ότι ξεχνούσε πράγματα που είπαμε πολύ πριν στην συζήτηση και το ρώτησα πόσο πριν μπορεί να θυμάται και μου είπε ότι όντως δεν μπορεί να θυμάται όλο το chat που κάναμε.

Γι' αυτό αν π.χ. του πείτε να σας δείχνει κάτι με συγκεκριμένο τρόπο και μετά από αρκετά μηνύματα αρχίσει πάλι τα δικά του σημαίνει ότι έχει αρχίσει να ξεχνάει. Το λέω γιατί και να το εκπαιδεύσετε εσείς σε κάτι συγκεκριμένο μέσα στο chat δεν το λαμβάνει υπ' όψιν πάντα.

Γι' αυτό τα τοπικά μοντέλα πολλές φορές είναι πιο εύκολο να τα εκπαιδεύσεις τι θέλεις να κάνουν, αυτά που τρέχουν στο pc σου δηλαδή.

Αλλά εφόσον έχει αρχίσει ο καλός ανταγωνισμός ήρθε η ώρα να να καλυτερεύσουν τον αλγόριθμό του.

Όπως και να χει εγώ την δουλειά μου την έκανα σε δύο 12-ωρα, τσακ μπαμ, που πιο πριν δεν θα υπήρχε περίπτωση να το κάνω τόσο fast αυτό που ήθελα.

Επεξ/σία 4 Φεβρουαρίου από Diavolos666

whoever81 · 3 Φεβρουαρίου

2 hours ago, anonymous999 said:

Με 26% ακρίβεια; Δηλαδή 3 στις 4 φορές ανακρίβεια; Καλά δουλευομαστε; Ποιο είναι το προϊόν εδώ ακριβώς, αν πρέπει να τα ξανακάνεις όλα με το χέρι (γιατί δεν θα ξέρεις και πότε λέει ψέματα);

Με την ακρίβεια που εσύ διαβάζεις τα άρθρα...(🔥) Σε συγκεκριμένη ανώτατη δοκιμασία αναφέρεται όχι στις ερωτήσεις του μέσου χρήστη.

Στην αξιολόγηση μέσω του Humanity's Last Exam, μιας δοκιμασίας με πάνω από 3.000 ερωτήσεις υψηλού επιπέδου, το μοντέλο o3 πέτυχε ακρίβεια 26,6%. Η επίδοση αυτή ξεπερνά κατά πολύ ανταγωνιστικά μοντέλα όπως το Gemini Thinking με 6,2%, το Grok-2 με 3,8% και το GPT-4o με 3,3%.

Στο Humanity's Last Exam (HLE) η μεγάλη πλειοψηφία των ανθρώπων θα σκόραραν από 0-10%...Απο ChaGPT:

Humanity’s Last Exam is intentionally designed as a benchmark of expert‐level academic questions—covering advanced topics in mathematics, humanities, and the natural sciences—that even highly trained professionals find challenging. In online discussions and among experts, it’s often noted that a “random” or average person (i.e. someone without specialized training in these fields) would likely score extremely low on the test. In fact, some experts have remarked that an average human might score well below 10%—with many possibly scoring close to 0%—since the questions demand a depth of knowledge and multi‐step reasoning typically reserved for specialists.

In contrast, the exam is meant to capture the frontier of human expertise. While a small subset of highly educated or expert individuals might achieve modest scores, the vast majority of people (including well‐educated laypersons) are not expected to answer these questions correctly. Thus, the “average human” in the general population would perform very poorly on Humanity’s Last Exam.

Επεξ/σία 3 Φεβρουαρίου από whoever81

DrFreeman · 3 Φεβρουαρίου

1 hour ago, whoever81 said:

Με την ακρίβεια που εσύ διαβάζεις τα άρθρα...(🔥) Σε συγκεκριμένη ανώτατη δοκιμασία αναφέρεται όχι στις ερωτήσεις του μέσου χρήστη.

Στην αξιολόγηση μέσω του Humanity's Last Exam, μιας δοκιμασίας με πάνω από 3.000 ερωτήσεις υψηλού επιπέδου, το μοντέλο o3 πέτυχε ακρίβεια 26,6%. Η επίδοση αυτή ξεπερνά κατά πολύ ανταγωνιστικά μοντέλα όπως το Gemini Thinking με 6,2%, το Grok-2 με 3,8% και το GPT-4o με 3,3%.

Στο Humanity's Last Exam (HLE) η μεγάλη πλειοψηφία των ανθρώπων θα σκόραραν από 0-10%...Απο ChaGPT:

Humanity’s Last Exam is intentionally designed as a benchmark of expert‐level academic questions—covering advanced topics in mathematics, humanities, and the natural sciences—that even highly trained professionals find challenging. In online discussions and among experts, it’s often noted that a “random” or average person (i.e. someone without specialized training in these fields) would likely score extremely low on the test. In fact, some experts have remarked that an average human might score well below 10%—with many possibly scoring close to 0%—since the questions demand a depth of knowledge and multi‐step reasoning typically reserved for specialists.

In contrast, the exam is meant to capture the frontier of human expertise. While a small subset of highly educated or expert individuals might achieve modest scores, the vast majority of people (including well‐educated laypersons) are not expected to answer these questions correctly. Thus, the “average human” in the general population would perform very poorly on Humanity’s Last Exam.

Το 95% εδώ μέσα ενδιαφέρεται μόνο να ποστάρει την εξυπνάδα του και ουδόλως ενδιαφέρεται (ή έχει την ικανότητα) να μελετήσει ένα άρθρο.

keysmith · 3 Φεβρουαρίου

αυτά τα "deep" κάτι μόνο εμένα φέρνουν κάτι σε τίτλο από "τσόντα";

ήρεμα ρωτάω..

Mhlogiatros · 3 Φεβρουαρίου

Οχι Καθόλου . Παω να ψάξω deep throat ταινιάρα deep search βρες μου deep ταινία επιμορφωτικού περιεχομένου

Επεξ/σία 3 Φεβρουαρίου από Mhlogiatros

Predatorkill · 3 Φεβρουαρίου

5 ώρες πριν, Diavolos666 είπε

Εγώ που έχω χρησιμοποιήσει το πληρωμένο chatgpt για κώδικα συνειδητοποίησα ότι ξεχνούσε πράγματα που είπαμε πολύ πριν στην συζήτηση και το ρώτησα πόσο πριν μπορεί να θυμάται και μου είπε ότι όντως δεν μπορεί να θυμάται όλο το chat που κάναμε.

Γι' αυτό αν π.χ. του πείτε να σας δείχνει κάτι με συγκεκριμένο τρόπο και μετά από αρκετά μηνύματα αρχίσει πάλι τα δικά του σημαίνει ότι έχει αρχίσει να ξεχνάει. Το λέω γιατί και να το εκπαιδεύσετε εσείς σε κάτι συγκεκριμένο μέσα στο chat δεν το λαμβάνει υπ' όψιν πάντα.

Γι' αυτό τα τοπικά μοντέλα πολλές φορές είναι πιο εύκολο να τα εκπαιδεύσεις τι θέλεις να κάνουν.

Αλλά εφόσον έχει αρχίσει ο καλός ανταγωνισμός ήρθε η ώρα να να καλυτερεύσουν τον αλγόριθμό του.

όπως και να χει εγώ την δουλειά μου την έκανα σε δύο 12-ωρα, τσακ μπαμ, που πιο πριν δεν θα υπήρχε περίπτωση να το κάνω τόσο fast αυτό που ήθελα.

γραψε του “keep that in memory” που και που αν σκοπευεις να το πας μακρια και δε θα το ξεχασει ποτε, και σε νεα session.

anonymous999 · 3 Φεβρουαρίου

7 hours ago, whoever81 said:

Με την ακρίβεια που εσύ διαβάζεις τα άρθρα...(🔥) Σε συγκεκριμένη ανώτατη δοκιμασία αναφέρεται όχι στις ερωτήσεις του μέσου χρήστη.

Στην αξιολόγηση μέσω του Humanity's Last Exam, μιας δοκιμασίας με πάνω από 3.000 ερωτήσεις υψηλού επιπέδου, το μοντέλο o3 πέτυχε ακρίβεια 26,6%. Η επίδοση αυτή ξεπερνά κατά πολύ ανταγωνιστικά μοντέλα όπως το Gemini Thinking με 6,2%, το Grok-2 με 3,8% και το GPT-4o με 3,3%.

Στο Humanity's Last Exam (HLE) η μεγάλη πλειοψηφία των ανθρώπων θα σκόραραν από 0-10%...Απο ChaGPT:

Humanity’s Last Exam is intentionally designed as a benchmark of expert‐level academic questions—covering advanced topics in mathematics, humanities, and the natural sciences—that even highly trained professionals find challenging. In online discussions and among experts, it’s often noted that a “random” or average person (i.e. someone without specialized training in these fields) would likely score extremely low on the test. In fact, some experts have remarked that an average human might score well below 10%—with many possibly scoring close to 0%—since the questions demand a depth of knowledge and multi‐step reasoning typically reserved for specialists.

In contrast, the exam is meant to capture the frontier of human expertise. While a small subset of highly educated or expert individuals might achieve modest scores, the vast majority of people (including well‐educated laypersons) are not expected to answer these questions correctly. Thus, the “average human” in the general population would perform very poorly on Humanity’s Last Exam.

6 hours ago, DrFreeman said:

Το 95% εδώ μέσα ενδιαφέρεται μόνο να ποστάρει την εξυπνάδα του και ουδόλως ενδιαφέρεται (ή έχει την ικανότητα) να μελετήσει ένα άρθρο.

Από το άρθρο που δεν διάβασα, πάνω στο οποίο ποσταρα την εξυπνάδα μου:

"...με την εταιρεία να στοχεύει σε επαγγελματίες από τους τομείς των οικονομικών, της επιστήμης, της πολιτικής και της μηχανικής. Η νέα λειτουργία έχει σχεδιαστεί για να καλύψει τις ανάγκες όσων απαιτούν ακριβή και αξιόπιστη έρευνα για τη λήψη αποφάσεων."

Εντάξει παιδιά, εσείς αν ανοίξετε εταιρεία συμβούλων που απευθύνεται σε επαγγελματίες προσλάβετε τον "μέσο χρήστη" να τρέχει το ΑΙ που είναι τόσο καλό. Ουρά θα κάνουν να σας πληρώσουν για τις "αξιόπιστες" σας μελέτες και πορίσματα που κανείς δεν θα είναι σίγουρος αν ισχύουν (το 26%) ή είναι ΑΙ hallucinations (το 74%).

ΥΓ δεν υποθέτω. Έχω δει τι παίζει σε corporate περιβάλλον σήμερα όσον αφορά την αξιοπιστία των LLMs και τη χρήση τους.

Επεξ/σία 3 Φεβρουαρίου από anonymous999

Diavolos666 · 4 Φεβρουαρίου

15 hours ago, Predatorkill said:

γραψε του “keep that in memory” που και που αν σκοπευεις να το πας μακρια και δε θα το ξεχασει ποτε, και σε νεα session.

Το ξέρω αλλά γεμίζει πολύ γρήγορα εκείνο, δεν έχει τόση μνήμη και είναι γενικό για όλα τα chat, δηλαδή αν έχεις έναν συγκεκριμένο τρόπου που θέλεις κάποια πράγματα ή αν θέλεις να θυμάται ποιος είσαι, τι δουλιεά κάνεις κτλ τότε ταιριάζει. Είναι για γενικές εντολές, κάτι σαν την βάση. Αλλά το ίδιο το chat που γράφεις δεν το εκπαιδεύει κιόλας στο συγκεκριμένο chat. Δηλαδή αν μιλ΄ς για κώδικα σε κάποιο αρχείο και προσθέτεις ή βγάζεις πράγματα αυτό θυμάται τι έχεις εκεί μέσα και αν θέλησεις να προσθέσεις κάτι σου το προσθέτει στον κώδικα που έχεις ήδη, μετά από αρκετή ώρα πρέεπ ιαν του ξαναδώσεις όλο το αρχείο γιατί ξεχνάει snippets από κώδικα μέσα και πρέπει να προσέχεις.

Εγώ βρήκα τον ρυθμό μου με αυτό, ήξερα ότι όταν ξεκινούσα κάτι για troubleshooting ή προσθήκες έβαζα από την αρχή τον κώδικα όλο και ήξερα ότι για την επόμενη ώρα μπορούμε να συζητάμε γι' αυτό.

Σύνδεση

Το ChatGPT αποκτά δυνατότητες εκτενούς έρευνας με το Deep Research

Προτεινόμενες αναρτήσεις

Axlmon

artocube

anonymous999

cpc464

Hetfield

cpc464

Tilemaxx

Diavolos666

whoever81

DrFreeman

keysmith

Mhlogiatros

Predatorkill

anonymous999

Diavolos666

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση