Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Η Anthropic παρουσίασε μια αναβαθμισμένη έκδοση του μοντέλου Claude 3.5 Sonnet, προσφέροντας τη δυνατότητα ελέγχου εφαρμογών υπολογιστή μέσω του νέου API "Computer Use" που βρίσκεται σε ανοιχτή δοκιμαστική φάση.

Το μοντέλο μπορεί να μιμείται ανθρώπινες ενέργειες, όπως πατήματα πλήκτρων, κλικ και κινήσεις ποντικιού.

Το Computer Use API λειτουργεί μέσω ενός προηγμένου συστήματος επεξεργασίας εικόνας που αναλύει συνεχώς στιγμιότυπα της οθόνης του υπολογιστή. Σύμφωνα με την Anthropic, το σύστημα χρησιμοποιεί εξελιγμένους αλγόριθμους για να αναγνωρίζει διεπαφές χρήστη, κουμπιά, πεδία κειμένου και άλλα διαδραστικά στοιχεία.

Η διαδικασία λήψης αποφάσεων του API βασίζεται σε τρία επίπεδα: αναγνώριση περιεχομένου οθόνης, σχεδιασμό ακολουθίας ενεργειών και εκτέλεση εντολών. Το σύστημα υπολογίζει με ακρίβεια τις συντεταγμένες pixel για κάθε κίνηση του κέρσορα, ενώ παράλληλα διατηρεί επίγνωση του συνολικού πλαισίου της εργασίας.

Οι προγραμματιστές μπορούν να αξιοποιήσουν το API μέσω τριών πλατφορμών: του native API της Anthropic, του Amazon Bedrock και του Google Cloud Vertex AI. Κάθε πλατφόρμα προσφέρει διαφορετικές δυνατότητες ενσωμάτωσης και επιλογές παραμετροποίησης.

Το API υποστηρίζει ένα ευρύ φάσμα αλληλεπιδράσεων, συμπεριλαμβανομένων σύνθετων gestures όπως drag-and-drop, διπλά κλικ και scrolling. Επιπλέον, μπορεί να διαχειριστεί πολύπλοκες ακολουθίες ενεργειών που απαιτούν συντονισμό μεταξύ διαφορετικών εφαρμογών.

Σε επίπεδο ασφάλειας, το API ενσωματώνει πολλαπλά επίπεδα ελέγχου. Κάθε ενέργεια φιλτράρεται μέσω ενός συστήματος κατηγοριοποίησης κινδύνου, το οποίο αξιολογεί την πιθανή επικινδυνότητα και αποτρέπει ενέργειες που θα μπορούσαν να θέσουν σε κίνδυνο το σύστημα ή τα δεδομένα του χρήστη.

Παρά τις προηγμένες δυνατότητες, το σύστημα αντιμετωπίζει ακόμη προκλήσεις στην αναγνώριση δυναμικού περιεχομένου και στιγμιαίων ειδοποιήσεων. Η Anthropic αναγνωρίζει ότι το μοντέλο δυσκολεύεται με βασικές λειτουργίες όπως το scrolling και η μεγέθυνση, λόγω των περιορισμών στον τρόπο που συνθέτει και επεξεργάζεται τα στιγμιότυπα οθόνης.

Για την αντιμετώπιση πιθανής κακόβουλης χρήσης, το API περιλαμβάνει μηχανισμούς περιορισμού πρόσβασης σε ευαίσθητες λειτουργίες και δεδομένα. Η εταιρεία διατηρεί επίσης τη δυνατότητα απομακρυσμένης απενεργοποίησης συγκεκριμένων λειτουργιών σε περίπτωση εντοπισμού κακόβουλης δραστηριότητας.

Το σύστημα αποθηκεύει προσωρινά τα στιγμιότυπα οθόνης για 30 ημέρες, επιτρέποντας τον έλεγχο και την ανάλυση της συμπεριφοράς του μοντέλου για σκοπούς βελτίωσης και ασφάλειας. Η εταιρεία τονίζει παράλληλα τη σημασία της σταδιακής ανάπτυξης τέτοιων συστημάτων, επιτρέποντας την παρατήρηση και αντιμετώπιση πιθανών προβλημάτων σε ελεγχόμενο περιβάλλον.

Το αναβαθμισμένο μοντέλο Claude 3.5 Sonnet παρουσιάζει επίσης σημαντικές βελτιώσεις σε σημαντικά σημεία αναφοράς του κλάδου, με ιδιαίτερη έμφαση στις εργασίες προγραμματισμού και χρήσης εργαλείων. Συγκεκριμένα στον τομέα του προγραμματισμού, η απόδοσή του στο SWE-bench Verified αυξήθηκε από 33,4% σε 49,0%, ξεπερνώντας όλα τα διαθέσιμα μοντέλα - συμπεριλαμβανομένων των μοντέλων συλλογισμού όπως το OpenAI o1-preview και εξειδικευμένων συστημάτων σχεδιασμένων για προγραμματισμό.

image.png.50055e8d93e70bbc9ed9c3f7a7c29748.png

Επιπλέον, βελτίωσε την απόδοσή του στο TAU-bench, ένα σημείο αναφοράς για τη χρήση εργαλείων, αυξάνοντας το ποσοστό επιτυχίας από 62,6% σε 69,2% στον τομέα του λιανεμπορίου και από 36,0% σε 46,0% στον πιο απαιτητικό τομέα των αεροπορικών κρατήσεων. Αξιοσημείωτο είναι ότι το νέο Claude 3.5 Sonnet προσφέρει αυτές τις βελτιώσεις διατηρώντας την ίδια τιμή και ταχύτητα με τον προκάτοχό του.


Διαβάστε ολόκληρο το άρθρο

Δημοσ.

είδατε;για καλό είναι! έχουμε πάρει όλοι οι άσχετοι με κακό μάτι την τεχνητή νοημοσύνη και τις καημένες τις εταιρείες τους. νοιάζονται για μας.....

  • Confused 1
Δημοσ.

Μία κίνηση μας έμεινε στη ζωή, το κλακ του πληκτρολογίου και το κλίκ του ποντικιού, θέλουν να μας τα καταργήσουν και αυτά οι αλήτες....

  • Like 1
  • Haha 7
Δημοσ. (επεξεργασμένο)
29 minutes ago, dchatz said:

Μία κίνηση μας έμεινε στη ζωή, το κλακ του πληκτρολογίου και το κλίκ του ποντικιού, θέλουν να μας τα καταργήσουν και αυτά οι αλήτες....

True, θα γίνει όμως πιο άνετη η παλινδρομική…

20241024_172857.gif.06671eff7c9f3b33e7ce7ccb2b6ade14.gif

Επεξ/σία από TheGrisGrisMan
  • Like 1
  • Haha 6
Δημοσ.

Σύντομα κοντά σας με τα νέα χαρακτηριστικά των Windows 12 (ή όπως θα τα ονομάσει το μαρκετινγκ της Μικρομαλακής) 😁

  • Like 1
Δημοσ.
20 ώρες πριν, freegr είπε

Θα χρησιμοποιούμε τεχνητή νοημοσύνη διότι απλά δεν έχουμε νοημοσύνη οκ;

q2SQJB.gif

  • Confused 1
Δημοσ. (επεξεργασμένο)

Το AI θα αντικαταστήσει τον άνθρωπο έτσι όπως το πάνε και γνωρίζουμε καλά τις ανόητες προθέσεις τους, οπότε δεν μου κάνει εντύπωση η συγκεκριμένη "λειτουργία" που προβάλλουν και ως εργαλείο, καλύτερα να μας πουν ότι σχεδιάζουν να το βάλουν και στα προηγμένα οπλικά συστήματα τους ώστε να καταργήσουν και τους εαυτούς τους και κάποια στιγμή να δούμε κανένα SkyPet να τα κάνει όλα MADara:

war games GIF by Caitlin Burns 

Επεξ/σία από Ne0n

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...