Η Anthropic παρουσίασε μια αναβαθμισμένη έκδοση του μοντέλου Claude 3.5 Sonnet, προσφέροντας τη δυνατότητα ελέγχου εφαρμογών υπολογιστή μέσω του νέου API "Computer Use" που βρίσκεται σε ανοιχτή δοκιμαστική φάση.

Το μοντέλο μπορεί να μιμείται ανθρώπινες ενέργειες, όπως πατήματα πλήκτρων, κλικ και κινήσεις ποντικιού.

Το Computer Use API λειτουργεί μέσω ενός προηγμένου συστήματος επεξεργασίας εικόνας που αναλύει συνεχώς στιγμιότυπα της οθόνης του υπολογιστή. Σύμφωνα με την Anthropic, το σύστημα χρησιμοποιεί εξελιγμένους αλγόριθμους για να αναγνωρίζει διεπαφές χρήστη, κουμπιά, πεδία κειμένου και άλλα διαδραστικά στοιχεία.

Η διαδικασία λήψης αποφάσεων του API βασίζεται σε τρία επίπεδα: αναγνώριση περιεχομένου οθόνης, σχεδιασμό ακολουθίας ενεργειών και εκτέλεση εντολών. Το σύστημα υπολογίζει με ακρίβεια τις συντεταγμένες pixel για κάθε κίνηση του κέρσορα, ενώ παράλληλα διατηρεί επίγνωση του συνολικού πλαισίου της εργασίας.

Οι προγραμματιστές μπορούν να αξιοποιήσουν το API μέσω τριών πλατφορμών: του native API της Anthropic, του Amazon Bedrock και του Google Cloud Vertex AI. Κάθε πλατφόρμα προσφέρει διαφορετικές δυνατότητες ενσωμάτωσης και επιλογές παραμετροποίησης.

Το API υποστηρίζει ένα ευρύ φάσμα αλληλεπιδράσεων, συμπεριλαμβανομένων σύνθετων gestures όπως drag-and-drop, διπλά κλικ και scrolling. Επιπλέον, μπορεί να διαχειριστεί πολύπλοκες ακολουθίες ενεργειών που απαιτούν συντονισμό μεταξύ διαφορετικών εφαρμογών.

Σε επίπεδο ασφάλειας, το API ενσωματώνει πολλαπλά επίπεδα ελέγχου. Κάθε ενέργεια φιλτράρεται μέσω ενός συστήματος κατηγοριοποίησης κινδύνου, το οποίο αξιολογεί την πιθανή επικινδυνότητα και αποτρέπει ενέργειες που θα μπορούσαν να θέσουν σε κίνδυνο το σύστημα ή τα δεδομένα του χρήστη.

Παρά τις προηγμένες δυνατότητες, το σύστημα αντιμετωπίζει ακόμη προκλήσεις στην αναγνώριση δυναμικού περιεχομένου και στιγμιαίων ειδοποιήσεων. Η Anthropic αναγνωρίζει ότι το μοντέλο δυσκολεύεται με βασικές λειτουργίες όπως το scrolling και η μεγέθυνση, λόγω των περιορισμών στον τρόπο που συνθέτει και επεξεργάζεται τα στιγμιότυπα οθόνης.

Για την αντιμετώπιση πιθανής κακόβουλης χρήσης, το API περιλαμβάνει μηχανισμούς περιορισμού πρόσβασης σε ευαίσθητες λειτουργίες και δεδομένα. Η εταιρεία διατηρεί επίσης τη δυνατότητα απομακρυσμένης απενεργοποίησης συγκεκριμένων λειτουργιών σε περίπτωση εντοπισμού κακόβουλης δραστηριότητας.

Το σύστημα αποθηκεύει προσωρινά τα στιγμιότυπα οθόνης για 30 ημέρες, επιτρέποντας τον έλεγχο και την ανάλυση της συμπεριφοράς του μοντέλου για σκοπούς βελτίωσης και ασφάλειας. Η εταιρεία τονίζει παράλληλα τη σημασία της σταδιακής ανάπτυξης τέτοιων συστημάτων, επιτρέποντας την παρατήρηση και αντιμετώπιση πιθανών προβλημάτων σε ελεγχόμενο περιβάλλον.

Το αναβαθμισμένο μοντέλο Claude 3.5 Sonnet παρουσιάζει επίσης σημαντικές βελτιώσεις σε σημαντικά σημεία αναφοράς του κλάδου, με ιδιαίτερη έμφαση στις εργασίες προγραμματισμού και χρήσης εργαλείων. Συγκεκριμένα στον τομέα του προγραμματισμού, η απόδοσή του στο SWE-bench Verified αυξήθηκε από 33,4% σε 49,0%, ξεπερνώντας όλα τα διαθέσιμα μοντέλα - συμπεριλαμβανομένων των μοντέλων συλλογισμού όπως το OpenAI o1-preview και εξειδικευμένων συστημάτων σχεδιασμένων για προγραμματισμό.

image.png.50055e8d93e70bbc9ed9c3f7a7c29748.png

Επιπλέον, βελτίωσε την απόδοσή του στο TAU-bench, ένα σημείο αναφοράς για τη χρήση εργαλείων, αυξάνοντας το ποσοστό επιτυχίας από 62,6% σε 69,2% στον τομέα του λιανεμπορίου και από 36,0% σε 46,0% στον πιο απαιτητικό τομέα των αεροπορικών κρατήσεων. Αξιοσημείωτο είναι ότι το νέο Claude 3.5 Sonnet προσφέρει αυτές τις βελτιώσεις διατηρώντας την ίδια τιμή και ταχύτητα με τον προκάτοχό του.

  • Like 4
  • Thanks 1