Η Google ανακοίνωσε την κυκλοφορία του Gemini Live, μια νέας λειτουργία φωνητικής συνομιλίας με τεχνητή νοημοσύνη, που έρχεται να ανταγωνιστεί το Advanced Voice Mode της OpenAI.

Η ανακοίνωση έγινε στην εκδήλωση Made by Google 2024 η οποία επικεντρώθηκε στα νέα Pixel smartphones, μήνες μετά την αρχική αναφορά στο συνέδριο Google I/O 2024. Αρχικά η εταιρεία είχε ανακοινώσει το Gemini Live στο συνέδριο προγραμματιστών Google I/O τον περασμένο Μάιο.

Το Gemini Live επιτρέπει στους χρήστες να έχουν εις βάθος φωνητικές συζητήσεις με το Gemini, το chatbot της Google που βασίζεται σε τεχνητή νοημοσύνη, μέσω των smartphones τους. Χάρη σε ένα προηγμένο σύστημα ομιλίας, οι χρήστες μπορούν να διακόψουν το Gemini κατά τη διάρκεια της απάντησής του για να θέσουν διευκρινιστικές ερωτήσεις, ενώ το σύστημα προσαρμόζεται στο μοτίβο ομιλίας του χρήστη σε πραγματικό χρόνο. Οι λειτουργίες αυτές, θυμίζουν το Advance Voice Chat της OpenAI το οποίο παρουσιάστηκε -και εντυπωσίασε- πρόσφατα μαζί με το GPT-4o, χωρίς ακόμα να υπάρχει ευρεία διάθεσή του

Η λειτουργία προσφέρει 10 νέες φυσικές φωνές για τις απαντήσεις του Gemini και μπορεί να χρησιμοποιηθεί hands-free, ακόμα και όταν η οθόνη του τηλεφώνου είναι κλειδωμένη. Η Google προτείνει διάφορες χρήσεις, όπως την εξάσκηση για μια συνέντευξη εργασίας.

Ένα πλεονέκτημα του Gemini Live είναι η μεγαλύτερη "μνήμη" του, χάρη στο μοντέλο τεχνητής νοημοσύνης Gemini 1.5 Pro και Gemini 1.5 Flash που το υποστηρίζουν. Τα μοντέλα αυτά μπορούν να επεξεργαστούν μεγάλο όγκο δεδομένων, επιτρέποντας θεωρητικά ώρες συνεχούς συνομιλίας.

Ωστόσο, το Gemini Live δεν διαθέτει ακόμη όλες τις δυνατότητες που παρουσιάστηκαν στο Google I/O, όπως η πολυτροπική είσοδος (multimodal input). Η Google υπόσχεται ότι αυτή η λειτουργία θα είναι διαθέσιμη αργότερα μέσα στο έτος, μαζί με υποστήριξη για περισσότερες γλώσσες και iOS συσκευές.

Το Gemini Live είναι διαθέσιμο αποκλειστικά μέσω του προγράμματος Gemini Advanced, το οποίο απαιτεί συνδρομή στο Google One AI Premium Plan με κόστος 20 δολάρια το μήνα.

Παράλληλα, η Google ανακοίνωσε και άλλες δωρεάν λειτουργίες για το Gemini. Οι χρήστες Android θα μπορούν σύντομα να καλούν το Gemini πάνω από οποιαδήποτε εφαρμογή για να κάνουν ερωτήσεις σχετικά με το περιεχόμενο της οθόνης. Επίσης, το Gemini θα μπορεί να δημιουργεί εικόνες (εκτός από εικόνες ανθρώπων) απευθείας από αυτό το interface.

Τέλος, το Gemini αποκτά νέες ενσωματώσεις με υπηρεσίες της Google, όπως το Calendar, Keep, Tasks και YouTube Music, επιτρέποντας στους χρήστες να εκτελούν διάφορες εργασίες μέσω φωνητικών εντολών. Σύντομα το Gemini Live θα κάνει την εμφάνισή του και στα Android tablets.

  • Like 1