Ο CEO της OpenAI, Sam Altman, ανακοίνωσε την πρώτη μεγάλη αναβάθμιση στις δυνατότητες δημιουργίας εικόνων του ChatGPT μετά από περισσότερο από ένα χρόνο.

Κατά τη διάρκεια livestream, ο CEO της OpenAI, Sam Altman, ανακοίνωσε την πρώτη σημαντική αναβάθμιση στις δυνατότητες δημιουργίας εικόνων του ChatGPT μετά από περισσότερο από ένα χρόνο.

Το ChatGPT μπορεί πλέον να αξιοποιήσει το μοντέλο GPT-4o της εταιρείας για να δημιουργεί και να τροποποιεί εικόνες και φωτογραφίες με εγγενή τρόπο. Το GPT-4o βρίσκεται εδώ και καιρό πίσω από το chatbot τεχνητής νοημοσύνης της εταιρείας, αλλά μέχρι τώρα, το μοντέλο μπορούσε να δημιουργεί και να επεξεργάζεται μόνο κείμενο, όχι εικόνες.

Ο Altman δήλωσε ότι η εγγενής δημιουργία εικόνων του GPT-4o είναι ήδη διαθέσιμη σήμερα στο ChatGPT και το Sora, το προϊόν δημιουργίας βίντεο με τεχνητή νοημοσύνη της OpenAI, για συνδρομητές του προγράμματος Pro της εταιρείας, το οποίο κοστίζει 200 δολάρια το μήνα. Η OpenAI αναφέρει ότι η λειτουργία θα διατεθεί σύντομα στους χρήστες Plus και στους δωρεάν χρήστες του ChatGPT, καθώς και στους προγραμματιστές που χρησιμοποιούν το API της εταιρείας.


Το GPT-4o με λειτουργία εξόδου εικόνας "σκέφτεται" λίγο περισσότερο από το μοντέλο δημιουργίας εικόνων που ουσιαστικά αντικαθιστά, το DALL-E 3, για να δημιουργήσει αυτό που η OpenAI περιγράφει ως πιο ακριβείς και λεπτομερείς εικόνες. Το GPT-4o μπορεί να επεξεργαστεί υπάρχουσες εικόνες, συμπεριλαμβανομένων εικόνων με ανθρώπους - μετατρέποντάς τις ή "ζωγραφίζοντας" λεπτομέρειες όπως αντικείμενα στο προσκήνιο και το φόντο.

Για την υποστήριξη της νέας λειτουργίας εικόνας, η OpenAI δηλώνει ότι εκπαίδευσε το GPT-4o σε "δημόσια διαθέσιμα δεδομένα", καθώς και σε ιδιόκτητα δεδομένα από τις συνεργασίες της με εταιρείες όπως η Shutterstock.

Αρκετές εταιρείες που αναπτύσσουν συστήματα τεχνητής νοημοσύνης αντιμετωπίζουν τα δεδομένα εκπαίδευσης ως στρατηγικό πλεονέκτημα έναντι του ανταγωνισμού, με αποτέλεσμα να διατηρούν υψηλό επίπεδο μυστικότητας γύρω από αυτά και τις σχετικές μεθοδολογίες. Όμως οι λεπτομέρειες των δεδομένων εκπαίδευσης αποτελούν επίσης πιθανή πηγή αγωγών σχετικών με την πνευματική ιδιοκτησία, ένα άλλο αντικίνητρο για τις εταιρείες να αποκαλύψουν πολλά.

image.png.78c64d3ac7e1685bffc49133da7a369c.png

image.png.c33b5816a8c6c82b61d790b7a75947ba.png image.png.8f7fa5bb17bf1cf76b12be2d9089ef82.png


"Σεβόμαστε τα δικαιώματα των καλλιτεχνών όσον αφορά τον τρόπο με τον οποίο παράγουμε το τελικό αποτέλεσμα, και έχουμε πολιτικές που μας εμποδίζουν να δημιουργούμε εικόνες που μιμούνται άμεσα το έργο οποιουδήποτε ζώντος καλλιτέχνη", δήλωσε ο Brad Lightcap, επιχειρησιακός διευθυντής της OpenAI, σε δήλωσή του στο Journal.

Η OpenAI προσφέρει μια φόρμα εξαίρεσης που επιτρέπει στους δημιουργούς να ζητήσουν την αφαίρεση των έργων τους από τα σύνολα δεδομένων εκπαίδευσής της. Η εταιρεία λέει επίσης ότι σέβεται τα αιτήματα για απαγόρευση των bots συλλογής δεδομένων της από τη συλλογή δεδομένων εκπαίδευσης, συμπεριλαμβανομένων εικόνων, από ιστότοπους.

Η αναβαθμισμένη λειτουργία δημιουργίας εικόνων του ChatGPT ακολουθεί τα βήματα της πειραματικής εγγενούς εξόδου εικόνας της Google για το Gemini 2.0 Flash, ένα από τα κορυφαία μοντέλα της εταιρείας. Η ισχυρή λειτουργία έγινε viral στα μέσα κοινωνικής δικτύωσης - αλλά όχι απαραίτητα για τους καλύτερους λόγους. Το κομμάτι του Gemini 2.0 Flash που είναι υπεύθυνο για τις εικόνες αποδείχθηκε ότι είχε λίγους περιορισμούς, επιτρέποντας στους ανθρώπους να αφαιρούν υδατογραφήματα και να δημιουργούν εικόνες που απεικονίζουν χαρακτήρες με πνευματικά δικαιώματα.

Ενημέρωση 27/3 09:50 - Μόλις μία μέρα μετά το λανσάρισμα, η OpenAI ανακοίνωσε ότι η κυκλοφορία του ενσωματωμένου εργαλείου δημιουργίας εικόνων του ChatGPT, θα αργήσει να κάνει την εμφάνισή του στους δωρεάν χρήστες. Σε ανάρτηση την Τετάρτη, ο διευθύνων σύμβουλος της εταιρείας, Sam Altman, παραδέχτηκε ότι το εργαλείο δημιουργίας εικόνων είναι πιο δημοφιλές απ' ό,τι περίμενε, προσθέτοντας ότι «η διάθεση στο δωρεάν επίπεδο δυστυχώς θα καθυστερήσει για αρκετό καιρό» αφαιρώντας για την ώρα τη σχετική δυνατότητα.

Από την κυκλοφορία του, οι χρήστες έχουν κατακλύσει τα μέσα κοινωνικής δικτύωσης με φωτογραφίες που μετατράπηκαν σε εικόνες στο στυλ του ιαπωνικού Studio Ghibli, μια τάση στην οποία συμμετέχει ακόμη και ο Altman.

image.png.d3f7b23b8c7dcbd323a914cbd4930e21.png

Ο δικηγόρος πνευματικής ιδιοκτησίας της Neal & McDevitt, Evan Brown, δήλωσε στο TechCrunch ότι οι χρήστες του ChatGPT που χρησιμοποιούν το GPT-4o για τη δημιουργία φωτογραφιών σε στυλ Studio Ghibli τεχνικά δεν παραβιάζουν το νόμο, επειδή «το στυλ δεν προστατεύεται ρητά από τα πνευματικά δικαιώματα». Ωστόσο, βρίσκεται σε μια νομικά γκρίζα περιοχή. 

Το GPT-4o έρχεται με βελτιώσεις στην απόδοση κειμένου και χρησιμοποιεί «μια αυτοπαλινδρομική προσέγγιση» στη δημιουργία εικόνων, που σημαίνει ότι δημιουργεί μια εικόνα από αριστερά προς τα δεξιά και από πάνω προς τα κάτω αντί για όλη ταυτόχρονα. Είναι προς το παρόν διαθέσιμο για συνδρομητές ChatGPT Plus, Pro και Team, αλλά τώρα δεν είναι ξεκάθαρο πότε θα είναι διαθέσιμο για τους δωρεάν χρήστες.

  • Like 1
  • Haha 1