Αναζήτηση στην κοινότητα
Εμφάνιση αποτελεσμάτων για τις ετικέτες 'Dall-E'.
12 αποτελέσματα
-
DALL-E mini: η AI υπεύθυνη για το νέο διαδικτυακό trend
Crash24 δημοσίευσε ένα άρθρο στο Artificial Intelligence
Δεν μπορεί: όλο και κάπου θα έχεις πετύχει στο Twitter -πρωτίστως- ή κάποια άλλη πλατφόρμα κοινωνικής δικτύωσης -δευτερευόντως- αυτό το σετ περίεργων εικόνων 3x3. Ε, πρόκειται για δημιουργία του DALL-E mini, ενός εργαλείου τεχνητής νοημοσύνης. Η λειτουργία του δε θα μπορούσε να είναι απλούστερη: ο χρήστης απλά πληκτρολογεί μία περιγραφή που έχει κατά νου και η πλατφόρμα αναλαμβάνει να συνθέσει εννέα σχετικές εικόνες. Μην το παρεξηγήσεις: δεν είναι μηχανή αναζήτησης εικόνων -γι’ αυτό υπάρχει η Google. Αυτό που κάνει το DALL-E mini, είναι να δημιουργήσει μέσα σε λίγα δευτερόλεπτα εικόνες εκ του μηδενός, γι’ αυτό και δείχνει πραγματικά τις δυνατότητές του σε πολύπλοκες φράσεις (για ξεκαρδιστικά αποτελέσματα, φρόντισε οι φράσεις αυτές να μην έχουν καν νόημα, όπως «a dog with big red eyes eating pizza while driving a car», τα… παράγωγα της οποίας μπορείς να δεις στην κεντρική εικόνα). Το DALL-E mini ή craiyon όπως θα ονομάζεται επισήμως σε λίγο καιρό, είναι ένα δωρεάν, open-source εργαλείο που ανέπτυξε ο προγραμματιστής Boris Dayma με τη βοήθεια του Pedro Cuenca πέρυσι το καλοκαίρι, στο πλαίσιο της συμμετοχής του σε έναν διαγωνισμό του Hugging Face με την υποστήριξη της Google. Όπως αναφέρεται στα FAQ του εργαλείου, το μοντέλο AI του τελευταίου βασίζεται σε αφιλτράριστα δεδομένα από το διαδίκτυο και ως εκ τούτου, οι εικόνες που είναι σε θέση να δημιουργήσει, ενδεχομένως να αναπαράγουν αρνητικά στερεότυπα. Το ενδιαφέρον για το DALL-E mini πάντως είναι τόσο μεγάλο που συχνά-πυκνά οι servers του «καταρρέουν» από την κίνηση. Έχει ήδη γίνει trending topic στο Twitter ενώ αναμένεται με μεγάλο ενδιαφέρον η έκθεση των δημιουργών του με τα πρώτα τους συμπεράσματα από τους πρώτους μήνες χρήσης του μοντέλου. Αξίζει να σημειώσουμε πως αν και καινοτόμο, το DALL-E mini δεν είναι το μόνο τέτοιο μοντέλο AI. Παρεμφερή δουλειά κάνουν το Dall-E 2 της OpenAI (καμία σχέση με το mini) και το Google Imagen ενώ αρκετά κοντά βρίσκεται το AutoDraw, επίσης της Google. -
Η νέα λειτουργία τροφοδοτείται από το DALL-E, τη γεννήτρια εικόνων του OpenAI που από την πρώτη στιγμή του λανσαρίσματός της, είχε εντυπωσιάσει με τις δυνατότητές της. Η εταιρεία δεν ανέφερε ποια έκδοση του DALL-E χρησιμοποιεί εδώ, αναφέροντας μόνο ότι χρησιμοποιεί τα "πιο πρόσφατα μοντέλα του DALL-E". Με την ονομασία "Bing Image Creator", η νέα δυνατότητα κυκλοφορεί σταδιακά στους χρήστες που συμμετέχουν στη preview έκδοση του νέου Bing, και θα είναι διαθέσιμη μόνο μέσω του Creative Mode του Bing. Στο μέλλον αναμένεται να έρθει στις λειτουργίες Bing Balanced και Precise. Η νέα γεννήτρια εικόνων θα είναι επίσης διαθέσιμη στην πλαϊνή μπάρα του Edge. Με την κατάλληλη εισαγωγή κειμένου από τον χρήστη, το DALL-E δημιουργεί το γνωστό πλέον τετράγωνο τεσσάρων εικόνων υψηλής ανάλυσης που περιέχει το αποτέλεσμα της εντολής του χρήστη . Υπάρχει όμως μια σημαντική διαφορά αφού ένα μικρό λογότυπο του Bing θα υπάρχει στην κάτω αριστερή γωνία. Από την πρώιμη έκδοση του Bing AI έλειπαν μερικές προστατευτικές μπάρες, αλλά η Microsoft συνεχίζει να διορθώνει γρήγορα τα κακώς κείμενα. Η εταιρεία ελπίζει σαφώς να αποφύγει αυτά τα ζητήματα με αυτή την έκδοση. «Ενσωματώσαμε τις δικλείδες ασφαλείας του OpenAI και προσθέσαμε πρόσθετες προστασίες στο Image Creator», εξηγεί η Microsoft. «Για παράδειγμα, έχουμε θέσει σε εφαρμογή ελέγχους που αποσκοπούν στον περιορισμό της δημιουργίας επιβλαβών ή μη ασφαλών εικόνων. Όταν το σύστημά μας ανιχνεύει ότι μια δυνητικά επιβλαβής εικόνα θα μπορούσε να δημιουργηθεί από μια προτροπή, μπλοκάρει την προτροπή και προειδοποιεί τον χρήστη». Η Microsoft αναφέρει ακόμα ότι θα συνεχίσει να βελτιώνει τη νέα γεννήτρια εικόνων. Συγκεκριμένα, η εταιρεία τονίζει ότι εργάζεται για τη βελτιστοποίηση του τρόπου με τον οποίο λειτουργεί η νέα λειτουργία σε συνομιλίες με πολλαπλά μηνύματα. «Συνεχίζουμε να πιστεύουμε ότι ο καλύτερος τρόπος για να φέρουμε αυτές τις τεχνολογίες στην αγορά είναι να τις δοκιμάζουμε προσεκτικά, σε ανοιχτό χώρο, όπου όλοι μπορούν να παρέχουν τα δικά τους σχόλια», σημειώνεται στην ανάρτηση της εταιρείας στο blog. Εκτός από τη νέα γεννήτρια εικόνων, το Bing αποκτά δύο επιπλέον λειτουργίες αναζήτησης: τα Visual Stories και τις Knowledge Cards 2.0. Η προηγούμενη έκδοση των Knowledge Cards του Bing ήταν παρόμοια με τους πίνακες γνώσεων της Google, όμωςτώρα έρχονται με την -πολύ σημαντική- προσθήκη ότι περιλαμβάνουν infographics και πιο διαδραστικά στοιχεία όπως διαγράμματα, γραφήματα και χρονοδιαγράμματα, τα οποία δημιουργούνται από το AI. Οι οπτικές ιστορίες, εν τω μεταξύ, μοιάζουν περισσότερο με τις ιστορίες του Instagram που δημιουργούνται από AI. Οι ιστορίες αυτές συνοδεύονται από ηχητική αφήγηση που δημιουργείται από την Τεχνητή Νοημοσύνη και βίντεο ανάλογα με το θέμα. Μερικές φορές θα είναι τα κορυφαία αποτελέσματα αναζήτησης, αλλά μπορούν επίσης να εμφανιστούν στις Knowledge Cards. Κατά την αναζήτηση για το "Πόρτλαντ, Όρεγκον", για παράδειγμα, το Bing θα αναδείξει ιστορίες όπως "How Portlander find fungus in the city" και "Portland: Πόλη της Αμερικής: Η πιο ιδιόμορφη πόλη της Αμερικής". Δυστυχώς, δεν φαίνεται να υπάρχει τρόπος άμεσης σύνδεσης με αυτές τις ιστορίες.
-
Η ενσωμάτωση του DALL-E 3 στο Microsoft Paint των Windows 11, διαθέσιμη (σταδιακά) για όλους
nchatz δημοσίευσε ένα άρθρο στο Windows 11
H λειτουργία που στηρίζεται στο Dall-E-3 της OpenAI, και την οποία έχουμε δει αρχικά στο Bing AI, επιτρέπει στους χρήστες να δημιουργούν εικόνες βάσει κειμένου και επιθυμητών καλλιτεχνικών στιλ. Η Microsoft είχε αρχικά ανακοινώσει την πρόθεσή της να ενσωματώσει τα χαρακτηριστικά δημιουργίας εικόνων με AI του Bing στο Paint στις 26 Σεπτεμβρίου. Σύμφωνα με το Windows Latest, το Cocreator για το Paint έχει πλέον βγει από τη φάση δοκιμών και είναι έτοιμο για μια ευρύτερη κυκλοφορία για όλους τους χρήστες των Windows 11. Μπορείτε να αποκτήσετε πρόσβαση στο εργαλείο δημιουργίας εικόνων με AI ανοίγοντας το Paint και κάνοντας κλικ στο εικονίδιο Cocreator στη γραμμή εργαλείων. Στη συνέχεια στο πλαίσιο κειμένου, περιγράψτε την εικόνα που θέλετε να δημιουργήσετε, π.χ. "ένα σκυλί με εντυπωσιακά ρούχα" ή "ένα ηλιοβασίλεμα στην παραλία". Έπειτα, επιλέξτε στιλ για την εικόνα σας και πατήστε το κουμπί Δημιουργία. Το Cocreator θα δημιουργήσει 3 διαφορετικές εκδοχές της εικόνας που περιγράψατε. Μπορείτε στη συνέχεια να επιλέξετε μία για να ξεκινήσετε να επεξεργάζεστε στον καμβά του Paint. Επιπλέον, η Microsoft έχει συμπεριλάβει ένα tutorial “βήμα προς βήμα” μέσα στο Paint το οποίο στοχεύει να εξοικειώσει τους χρήστες με τη λειτουργικότητα του Cocreator. Η ενσωμάτωση της AI λειτουργίαςδεν είναι η μοναδική βελτίωση του Paint στα Windows 11 φέτος. Νωρίτερα, είδαμε την εισαγωγή εφέ διαφάνειας, προσφέροντας στους χρήστες πρόσθετη δημιουργική ευελιξία. Επιπλέον, έχει προστεθεί η πολυπόθητη λειτουργία των layers, προσφέροντας μια πιο εξελιγμένη προσέγγιση στην ψηφιακή τέχνη.- 21 σχόλια
-
- 6
-
- Windows 11
- Dall-E
-
(και 1 περισσότερα)
Ετικέτα με:
-
Όπως κάθε παρόμοια υπηρεσία, έτσι κι'αυτή χρησιμοποιεί αλγορίθμους μηχανικής μάθησης (και τεράστιες βάσεις δεδομένων με έργα τέχνης στο διαδίκτυο) για τη δημιουργία φανταστικών απεικονίσεων που ο χρήστης περιγράφει με μια απλή πρόταση. Την Πέμπτη, ο διευθύνων σύμβουλος της Meta, Mark Zuckerberg, αποκάλυψε την πιο σύγχρονη έκδοση του Make-a-Scene, το Make-a-Video το οποίο αντί για εικόνα δημιουργεί..βίντεο. Όπως υποδηλώνει και το όνομά του, το Make-a-Video είναι «ένα νέο σύστημα τεχνητής νοημοσύνης που επιτρέπει στους ανθρώπους να μετατρέπουν μια πρόταση κειμένου σε σύντομα, υψηλής ποιότητας βίντεο κλιπ», έγραψε ο Zuckerberg στο blog της Meta. Τεχνικά, το Video λειτουργεί με τον ίδιο τρόπο που λειτουργεί και το Scene, βασιζόμενο σε ένα μείγμα επεξεργασίας φυσικής γλώσσας και παραγωγικών νευρωνικών δικτύων για τη μετατροπή μη οπτικών προτροπών σε εικόνες - απλώς αντλεί περιεχόμενο σε διαφορετική μορφή. «Η διαίσθησή μας είναι απλή: να μάθουμε πώς μοιάζει ο κόσμος και πώς περιγράφεται από ζευγαρωμένα δεδομένα κειμένου-εικόνας, και να μάθουμε πώς κινείται ο κόσμος από βίντεο υλικό», έγραψε η ομάδα ερευνητών της Meta σε έγγραφο που δημοσιεύθηκε αυτή την εβδομάδα. Με αυτόν τον τρόπο η ομάδα κατάφερε να μειώσει τον χρόνο που απαιτείται για την εκπαίδευση του μοντέλου Video και να εξαλείψει την ανάγκη για ζευγαρωμένα δεδομένα κειμένου-βίντεο, διατηρώντας παράλληλα «την ποικιλομορφία στην αισθητική (φανταστικές απεικονίσεις κ.λπ.) των σημερινών μοντέλων δημιουργίας εικόνων». Ακολουθούν μερικά παραδείγματα: Επάνω αριστερά: Ένας σκύλος με κάπα σούπερ ήρωα που πετάει στον ουρανό. Πάνω δεξιά: Ένα διαστημόπλοιο προσγειώνεται στον Άρη. Κάτω αριστερά: Πινέλο καλλιτέχνη από κοντά που ζωγραφίζει σε καμβά, με μεγάλη λεπτομέρεια. Κάτω δεξιά: Ένα άλογο πίνει νερό. Όπως συμβαίνει με το μεγαλύτερο μέρος της έρευνας της Meta στον τομέα της τεχνητής νοημοσύνης, το Make-a-Video κυκλοφορεί ως open-source project. «Θέλουμε να είμαστε προσεκτικοί σχετικά με το πώς δημιουργούμε νέα συστήματα δημιουργικής τεχνητής νοημοσύνης όπως αυτό», σημείωσε ο Zuckerberg. «Μοιραζόμαστε ανοιχτά με την κοινότητα τη συγκεκριμένη έρευνα τεχνητής νοημοσύνης αλλά και τα αποτελέσματά της και περιμένουμε τα σχόλιά της. Θ α συνεχίσουμε να χρησιμοποιούμε το responsible framework A.I για να βελτιώσουμε και να εξελίξουμε την προσέγγισή μας σε αυτή την αναδυόμενη τεχνολογία». Όπως συμβαίνει φαινομενικά με κάθε project τεχνητής νοημοσύνης που δημιουργεί περιεχόμενο, η πιθανότητα κακής χρήσης του Make-a-Video δεν είναι μικρή. Για να προλάβουν πιθανές κακόβουλες χρήσεις, η ερευνητική ομάδα αφαίρεσε προληπτικά από το σύνολο δεδομένων εκπαίδευσης του Make-a-Video τυχόν NSFW εικόνες καθώς και τοξικές φράσεις. Οι NSFW (Not Safe For Work) εικόνες αποτελούν περιεχόμενο που για διαφόρους λόγους δεν επιτρέπονται ή δεν είναι σωστό να φορτώνονται σε εταιρικά περιβάλλοντα.
-
Η Microsoft ανακοίνωσε ότι το νέο Bing με δυνατότητα AI θα επιτρέπει πλέον στους χρήστες να δημιουργούν εικόνες με το Bing Chat, εισάγοντας απλά κείμενο. Η νέα λειτουργία τροφοδοτείται από το DALL-E, τη γεννήτρια εικόνων του OpenAI που από την πρώτη στιγμή του λανσαρίσματός της, είχε εντυπωσιάσει με τις δυνατότητές της. Η εταιρεία δεν ανέφερε ποια έκδοση του DALL-E χρησιμοποιεί εδώ, αναφέροντας μόνο ότι χρησιμοποιεί τα "πιο πρόσφατα μοντέλα του DALL-E". Με την ονομασία "Bing Image Creator", η νέα δυνατότητα κυκλοφορεί σταδιακά στους χρήστες που συμμετέχουν στη preview έκδοση του νέου Bing, και θα είναι διαθέσιμη μόνο μέσω του Creative Mode του Bing. Στο μέλλον αναμένεται να έρθει στις λειτουργίες Bing Balanced και Precise. Η νέα γεννήτρια εικόνων θα είναι επίσης διαθέσιμη στην πλαϊνή μπάρα του Edge. Με την κατάλληλη εισαγωγή κειμένου από τον χρήστη, το DALL-E δημιουργεί το γνωστό πλέον τετράγωνο τεσσάρων εικόνων υψηλής ανάλυσης που περιέχει το αποτέλεσμα της εντολής του χρήστη . Υπάρχει όμως μια σημαντική διαφορά αφού ένα μικρό λογότυπο του Bing θα υπάρχει στην κάτω αριστερή γωνία. Από την πρώιμη έκδοση του Bing AI έλειπαν μερικές προστατευτικές μπάρες, αλλά η Microsoft συνεχίζει να διορθώνει γρήγορα τα κακώς κείμενα. Η εταιρεία ελπίζει σαφώς να αποφύγει αυτά τα ζητήματα με αυτή την έκδοση. «Ενσωματώσαμε τις δικλείδες ασφαλείας του OpenAI και προσθέσαμε πρόσθετες προστασίες στο Image Creator», εξηγεί η Microsoft. «Για παράδειγμα, έχουμε θέσει σε εφαρμογή ελέγχους που αποσκοπούν στον περιορισμό της δημιουργίας επιβλαβών ή μη ασφαλών εικόνων. Όταν το σύστημά μας ανιχνεύει ότι μια δυνητικά επιβλαβής εικόνα θα μπορούσε να δημιουργηθεί από μια προτροπή, μπλοκάρει την προτροπή και προειδοποιεί τον χρήστη». Η Microsoft αναφέρει ακόμα ότι θα συνεχίσει να βελτιώνει τη νέα γεννήτρια εικόνων. Συγκεκριμένα, η εταιρεία τονίζει ότι εργάζεται για τη βελτιστοποίηση του τρόπου με τον οποίο λειτουργεί η νέα λειτουργία σε συνομιλίες με πολλαπλά μηνύματα. «Συνεχίζουμε να πιστεύουμε ότι ο καλύτερος τρόπος για να φέρουμε αυτές τις τεχνολογίες στην αγορά είναι να τις δοκιμάζουμε προσεκτικά, σε ανοιχτό χώρο, όπου όλοι μπορούν να παρέχουν τα δικά τους σχόλια», σημειώνεται στην ανάρτηση της εταιρείας στο blog. Εκτός από τη νέα γεννήτρια εικόνων, το Bing αποκτά δύο επιπλέον λειτουργίες αναζήτησης: τα Visual Stories και τις Knowledge Cards 2.0. Η προηγούμενη έκδοση των Knowledge Cards του Bing ήταν παρόμοια με τους πίνακες γνώσεων της Google, όμωςτώρα έρχονται με την -πολύ σημαντική- προσθήκη ότι περιλαμβάνουν infographics και πιο διαδραστικά στοιχεία όπως διαγράμματα, γραφήματα και χρονοδιαγράμματα, τα οποία δημιουργούνται από το AI. Οι οπτικές ιστορίες, εν τω μεταξύ, μοιάζουν περισσότερο με τις ιστορίες του Instagram που δημιουργούνται από AI. Οι ιστορίες αυτές συνοδεύονται από ηχητική αφήγηση που δημιουργείται από την Τεχνητή Νοημοσύνη και βίντεο ανάλογα με το θέμα. Μερικές φορές θα είναι τα κορυφαία αποτελέσματα αναζήτησης, αλλά μπορούν επίσης να εμφανιστούν στις Knowledge Cards. Κατά την αναζήτηση για το "Πόρτλαντ, Όρεγκον", για παράδειγμα, το Bing θα αναδείξει ιστορίες όπως "How Portlander find fungus in the city" και "Portland: Πόλη της Αμερικής: Η πιο ιδιόμορφη πόλη της Αμερικής". Δυστυχώς, δεν φαίνεται να υπάρχει τρόπος άμεσης σύνδεσης με αυτές τις ιστορίες. Διαβάστε ολόκληρο το άρθρο
-
Το Microsoft Paint κάνει ένα βήμα προς το μέλλον με την ενσωμάτωση του DALL-E 3, πιο γνωστού ως Cocreator AI. H λειτουργία που στηρίζεται στο Dall-E-3 της OpenAI, και την οποία έχουμε δει αρχικά στο Bing AI, επιτρέπει στους χρήστες να δημιουργούν εικόνες βάσει κειμένου και επιθυμητών καλλιτεχνικών στιλ. Η Microsoft είχε αρχικά ανακοινώσει την πρόθεσή της να ενσωματώσει τα χαρακτηριστικά δημιουργίας εικόνων με AI του Bing στο Paint στις 26 Σεπτεμβρίου. Σύμφωνα με το Windows Latest, το Cocreator για το Paint έχει πλέον βγει από τη φάση δοκιμών και είναι έτοιμο για μια ευρύτερη κυκλοφορία για όλους τους χρήστες των Windows 11. Μπορείτε να αποκτήσετε πρόσβαση στο εργαλείο δημιουργίας εικόνων με AI ανοίγοντας το Paint και κάνοντας κλικ στο εικονίδιο Cocreator στη γραμμή εργαλείων. Στη συνέχεια στο πλαίσιο κειμένου, περιγράψτε την εικόνα που θέλετε να δημιουργήσετε, π.χ. "ένα σκυλί με εντυπωσιακά ρούχα" ή "ένα ηλιοβασίλεμα στην παραλία". Έπειτα, επιλέξτε στιλ για την εικόνα σας και πατήστε το κουμπί Δημιουργία. Το Cocreator θα δημιουργήσει 3 διαφορετικές εκδοχές της εικόνας που περιγράψατε. Μπορείτε στη συνέχεια να επιλέξετε μία για να ξεκινήσετε να επεξεργάζεστε στον καμβά του Paint. Επιπλέον, η Microsoft έχει συμπεριλάβει ένα tutorial “βήμα προς βήμα” μέσα στο Paint το οποίο στοχεύει να εξοικειώσει τους χρήστες με τη λειτουργικότητα του Cocreator. Η ενσωμάτωση της AI λειτουργίαςδεν είναι η μοναδική βελτίωση του Paint στα Windows 11 φέτος. Νωρίτερα, είδαμε την εισαγωγή εφέ διαφάνειας, προσφέροντας στους χρήστες πρόσθετη δημιουργική ευελιξία. Επιπλέον, έχει προστεθεί η πολυπόθητη λειτουργία των layers, προσφέροντας μια πιο εξελιγμένη προσέγγιση στην ψηφιακή τέχνη. Διαβάστε ολόκληρο το άρθρο
- 21 απαντήσεις
-
- Windows 11
- Dall-E
-
(και 1 περισσότερα)
Ετικέτα με:
-
Το DALL-E mini είναι η νέα μόδα που έχει κατακτήσει τις τελευταίες μέρες το internet. Δεν μπορεί: όλο και κάπου θα έχεις πετύχει στο Twitter -πρωτίστως- ή κάποια άλλη πλατφόρμα κοινωνικής δικτύωσης -δευτερευόντως- αυτό το σετ περίεργων εικόνων 3x3. Ε, πρόκειται για δημιουργία του DALL-E mini, ενός εργαλείου τεχνητής νοημοσύνης. Η λειτουργία του δε θα μπορούσε να είναι απλούστερη: ο χρήστης απλά πληκτρολογεί μία περιγραφή που έχει κατά νου και η πλατφόρμα αναλαμβάνει να συνθέσει εννέα σχετικές εικόνες. Μην το παρεξηγήσεις: δεν είναι μηχανή αναζήτησης εικόνων -γι’ αυτό υπάρχει η Google. Αυτό που κάνει το DALL-E mini, είναι να δημιουργήσει μέσα σε λίγα δευτερόλεπτα εικόνες εκ του μηδενός, γι’ αυτό και δείχνει πραγματικά τις δυνατότητές του σε πολύπλοκες φράσεις (για ξεκαρδιστικά αποτελέσματα, φρόντισε οι φράσεις αυτές να μην έχουν καν νόημα, όπως «a dog with big red eyes eating pizza while driving a car», τα… παράγωγα της οποίας μπορείς να δεις στην κεντρική εικόνα). Το DALL-E mini ή craiyon όπως θα ονομάζεται επισήμως σε λίγο καιρό, είναι ένα δωρεάν, open-source εργαλείο που ανέπτυξε ο προγραμματιστής Boris Dayma με τη βοήθεια του Pedro Cuenca πέρυσι το καλοκαίρι, στο πλαίσιο της συμμετοχής του σε έναν διαγωνισμό του Hugging Face με την υποστήριξη της Google. Όπως αναφέρεται στα FAQ του εργαλείου, το μοντέλο AI του τελευταίου βασίζεται σε αφιλτράριστα δεδομένα από το διαδίκτυο και ως εκ τούτου, οι εικόνες που είναι σε θέση να δημιουργήσει, ενδεχομένως να αναπαράγουν αρνητικά στερεότυπα. Το ενδιαφέρον για το DALL-E mini πάντως είναι τόσο μεγάλο που συχνά-πυκνά οι servers του «καταρρέουν» από την κίνηση. Έχει ήδη γίνει trending topic στο Twitter ενώ αναμένεται με μεγάλο ενδιαφέρον η έκθεση των δημιουργών του με τα πρώτα τους συμπεράσματα από τους πρώτους μήνες χρήσης του μοντέλου. Αξίζει να σημειώσουμε πως αν και καινοτόμο, το DALL-E mini δεν είναι το μόνο τέτοιο μοντέλο AI. Παρεμφερή δουλειά κάνουν το Dall-E 2 της OpenAI (καμία σχέση με το mini) και το Google Imagen ενώ αρκετά κοντά βρίσκεται το AutoDraw, επίσης της Google. Διαβάστε ολόκληρο το άρθρο
-
Η Meta παρουσίασε τον Ιούλιο την υπηρεσία Make-a-Scene που με τη βοήθεια της τεχνητής νοημοσύνης, μετατρέπει μια πρόταση σε εικόνα, όπως ακριβώς το Dall-E και το Midjourney. Όπως κάθε παρόμοια υπηρεσία, έτσι κι'αυτή χρησιμοποιεί αλγορίθμους μηχανικής μάθησης (και τεράστιες βάσεις δεδομένων με έργα τέχνης στο διαδίκτυο) για τη δημιουργία φανταστικών απεικονίσεων που ο χρήστης περιγράφει με μια απλή πρόταση. Την Πέμπτη, ο διευθύνων σύμβουλος της Meta, Mark Zuckerberg, αποκάλυψε την πιο σύγχρονη έκδοση του Make-a-Scene, το Make-a-Video το οποίο αντί για εικόνα δημιουργεί..βίντεο. Όπως υποδηλώνει και το όνομά του, το Make-a-Video είναι «ένα νέο σύστημα τεχνητής νοημοσύνης που επιτρέπει στους ανθρώπους να μετατρέπουν μια πρόταση κειμένου σε σύντομα, υψηλής ποιότητας βίντεο κλιπ», έγραψε ο Zuckerberg στο blog της Meta. Τεχνικά, το Video λειτουργεί με τον ίδιο τρόπο που λειτουργεί και το Scene, βασιζόμενο σε ένα μείγμα επεξεργασίας φυσικής γλώσσας και παραγωγικών νευρωνικών δικτύων για τη μετατροπή μη οπτικών προτροπών σε εικόνες - απλώς αντλεί περιεχόμενο σε διαφορετική μορφή. «Η διαίσθησή μας είναι απλή: να μάθουμε πώς μοιάζει ο κόσμος και πώς περιγράφεται από ζευγαρωμένα δεδομένα κειμένου-εικόνας, και να μάθουμε πώς κινείται ο κόσμος από βίντεο υλικό», έγραψε η ομάδα ερευνητών της Meta σε έγγραφο που δημοσιεύθηκε αυτή την εβδομάδα. Με αυτόν τον τρόπο η ομάδα κατάφερε να μειώσει τον χρόνο που απαιτείται για την εκπαίδευση του μοντέλου Video και να εξαλείψει την ανάγκη για ζευγαρωμένα δεδομένα κειμένου-βίντεο, διατηρώντας παράλληλα «την ποικιλομορφία στην αισθητική (φανταστικές απεικονίσεις κ.λπ.) των σημερινών μοντέλων δημιουργίας εικόνων». Ακολουθούν μερικά παραδείγματα: Επάνω αριστερά: Ένας σκύλος με κάπα σούπερ ήρωα που πετάει στον ουρανό. Πάνω δεξιά: Ένα διαστημόπλοιο προσγειώνεται στον Άρη. Κάτω αριστερά: Πινέλο καλλιτέχνη από κοντά που ζωγραφίζει σε καμβά, με μεγάλη λεπτομέρεια. Κάτω δεξιά: Ένα άλογο πίνει νερό. Όπως συμβαίνει με το μεγαλύτερο μέρος της έρευνας της Meta στον τομέα της τεχνητής νοημοσύνης, το Make-a-Video κυκλοφορεί ως open-source project. «Θέλουμε να είμαστε προσεκτικοί σχετικά με το πώς δημιουργούμε νέα συστήματα δημιουργικής τεχνητής νοημοσύνης όπως αυτό», σημείωσε ο Zuckerberg. «Μοιραζόμαστε ανοιχτά με την κοινότητα τη συγκεκριμένη έρευνα τεχνητής νοημοσύνης αλλά και τα αποτελέσματά της και περιμένουμε τα σχόλιά της. Θ α συνεχίσουμε να χρησιμοποιούμε το responsible framework A.I για να βελτιώσουμε και να εξελίξουμε την προσέγγισή μας σε αυτή την αναδυόμενη τεχνολογία». Όπως συμβαίνει φαινομενικά με κάθε project τεχνητής νοημοσύνης που δημιουργεί περιεχόμενο, η πιθανότητα κακής χρήσης του Make-a-Video δεν είναι μικρή. Για να προλάβουν πιθανές κακόβουλες χρήσεις, η ερευνητική ομάδα αφαίρεσε προληπτικά από το σύνολο δεδομένων εκπαίδευσης του Make-a-Video τυχόν NSFW εικόνες καθώς και τοξικές φράσεις. Οι NSFW (Not Safe For Work) εικόνες αποτελούν περιεχόμενο που για διαφόρους λόγους δεν επιτρέπονται ή δεν είναι σωστό να φορτώνονται σε εταιρικά περιβάλλοντα. Διαβάστε ολόκληρο το άρθρο
- 8 απαντήσεις
-
Ο διευθύνων σύμβουλος της OpenAI, Sam Altman, εξέφρασε τις ανησυχίες του σχετικά με τον επερχόμενο κανονισμό της ΕΕ για την τεχνητή νοημοσύνη και τις πιθανές επιπτώσεις του στις δραστηριότητες της εταιρείας στην Ευρώπη. Ο κανονισμός βρίσκεται επί του παρόντος στο στάδιο της οριστικοποίησης από τους νομοθέτες και περιλαμβάνει νέες υποχρεώσεις για τους δημιουργούς συστημάτων τεχνητής νοημοσύνης μεγάλης κλίμακας που τροφοδοτούν υπηρεσίες όπως το ChatGPT και το DALL-E της OpenAI. Ο Altman έχει προειδοποιήσει ότι εάν η OpenAI δεν μπορεί να συμμορφωθεί με τις απαιτήσεις του νόμου, ενδέχεται να αναγκαστεί να σταματήσει τη λειτουργία της στην Ευρώπη. Μία από τις ανησυχίες του Altman είναι ότι συστήματα όπως το ChatGPT θα μπορούσαν να χαρακτηριστούν ως "υψηλού κινδύνου" σύμφωνα με τη νομοθεσία της ΕΕ. Αυτό θα σήμαινε ότι η OpenAI θα έπρεπε να πληροί μια σειρά από απαιτήσεις ασφάλειας και διαφάνειας. Ο Altman έχει δηλώσει ότι υπάρχουν τεχνικά όρια στο τι είναι δυνατόν να γίνει από άποψη συμμόρφωσης. Εκτός από τις τεχνικές προκλήσεις, οι γνωστοποιήσεις που απαιτούνται βάσει του νόμου της ΕΕ για την τεχνητή νοημοσύνη θα μπορούσαν επίσης να αποτελέσουν επιχειρηματικές απειλές για την OpenAI. Μια διάταξη του τρέχοντος σχεδίου απαιτεί από τους δημιουργούς τέτοιων μοντέλων να αποκαλύπτουν λεπτομέρειες σχετικά με τον σχεδιασμό του συστήματός τους και να παρέχουν περιλήψεις των δεδομένων που προστατεύονται από πνευματικά δικαιώματα και χρησιμοποιούνται για την εκπαίδευση. Η OpenAI συνήθιζε να μοιράζεται αυτού του είδους τις πληροφορίες, μια τακτική που σταμάτησε εξαιτίας της αυξανόμενης εμπορικής αξίας τους. Ο εξαναγκασμός της OpenAI να προσδιορίσει τη χρήση δεδομένων που προστατεύονται από πνευματικά δικαιώματα θα μπορούσε επίσης να εκθέσει την εταιρεία σε πιθανές αγωγές. Τα συστήματα δημιουργικής τεχνητής νοημοσύνης όπως το ChatGPT και το DALL-E εκπαιδεύονται χρησιμοποιώντας μεγάλες ποσότητες δεδομένων που προέρχονται από το web, μεγάλο μέρος των οποίων προστατεύεται από πνευματικά δικαιώματα. Η αποκάλυψη αυτών των πηγών δεδομένων θα μπορούσε να αφήσει τις εταιρείες ανοιχτές σε νομικές προκλήσεις. Τα πρόσφατα σχόλια του Altman παρέχουν μια πιο διαφοροποιημένη εικόνα της στάσης της OpenAI σε ότι αφορά έναν κανονισμό που αφορά τη χρήση μοντέλων τεχνητής νοημοσύνης. Ενώ η εταιρεία έχει δηλώσει στους πολιτικούς των ΗΠΑ ότι μια ρύθμιση θα πρέπει να εφαρμόζεται κυρίως σε μελλοντικά, πιο ισχυρά συστήματα τεχνητής νοημοσύνης, ο νόμος της ΕΕ για την τεχνητή νοημοσύνη επικεντρώνεται στις τρέχουσες δυνατότητες των αντίστοιχων μοντέλων. Διαβάστε ολόκληρο το άρθρο
-
Ο κανονισμός βρίσκεται επί του παρόντος στο στάδιο της οριστικοποίησης από τους νομοθέτες και περιλαμβάνει νέες υποχρεώσεις για τους δημιουργούς συστημάτων τεχνητής νοημοσύνης μεγάλης κλίμακας που τροφοδοτούν υπηρεσίες όπως το ChatGPT και το DALL-E της OpenAI. Ο Altman έχει προειδοποιήσει ότι εάν η OpenAI δεν μπορεί να συμμορφωθεί με τις απαιτήσεις του νόμου, ενδέχεται να αναγκαστεί να σταματήσει τη λειτουργία της στην Ευρώπη. Μία από τις ανησυχίες του Altman είναι ότι συστήματα όπως το ChatGPT θα μπορούσαν να χαρακτηριστούν ως "υψηλού κινδύνου" σύμφωνα με τη νομοθεσία της ΕΕ. Αυτό θα σήμαινε ότι η OpenAI θα έπρεπε να πληροί μια σειρά από απαιτήσεις ασφάλειας και διαφάνειας. Ο Altman έχει δηλώσει ότι υπάρχουν τεχνικά όρια στο τι είναι δυνατόν να γίνει από άποψη συμμόρφωσης. Εκτός από τις τεχνικές προκλήσεις, οι γνωστοποιήσεις που απαιτούνται βάσει του νόμου της ΕΕ για την τεχνητή νοημοσύνη θα μπορούσαν επίσης να αποτελέσουν επιχειρηματικές απειλές για την OpenAI. Μια διάταξη του τρέχοντος σχεδίου απαιτεί από τους δημιουργούς τέτοιων μοντέλων να αποκαλύπτουν λεπτομέρειες σχετικά με τον σχεδιασμό του συστήματός τους και να παρέχουν περιλήψεις των δεδομένων που προστατεύονται από πνευματικά δικαιώματα και χρησιμοποιούνται για την εκπαίδευση. Η OpenAI συνήθιζε να μοιράζεται αυτού του είδους τις πληροφορίες, μια τακτική που σταμάτησε εξαιτίας της αυξανόμενης εμπορικής αξίας τους. Ο εξαναγκασμός της OpenAI να προσδιορίσει τη χρήση δεδομένων που προστατεύονται από πνευματικά δικαιώματα θα μπορούσε επίσης να εκθέσει την εταιρεία σε πιθανές αγωγές. Τα συστήματα δημιουργικής τεχνητής νοημοσύνης όπως το ChatGPT και το DALL-E εκπαιδεύονται χρησιμοποιώντας μεγάλες ποσότητες δεδομένων που προέρχονται από το web, μεγάλο μέρος των οποίων προστατεύεται από πνευματικά δικαιώματα. Η αποκάλυψη αυτών των πηγών δεδομένων θα μπορούσε να αφήσει τις εταιρείες ανοιχτές σε νομικές προκλήσεις. Τα πρόσφατα σχόλια του Altman παρέχουν μια πιο διαφοροποιημένη εικόνα της στάσης της OpenAI σε ότι αφορά έναν κανονισμό που αφορά τη χρήση μοντέλων τεχνητής νοημοσύνης. Ενώ η εταιρεία έχει δηλώσει στους πολιτικούς των ΗΠΑ ότι μια ρύθμιση θα πρέπει να εφαρμόζεται κυρίως σε μελλοντικά, πιο ισχυρά συστήματα τεχνητής νοημοσύνης, ο νόμος της ΕΕ για την τεχνητή νοημοσύνη επικεντρώνεται στις τρέχουσες δυνατότητες των αντίστοιχων μοντέλων.
-
Η OpenAI παρουσίασε μια αναβαθμισμένη έκδοση της πρωτοποριακής γεννήτριας μετατροπής κειμένου σε εικόνα, DALL-E. Η νέα έκδοση, με την ονομασία DALL-E 3, ενσωματώνει το ChatGPT, το εξαιρετικά δημοφιλές chatbot τεχνητής νοημοσύνης της OpenAI για συνομιλίες. Στόχος σύμφωνα με την εταιρεία είναι ο εξορθολογισμός και η βελτίωση της διαδικασίας περιγραφής της εικόνας που επιθυμεί ο χρήστης. Με το DALL-E 3, οι premium συνδρομητές των ChatGPT Plus και ChatGPT Enterprise μπορούν απλά να πληκτρολογήσουν ένα αίτημα για μια εικόνα στη διεπαφή συνομιλίας. Στη συνέχεια, το ChatGPT θα έχει μια συνομιλία με τον χρήστη για να κατανοήσει το αίτημα και να δημιουργήσει μια λεπτομερή προτροπή που παρέχει σαφέστερη καθοδήγηση στο DALL-E 3 για όσο το δυνατόν καλύτερο αποτέλεσμα. Αυτό επιτρέπει στους χρήστες να δημιουργούν περίπλοκες, υψηλής πιστότητας εικόνες χωρίς να χρειάζεται να σκέφτονται οι ίδιοι πολύπλοκες περιγραφές για να εισάγουν στο DALL-E 3. Πέρα από την ενσωμάτωση του ChatGPT, το DALL-E 3 διαθέτει μια σειρά άλλων βελτιώσεων σε σχέση με τους προκατόχους του. Σύμφωνα με την OpenAI, το τελευταίο μοντέλο παράγει εικόνες υψηλότερης οπτικής ποιότητας που αντικατοπτρίζουν με μεγαλύτερη ακρίβεια τις παρεχόμενες περιγραφές των χρηστών. Αυτό ισχύει ιδιαίτερα για τις μακρύτερες, πιο λεπτομερείς προτροπές με τις οποίες οι προηγούμενες εκδόσεις δυσκολεύονταν. Το DALL-E 3 επιδεικνύει επίσης βελτιωμένο χειρισμό δύσκολου περιεχομένου όπως κείμενο και ανθρώπινα χέρια, στοιχεία που ιστορικά αποτελούσαν πρόκληση για τις γεννήτριες εικόνων AI. Σε μια προσπάθεια να μειωθούν οι επιβλαβείς προκαταλήψεις της AI και να βελτιωθεί η ασφάλεια, το DALL-E 3 ενσωματώνει νέους μηχανισμούς για την απόρριψη μη ασφαλών ή ανήθικων αιτημάτων δημιουργίας εικόνων. Για παράδειγμα, δεν θα απεικονίζει το μοναδικό στυλ ζωντανών καλλιτεχνών χωρίς άδεια ή δεν θα δημιουργεί απεικονίσεις δημόσιων προσώπων. Επιπλέον, οι καλλιτέχνες μπορούν πλέον να μην επιθυμούν να χρησιμοποιηθεί το έργο τους για την εκπαίδευση μελλοντικών εκδόσεων του DALL-E. Η κίνηση αυτή ανταποκρίνεται στις αυξανόμενες ανησυχίες σχετικά με τις παραβιάσεις των πνευματικών δικαιωμάτων και της συγκατάθεσης από τα δημιουργικά μοντέλα τεχνητής νοημοσύνης που εκπαιδεύονται σε δημιουργίες καλλιτεχνών χωρίς έγκριση. Το λανσάρισμα του DALL-E 3 έρχεται εν μέσω κλιμακούμενου ανταγωνισμού στον καυτό χώρο της δημιουργικής (ή γεννητικής) τεχνητής νοημοσύνης, ιδίως γύρω από τη δημιουργία συνθετικών εικόνων. Ανταγωνιστές όπως οι Midjourney και Stability AI συνεχίζουν να βελτιώνουν τα δικά τους μοντέλα, ωθώντας την OpenAI να παραμείνει στην αιχμή της καινοτομίας. Εκτός από τους συνδρομητές στη premium πρόταση της εταιρείας, η OpenAI σχεδιάζει να παρέχει πρόσβαση στο DALL-E 3 σε ερευνητικούς συνεργάτες και όσους χρησιμοποιούν το API της. Ωστόσο, παραμένει ασαφές αν ή πότε μπορεί να κυκλοφορήσει δημόσια μια δωρεάν έκδοση στο διαδίκτυο, όπως έγινε με το DALL-E 2 και το αρχικό DALL-E. Με το DALL-E 3 να αξιοποιεί το ChatGPT για την απλοποίηση των περιγραφών καθώς και τη δημιουργία πιο λεπτομερών και αληθοφανών εικόνων, η OpenAI υπογραμμίζει την ηγετική της θέση στη δημιουργία συνθετικών εικόνων. Ωστόσο, οι ανταγωνιστές της παρέχουν εξίσου πολύ καλά αποτελέσματα -ίσως και καλύτερα ανά περιπτώσεις- οπότε οι περαιτέρω βελτιώσεις στην πιστότητα της εικόνας, τη δημιουργική ευελιξία και τις ηθικές εγγυήσεις θα είναι ζωτικής σημασίας για τη διατήρηση του ανταγωνιστικού πλεονεκτήματος στον ταχέως εξελισσόμενο τομέα της δημιουργικής τεχνητής νοημοσύνης. Διαβάστε ολόκληρο το άρθρο
-
Η νέα έκδοση, με την ονομασία DALL-E 3, ενσωματώνει το ChatGPT, το εξαιρετικά δημοφιλές chatbot τεχνητής νοημοσύνης της OpenAI για συνομιλίες. Στόχος σύμφωνα με την εταιρεία είναι ο εξορθολογισμός και η βελτίωση της διαδικασίας περιγραφής της εικόνας που επιθυμεί ο χρήστης. Με το DALL-E 3, οι premium συνδρομητές των ChatGPT Plus και ChatGPT Enterprise μπορούν απλά να πληκτρολογήσουν ένα αίτημα για μια εικόνα στη διεπαφή συνομιλίας. Στη συνέχεια, το ChatGPT θα έχει μια συνομιλία με τον χρήστη για να κατανοήσει το αίτημα και να δημιουργήσει μια λεπτομερή προτροπή που παρέχει σαφέστερη καθοδήγηση στο DALL-E 3 για όσο το δυνατόν καλύτερο αποτέλεσμα. Αυτό επιτρέπει στους χρήστες να δημιουργούν περίπλοκες, υψηλής πιστότητας εικόνες χωρίς να χρειάζεται να σκέφτονται οι ίδιοι πολύπλοκες περιγραφές για να εισάγουν στο DALL-E 3. Πέρα από την ενσωμάτωση του ChatGPT, το DALL-E 3 διαθέτει μια σειρά άλλων βελτιώσεων σε σχέση με τους προκατόχους του. Σύμφωνα με την OpenAI, το τελευταίο μοντέλο παράγει εικόνες υψηλότερης οπτικής ποιότητας που αντικατοπτρίζουν με μεγαλύτερη ακρίβεια τις παρεχόμενες περιγραφές των χρηστών. Αυτό ισχύει ιδιαίτερα για τις μακρύτερες, πιο λεπτομερείς προτροπές με τις οποίες οι προηγούμενες εκδόσεις δυσκολεύονταν. Το DALL-E 3 επιδεικνύει επίσης βελτιωμένο χειρισμό δύσκολου περιεχομένου όπως κείμενο και ανθρώπινα χέρια, στοιχεία που ιστορικά αποτελούσαν πρόκληση για τις γεννήτριες εικόνων AI. Σε μια προσπάθεια να μειωθούν οι επιβλαβείς προκαταλήψεις της AI και να βελτιωθεί η ασφάλεια, το DALL-E 3 ενσωματώνει νέους μηχανισμούς για την απόρριψη μη ασφαλών ή ανήθικων αιτημάτων δημιουργίας εικόνων. Για παράδειγμα, δεν θα απεικονίζει το μοναδικό στυλ ζωντανών καλλιτεχνών χωρίς άδεια ή δεν θα δημιουργεί απεικονίσεις δημόσιων προσώπων. Επιπλέον, οι καλλιτέχνες μπορούν πλέον να μην επιθυμούν να χρησιμοποιηθεί το έργο τους για την εκπαίδευση μελλοντικών εκδόσεων του DALL-E. Η κίνηση αυτή ανταποκρίνεται στις αυξανόμενες ανησυχίες σχετικά με τις παραβιάσεις των πνευματικών δικαιωμάτων και της συγκατάθεσης από τα δημιουργικά μοντέλα τεχνητής νοημοσύνης που εκπαιδεύονται σε δημιουργίες καλλιτεχνών χωρίς έγκριση. Το λανσάρισμα του DALL-E 3 έρχεται εν μέσω κλιμακούμενου ανταγωνισμού στον καυτό χώρο της δημιουργικής (ή γεννητικής) τεχνητής νοημοσύνης, ιδίως γύρω από τη δημιουργία συνθετικών εικόνων. Ανταγωνιστές όπως οι Midjourney και Stability AI συνεχίζουν να βελτιώνουν τα δικά τους μοντέλα, ωθώντας την OpenAI να παραμείνει στην αιχμή της καινοτομίας. Εκτός από τους συνδρομητές στη premium πρόταση της εταιρείας, η OpenAI σχεδιάζει να παρέχει πρόσβαση στο DALL-E 3 σε ερευνητικούς συνεργάτες και όσους χρησιμοποιούν το API της. Ωστόσο, παραμένει ασαφές αν ή πότε μπορεί να κυκλοφορήσει δημόσια μια δωρεάν έκδοση στο διαδίκτυο, όπως έγινε με το DALL-E 2 και το αρχικό DALL-E. Με το DALL-E 3 να αξιοποιεί το ChatGPT για την απλοποίηση των περιγραφών καθώς και τη δημιουργία πιο λεπτομερών και αληθοφανών εικόνων, η OpenAI υπογραμμίζει την ηγετική της θέση στη δημιουργία συνθετικών εικόνων. Ωστόσο, οι ανταγωνιστές της παρέχουν εξίσου πολύ καλά αποτελέσματα -ίσως και καλύτερα ανά περιπτώσεις- οπότε οι περαιτέρω βελτιώσεις στην πιστότητα της εικόνας, τη δημιουργική ευελιξία και τις ηθικές εγγυήσεις θα είναι ζωτικής σημασίας για τη διατήρηση του ανταγωνιστικού πλεονεκτήματος στον ταχέως εξελισσόμενο τομέα της δημιουργικής τεχνητής νοημοσύνης.