Τα μυστικά αρχεία του Βατικανού γίνονται προσβάσιμα μέσω της τεχνητής νοημοσύνης

Κων/νο Δεληγιάννη 04/05/2018 10:35 μμ

Παρότι τα Μυστικά Αρχεία του Βατικανού αποτελούν μία από τις μεγαλύτερες συλλογές ιστορικών τεκμηρίων στον κόσμο, είναι και τα πλέον δύσχρηστα.

Εντός των τειχών του Βατικανού στη Ρώμη, μεσοτοιχία με την Αποστολική Βιβλιοθήκη και βορείως από την Capella Sistina, τα κρυφά αρχεία φιλοξενούν… 53 μίλια ραφιών με τεκμήρια που έχουν ηλικία ακόμη και 12 αιώνων. Περιλαμβάνουν, μεταξύ άλλων, το παπικό διάταγμα για τον αφορισμό του Μαρτίνου Λούθηρου και την έκκληση της Βασίλισσας της Σκωτίας Μαίρης προς τον Πάπα Σέξτο V, πριν από την εκτέλεσή της. Εξαιτίας του μεγέθους και του εύρους της, η συλλογή θεωρείται απαράμιλλης ιστορικής αξίας.

Παρ’ όλα αυτά, τα Μυστικά Αρχεία δεν μπορούν να χρησιμοποιηθούν από τους σύγχρονους μελετητές, επειδή η πρόσβαση σε αυτά είναι ιδιαίτερα δύσκολη… Από τα 52 μίλια των ραφιών μόλις ορισμένα… χιλιοστά έχουν ψηφιοποιηθεί και είναι διαθέσιμα online. Ακόμη λιγότερες σελίδες των αρχείων έχουν λάβει τέτοια μορφή, ώστε να είναι το περιεχόμενο αναζητήσιμο. Εάν κάποιος επιθυμεί πρόσβαση σε αυτά, θα πρέπει να αιτηθεί για ειδική άδεια, να πάει στη Ρώμη και διά χειρός να πραγματοποιήσει την αναζήτηση.

Αυτό θα αλλάξει με το πρόγραμμα In Codice Ratio το οποίο χρησιμοποιεί τεχνολογία τεχνητής νοημοσύνης και λογισμικό αναγνώρισης χαρακτήρων (OCR), προκειμένου να καταστήσει τα άγνωστα γραπτά τεκμήρια διαθέσιμα.

OCR και χειρόγραφη καλλιγραφία

Λογισμικό OCR χρησιμοποιείται εδώ και χρόνια για το «σκανάρισμα» βιβλίων και άλλων έντυπων κειμένων, αλλά δεν είναι κατάλληλο για το υλικό των Μυστικών Αρχείων. Βάσει της συμβατικής του χρήσης, «σπάει» τις λέξεις σε μια σειρά εικονογράμματα, εντοπίζοντας τα διαστήματα μεταξύ τους. Μετά συγκρίνει κάθε εικονόγραμμα από την αλφαβητική βάση δεδομένων που έχει στη μνήμη του. Έπειτα αποφασίζει ποιο γράμμα ταιριάζει με την εικόνα, το λογισμικό μεταφράζει τα γράμματα σε κώδικα μηχανής (ASCII) και μετά κάνει το κείμενο αναζητήσιμο.

Αυτή η διαδικασία «δουλεύει» με τα έντυπα κείμενα, ενώ δεν αποδίδει στα χειρόγραφα – όπως είναι η πλειονότητα των έγγραφων τεκμηρίων του Βατικανού. Το βασικό πρόβλημα είναι ότι στη χειρόγραφη καλλιγραφική μορφή των τεκμηρίων αυτών, δεν υπήρχαν διαστήματα ανάμεσα στα γράμματα.

Η τεχνολογία OCR δηλαδή δεν μπορεί να αναγνωρίσει πού ξεκινά το ένα γράμμα και πού τελειώνει. Το πρόβλημα, συχνά, αναφέρεται ως παράδοξο του Sayre. Το λογισμικό χρειάζεται να κατατμήσει τη λέξη σε ξεχωριστά γράμματα προκειμένου να τα αναγνωρίσει, αλλά στα χειρόγραφα, όπου τα γράμματα είναι «κολλημένα», το λογισμικό χρειάζεται να αναγνωρίζει τα γράμματα προκειμένου να τα ξεχωρίζει…

Οι επιστήμονες κατόρθωσαν να εξελίξουν το λογισμικό OCR, ώστε να αναγνωρίζει λέξεις αντί για γράμματα. Αυτό δουλεύει ως προς τη τεχνολογία, αλλά χρειάζεται τεράστια μνήμη προκειμένου να καταστεί αποδοτικό. Αντί των περιορισμένων γραμμάτων της αλφαβήτου, το σύστημα πρέπει να αναγνωρίζει την εικόνα χιλιάδων επί χιλιάδων λέξεων. Αυτό σημαίνει ότι χρειάζεται μία… αρμάδα ειδικών στη μεσαιωνική λατινική, για να επεξεργαστούν τα παλαιά χειρόγραφα και να «φωτογραφίσουν» κάθε λέξη. Στην πραγματικότητα, χρειάζονται αρκετές «φωτογραφίες» μίας λέξης, εξαιτίας ανωμαλιών στη γραφή ή κακό φωτισμό και άλλες μεταβλητές.

Αναγνώριση γραμμάτων

Στο In Codice Ratio, οι τέσσερις επιστήμονες που βρίσκονται πίσω από το project – οι Paolo Merialdo, Donatella Firmani, και Elena Nieddu από το Πανεπιστήμιο της Ρώμης, και ο Marco Maiorino που εργάζεται στα Αρχεία – προσπαθούν να λύσουν το παράδοξο του Sayre με μια καινοτόμο τεχνική που ονομάζεται κερματισμός με τη μορφή παζλ (jigsaw segmentation). Σύμφωνα με πρόσφατη δημοσίευση της ομάδας, μέσω αυτής της τεχνικής «σπάνε» οι λέξεις σε μια σειρά από κάθετες και οριζόντιες λωρίδες και αναζητώνται περιοχές όπου υπάρχει το λιγότερο μελάνι. Το λογισμικό τότε χωρίζει τις λέξεις σε αυτές τις περιοχές. Το αποτέλεσμα είναι μία σειρά κομματιών «παζλ».

Μπορεί τα κομμάτια αυτού του «παζλ» να μην είναι ιδιαίτερα χρήσιμα σε αυτή τη μορφή, αλλά το λογισμικό έχει τη δυνατότητα να τα συνδυάζει με τρόπο ώστε να δημιουργούνται τα γράμματα. Χρειάζεται μόνον να γνωρίζει ποιοι συνδυασμοί αντιπροσωπεύουν κανονικά γράμματα.

Προκειμένου να «εκπαιδευτεί» το λογισμικό, οι ερευνητές στράφηκαν στους μαθητές 24 σχολείων στην Ιταλία, προκειμένου να διαμορφώσουν τη βάση δεδομένων του συστήματος. Οι μαθητές, κάνοντας log-in σε μια ιστοσελίδα, επιλέγουν ποια κομμάτια του παζλ ανήκουν στην εικόνα ενός γράμματος του μεσαιωνικού λατινικού αλφαβήτου και ποιες όχι.

Εικόνα με την εικόνα και κλικ με κλικ, οι χρήστες «εκπαιδεύουν» το λογισμικό να αναγνωρίζει ένα προς ένα τα 24 γράμματα και να τα μετατρέπει σε χαρακτήρες.

Οι μαθητές δεν χρειάζεται καν να γνωρίζουν να διαβάζουν λατινικά. Απλώς πρέπει να επιλέγουν τα σωστά εικονο-γράμματα. Το σχέδιο λειτούργησε και καθώς συγκεντρώθηκε ένας ικανός αριθμός επιλογών το σύστημα ξεκίνησε αυτόνομα να συνδυάζει τα κομμάτια του παζλ του και να αναγνωρίζει γράμματα. Το ίδιο το λογισμικό καθίσταται έτσι «ειδικός» μέσω της τεχνητής ευφυΐας.

Αυτοεκπαίδευση του λογισμικού

Ωστόσο η αναγνώριση των κομματιών του παζλ δεν είναι αρκετή. Πρέπει να υπάρχουν πρόσθετα εργαλεία για να διακρίνουν τις διαφοροποιήσεις στο γραπτό κείμενο.

Για να αντιμετωπίσει το πρόβλημα, η ομάδα του In Codice Ratio «δίδαξε» στο λογισμικό ορισμένες αρχές κοινής λογικής. Διαμόρφωσαν ένα «σώμα» 1,5 εκατομμυρίου ήδη ψηφιοποιημένων λατινικών λέξεων και τις εξέτασαν όσον αφορά τους συνδυασμούς δύο ή τριών γραμμάτων. Ετσι, καθόρισαν ποιοι συνδυασμοί γραμμάτων είναι συνήθεις και ποιοι είναι εξαιρετικά σπάνιοι. Το λογισμικό OCR έχει τη δυνατότητα να χρησιμοποιήσει τα στατιστικά δεδομένα προκειμένου να «γνωρίζει» τις πιθανότητες για διαφορετικές σειρές γραμμάτων.

Με αυτή τη βελτίωση, το OCR άρχισε να μαθαίνει μόνο του να «διαβάζει» ορισμένα κείμενα. Η ομάδα αποφάσισε να το τροφοδοτήσει με κάποια χειρόγραφα από τα Αρχεία του Βατικανού, περισσότερες από 18.000 σελίδες, ένα υποσύνολο από τα Κρυφά Αρχεία στο οποίο περιλαμβάνονται επιστολές προς Ευρωπαίους Μονάρχες, κανονιστικές πράξεις και γενικού τύπου αλληλογραφία.

Τα αρχικά αποτελέσματα ήταν ανάμεικτα. Το ένα τρίτο λέξεων που μετεγγράφηκε είχε λάθη στην αναγνώριση των γραμμάτων από το OCR. Παρ’ όλα αυτά το 96% των χειρόγραφων γραμμάτων επελέγησαν σωστά από το λογισμικό.

Όπως σε κάθε περίπτωση που εφαρμόζεται η τεχνητή νοημοσύνη, το λογισμικό αναμένεται να βελτιώσει τις επιδόσεις του. Το ενδιαφέρον είναι ότι η στρατηγική που επελέγη από το In Codice Ratio – η κατάτμηση με τη μορφή παλζ και η μαζική εκπαίδευση του λογισμικού – μπορεί να εφαρμοσθεί για την ανάγνωση κειμένων σε διαφορετικές γλώσσες. Επίσης θα ανοίξει το δρόμο για την παγκόσμια πρόσβαση σε χειρόγραφα τεκμήρια όπως επιστολές και ημερολόγια σε ερευνητές.

The Atlantic

τεχνητή νοημοσύνη

ΣΧΟΛΙΑ (26)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

Δημοσίευση ως Επισκέπτης

· Αποσύνδεση

Vempire_G4

Δημοσ. 4 Μαΐου 2018

- Share

Τα μυστικά αρχεία; Εγινε.

Συνδέστε για να σχολιάσετε

https://www.insomnia.gr/forums/topic/675479-%CF%84%CE%B1-%CE%BC%CF%85%CF%83%CF%84%CE%B9%CE%BA%CE%AC-%CE%B1%CF%81%CF%87%CE%B5%CE%AF%CE%B1-%CF%84%CE%BF%CF%85-%CE%B2%CE%B1%CF%84%CE%B9%CE%BA%CE%B1%CE%BD%CE%BF%CF%8D-%CE%B3%CE%AF%CE%BD%CE%BF%CE%BD%CF%84%CE%B1%CE%B9-%CF%80%CF%81%CE%BF%CF%83%CE%B2%CE%AC%CF%83%CE%B9%CE%BC%CE%B1-%CE%BC%CE%AD%CF%83%CF%89-%CF%84%CE%B7%CF%82-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE%CF%82-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7%CF%82/#findComment-56449744

Κοινοποίηση σε άλλες σελίδες

djdidi

Δημοσ. 4 Μαΐου 2018

- Share

*triggered*

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

lek88

Δημοσ. 4 Μαΐου 2018

- Share

6 λεπτά πριν, djdidi είπε

*triggered*

Ο Καρβελας??

Επεξ/σία 4 Μαΐου 2018 από lek88

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

BaggsR

Δημοσ. 4 Μαΐου 2018

- Share

19 minutes ago, lek88 said:

Ο Καρβελας??

Στο Γυμνάσιο.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Kostasspil

Δημοσ. 4 Μαΐου 2018

- Share

Illuminati confirmed

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Predatorkill

Δημοσ. 4 Μαΐου 2018

- Share

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

bilya

Δημοσ. 4 Μαΐου 2018

- Share

15 λεπτά πριν, Predatorkill είπε

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

ο πάπας δεν πέθανε το 81. επίσης θα χε λογική μόνο αν ο κάρολος ξαναπαντρεύονταν.

Επεξ/σία 4 Μαΐου 2018 από bilya

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Predatorkill

Δημοσ. 5 Μαΐου 2018

- Share

30 λεπτά πριν, bilya είπε

ο πάπας δεν πέθανε το 81. επίσης θα χε λογική μόνο αν ο κάρολος ξαναπαντρεύονταν.

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

zousgr

Δημοσ. 5 Μαΐου 2018

- Share

20 minutes ago, Predatorkill said:

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

Στο δικό σου link γράφει:

Quote

Pope Paul VI died on 6 August 1978, and John Paul I also passed away just a month after being selected as his successor. However, although the next pope appointed that year, John Paul II, was wounded in an assassination attempt in 1981, he survived the shooting and remained the pontiff for another 24 years, until his death in 2005. No pope died in 1981, as claimed above.

Επεξ/σία 5 Μαΐου 2018 από zousgr
quote the quote

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

bilya

Δημοσ. 5 Μαΐου 2018

- Share

32 λεπτά πριν, Predatorkill είπε

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

Καλα ναι εγω κ ο Σέρλοκ. Κοιτα να σου πω το μυστικό google.com--> pope deaths μπορεί να σου πάρει κ ένα λεπτό.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

nemo23

Δημοσ. 5 Μαΐου 2018

- Share

Εγώ σκάναρα στα Ελληνικά μία παράγραφο σε ocr και η μετάφραση ήτανε άρες μπάρες κουκουνάρες! Πόσο μάλλον να σκανάρουνε αυτά τα βιβλία έχουν να εκδώσουν άλλα τον άλλων.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Vangelis_D9

Δημοσ. 5 Μαΐου 2018

- Share

Δηλαδή κάτι συγγραφείς τύπου Νταν Μπράουν θα μείνουν άνεργοι. Κακή εξέλιξη για τον κλάδο τους, πρέπει να τους συμπαρασταθούμε συνδικαλιστικά. :-P

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

stryder

Δημοσ. 5 Μαΐου 2018

- Share

Και τι δεν θα έδινα πραγματικά να δω όντως τι κρύβετε εκεί.

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

cpc464

Δημοσ. 5 Μαΐου 2018

- Share

Αν είναι αλήθεια θα βγάλουμε υλικό για να γυρίσουμε ένα σωρό ταινίες, το game of thrones θα μοιάζει σάν να το γύρισε ερασιτέχνης.

Επεξ/σία 5 Μαΐου 2018 από cpc464

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Predatorkill

Δημοσ. 5 Μαΐου 2018

- Share

2 ώρες πριν, zousgr είπε

Στο δικό σου link γράφει:

1 ώρα πριν, bilya είπε

Καλα ναι εγω κ ο Σέρλοκ. Κοιτα να σου πω το μυστικό google.com--> pope deaths μπορεί να σου πάρει κ ένα λεπτό.

Ναι ρε μαγκες, μαλλον δεν ξερετε τι σημαινει no shit sherlock, αλλα δε βαριεσαι...

Σύνδεση

Τα μυστικά αρχεία του Βατικανού γίνονται προσβάσιμα μέσω της τεχνητής νοημοσύνης

Trending

ΣΧΟΛΙΑ (26)

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Σύνδεση