Τα μυστικά αρχεία του Βατικανού γίνονται προσβάσιμα μέσω της τεχνητής νοημοσύνης

deligkos · 4 Μαΐου 2018

Παρότι τα Μυστικά Αρχεία του Βατικανού αποτελούν μία από τις μεγαλύτερες συλλογές ιστορικών τεκμηρίων στον κόσμο, είναι και τα πλέον δύσχρηστα.

Εντός των τειχών του Βατικανού στη Ρώμη, μεσοτοιχία με την Αποστολική Βιβλιοθήκη και βορείως από την Capella Sistina, τα κρυφά αρχεία φιλοξενούν… 53 μίλια ραφιών με τεκμήρια που έχουν ηλικία ακόμη και 12 αιώνων. Περιλαμβάνουν, μεταξύ άλλων, το παπικό διάταγμα για τον αφορισμό του Μαρτίνου Λούθηρου και την έκκληση της Βασίλισσας της Σκωτίας Μαίρης προς τον Πάπα Σέξτο V, πριν από την εκτέλεσή της. Εξαιτίας του μεγέθους και του εύρους της, η συλλογή θεωρείται απαράμιλλης ιστορικής αξίας.

Παρ’ όλα αυτά, τα Μυστικά Αρχεία δεν μπορούν να χρησιμοποιηθούν από τους σύγχρονους μελετητές, επειδή η πρόσβαση σε αυτά είναι ιδιαίτερα δύσκολη… Από τα 52 μίλια των ραφιών μόλις ορισμένα… χιλιοστά έχουν ψηφιοποιηθεί και είναι διαθέσιμα online. Ακόμη λιγότερες σελίδες των αρχείων έχουν λάβει τέτοια μορφή, ώστε να είναι το περιεχόμενο αναζητήσιμο. Εάν κάποιος επιθυμεί πρόσβαση σε αυτά, θα πρέπει να αιτηθεί για ειδική άδεια, να πάει στη Ρώμη και διά χειρός να πραγματοποιήσει την αναζήτηση.

Αυτό θα αλλάξει με το πρόγραμμα In Codice Ratio το οποίο χρησιμοποιεί τεχνολογία τεχνητής νοημοσύνης και λογισμικό αναγνώρισης χαρακτήρων (OCR), προκειμένου να καταστήσει τα άγνωστα γραπτά τεκμήρια διαθέσιμα.

OCR και χειρόγραφη καλλιγραφία

Λογισμικό OCR χρησιμοποιείται εδώ και χρόνια για το «σκανάρισμα» βιβλίων και άλλων έντυπων κειμένων, αλλά δεν είναι κατάλληλο για το υλικό των Μυστικών Αρχείων. Βάσει της συμβατικής του χρήσης, «σπάει» τις λέξεις σε μια σειρά εικονογράμματα, εντοπίζοντας τα διαστήματα μεταξύ τους. Μετά συγκρίνει κάθε εικονόγραμμα από την αλφαβητική βάση δεδομένων που έχει στη μνήμη του. Έπειτα αποφασίζει ποιο γράμμα ταιριάζει με την εικόνα, το λογισμικό μεταφράζει τα γράμματα σε κώδικα μηχανής (ASCII) και μετά κάνει το κείμενο αναζητήσιμο.

Αυτή η διαδικασία «δουλεύει» με τα έντυπα κείμενα, ενώ δεν αποδίδει στα χειρόγραφα – όπως είναι η πλειονότητα των έγγραφων τεκμηρίων του Βατικανού. Το βασικό πρόβλημα είναι ότι στη χειρόγραφη καλλιγραφική μορφή των τεκμηρίων αυτών, δεν υπήρχαν διαστήματα ανάμεσα στα γράμματα.

Η τεχνολογία OCR δηλαδή δεν μπορεί να αναγνωρίσει πού ξεκινά το ένα γράμμα και πού τελειώνει. Το πρόβλημα, συχνά, αναφέρεται ως παράδοξο του Sayre. Το λογισμικό χρειάζεται να κατατμήσει τη λέξη σε ξεχωριστά γράμματα προκειμένου να τα αναγνωρίσει, αλλά στα χειρόγραφα, όπου τα γράμματα είναι «κολλημένα», το λογισμικό χρειάζεται να αναγνωρίζει τα γράμματα προκειμένου να τα ξεχωρίζει…

Οι επιστήμονες κατόρθωσαν να εξελίξουν το λογισμικό OCR, ώστε να αναγνωρίζει λέξεις αντί για γράμματα. Αυτό δουλεύει ως προς τη τεχνολογία, αλλά χρειάζεται τεράστια μνήμη προκειμένου να καταστεί αποδοτικό. Αντί των περιορισμένων γραμμάτων της αλφαβήτου, το σύστημα πρέπει να αναγνωρίζει την εικόνα χιλιάδων επί χιλιάδων λέξεων. Αυτό σημαίνει ότι χρειάζεται μία… αρμάδα ειδικών στη μεσαιωνική λατινική, για να επεξεργαστούν τα παλαιά χειρόγραφα και να «φωτογραφίσουν» κάθε λέξη. Στην πραγματικότητα, χρειάζονται αρκετές «φωτογραφίες» μίας λέξης, εξαιτίας ανωμαλιών στη γραφή ή κακό φωτισμό και άλλες μεταβλητές.

Αναγνώριση γραμμάτων

Στο In Codice Ratio, οι τέσσερις επιστήμονες που βρίσκονται πίσω από το project – οι Paolo Merialdo, Donatella Firmani, και Elena Nieddu από το Πανεπιστήμιο της Ρώμης, και ο Marco Maiorino που εργάζεται στα Αρχεία – προσπαθούν να λύσουν το παράδοξο του Sayre με μια καινοτόμο τεχνική που ονομάζεται κερματισμός με τη μορφή παζλ (jigsaw segmentation). Σύμφωνα με πρόσφατη δημοσίευση της ομάδας, μέσω αυτής της τεχνικής «σπάνε» οι λέξεις σε μια σειρά από κάθετες και οριζόντιες λωρίδες και αναζητώνται περιοχές όπου υπάρχει το λιγότερο μελάνι. Το λογισμικό τότε χωρίζει τις λέξεις σε αυτές τις περιοχές. Το αποτέλεσμα είναι μία σειρά κομματιών «παζλ».

Μπορεί τα κομμάτια αυτού του «παζλ» να μην είναι ιδιαίτερα χρήσιμα σε αυτή τη μορφή, αλλά το λογισμικό έχει τη δυνατότητα να τα συνδυάζει με τρόπο ώστε να δημιουργούνται τα γράμματα. Χρειάζεται μόνον να γνωρίζει ποιοι συνδυασμοί αντιπροσωπεύουν κανονικά γράμματα.

Προκειμένου να «εκπαιδευτεί» το λογισμικό, οι ερευνητές στράφηκαν στους μαθητές 24 σχολείων στην Ιταλία, προκειμένου να διαμορφώσουν τη βάση δεδομένων του συστήματος. Οι μαθητές, κάνοντας log-in σε μια ιστοσελίδα, επιλέγουν ποια κομμάτια του παζλ ανήκουν στην εικόνα ενός γράμματος του μεσαιωνικού λατινικού αλφαβήτου και ποιες όχι.

Εικόνα με την εικόνα και κλικ με κλικ, οι χρήστες «εκπαιδεύουν» το λογισμικό να αναγνωρίζει ένα προς ένα τα 24 γράμματα και να τα μετατρέπει σε χαρακτήρες.

Οι μαθητές δεν χρειάζεται καν να γνωρίζουν να διαβάζουν λατινικά. Απλώς πρέπει να επιλέγουν τα σωστά εικονο-γράμματα. Το σχέδιο λειτούργησε και καθώς συγκεντρώθηκε ένας ικανός αριθμός επιλογών το σύστημα ξεκίνησε αυτόνομα να συνδυάζει τα κομμάτια του παζλ του και να αναγνωρίζει γράμματα. Το ίδιο το λογισμικό καθίσταται έτσι «ειδικός» μέσω της τεχνητής ευφυΐας.

Αυτοεκπαίδευση του λογισμικού

Ωστόσο η αναγνώριση των κομματιών του παζλ δεν είναι αρκετή. Πρέπει να υπάρχουν πρόσθετα εργαλεία για να διακρίνουν τις διαφοροποιήσεις στο γραπτό κείμενο.

Για να αντιμετωπίσει το πρόβλημα, η ομάδα του In Codice Ratio «δίδαξε» στο λογισμικό ορισμένες αρχές κοινής λογικής. Διαμόρφωσαν ένα «σώμα» 1,5 εκατομμυρίου ήδη ψηφιοποιημένων λατινικών λέξεων και τις εξέτασαν όσον αφορά τους συνδυασμούς δύο ή τριών γραμμάτων. Ετσι, καθόρισαν ποιοι συνδυασμοί γραμμάτων είναι συνήθεις και ποιοι είναι εξαιρετικά σπάνιοι. Το λογισμικό OCR έχει τη δυνατότητα να χρησιμοποιήσει τα στατιστικά δεδομένα προκειμένου να «γνωρίζει» τις πιθανότητες για διαφορετικές σειρές γραμμάτων.

Με αυτή τη βελτίωση, το OCR άρχισε να μαθαίνει μόνο του να «διαβάζει» ορισμένα κείμενα. Η ομάδα αποφάσισε να το τροφοδοτήσει με κάποια χειρόγραφα από τα Αρχεία του Βατικανού, περισσότερες από 18.000 σελίδες, ένα υποσύνολο από τα Κρυφά Αρχεία στο οποίο περιλαμβάνονται επιστολές προς Ευρωπαίους Μονάρχες, κανονιστικές πράξεις και γενικού τύπου αλληλογραφία.

Τα αρχικά αποτελέσματα ήταν ανάμεικτα. Το ένα τρίτο λέξεων που μετεγγράφηκε είχε λάθη στην αναγνώριση των γραμμάτων από το OCR. Παρ’ όλα αυτά το 96% των χειρόγραφων γραμμάτων επελέγησαν σωστά από το λογισμικό.

Όπως σε κάθε περίπτωση που εφαρμόζεται η τεχνητή νοημοσύνη, το λογισμικό αναμένεται να βελτιώσει τις επιδόσεις του. Το ενδιαφέρον είναι ότι η στρατηγική που επελέγη από το In Codice Ratio – η κατάτμηση με τη μορφή παλζ και η μαζική εκπαίδευση του λογισμικού – μπορεί να εφαρμοσθεί για την ανάγνωση κειμένων σε διαφορετικές γλώσσες. Επίσης θα ανοίξει το δρόμο για την παγκόσμια πρόσβαση σε χειρόγραφα τεκμήρια όπως επιστολές και ημερολόγια σε ερευνητές.

The Atlantic

Διαβάστε ολόκληρο το άρθρο

Vempire_G4 · 4 Μαΐου 2018

Τα μυστικά αρχεία; Εγινε.

djdidi · 4 Μαΐου 2018

*triggered*

lek88 · 4 Μαΐου 2018

6 λεπτά πριν, djdidi είπε

*triggered*

Ο Καρβελας??

Επεξ/σία 4 Μαΐου 2018 από lek88

BaggsR · 4 Μαΐου 2018

19 minutes ago, lek88 said:

Ο Καρβελας??

Στο Γυμνάσιο.

Kostasspil · 4 Μαΐου 2018

Illuminati confirmed

Predatorkill · 4 Μαΐου 2018

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

bilya · 4 Μαΐου 2018

15 λεπτά πριν, Predatorkill είπε

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

ο πάπας δεν πέθανε το 81. επίσης θα χε λογική μόνο αν ο κάρολος ξαναπαντρεύονταν.

Επεξ/σία 4 Μαΐου 2018 από bilya

Predatorkill · 5 Μαΐου 2018

30 λεπτά πριν, bilya είπε

ο πάπας δεν πέθανε το 81. επίσης θα χε λογική μόνο αν ο κάρολος ξαναπαντρεύονταν.

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

zousgr · 5 Μαΐου 2018

20 minutes ago, Predatorkill said:

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

Στο δικό σου link γράφει:

Quote

Pope Paul VI died on 6 August 1978, and John Paul I also passed away just a month after being selected as his successor. However, although the next pope appointed that year, John Paul II, was wounded in an assassination attempt in 1981, he survived the shooting and remained the pontiff for another 24 years, until his death in 2005. No pope died in 1981, as claimed above.

Επεξ/σία 5 Μαΐου 2018 από zousgr
quote the quote

bilya · 5 Μαΐου 2018

32 λεπτά πριν, Predatorkill είπε

No shit sherlock!

https://www.snopes.com/fact-check/interesting-year-1981/

Καλα ναι εγω κ ο Σέρλοκ. Κοιτα να σου πω το μυστικό google.com--> pope deaths μπορεί να σου πάρει κ ένα λεπτό.

nemo23 · 5 Μαΐου 2018

Εγώ σκάναρα στα Ελληνικά μία παράγραφο σε ocr και η μετάφραση ήτανε άρες μπάρες κουκουνάρες! Πόσο μάλλον να σκανάρουνε αυτά τα βιβλία έχουν να εκδώσουν άλλα τον άλλων.

Vangelis_D9 · 5 Μαΐου 2018

Δηλαδή κάτι συγγραφείς τύπου Νταν Μπράουν θα μείνουν άνεργοι. Κακή εξέλιξη για τον κλάδο τους, πρέπει να τους συμπαρασταθούμε συνδικαλιστικά. :-P

stryder · 5 Μαΐου 2018

Και τι δεν θα έδινα πραγματικά να δω όντως τι κρύβετε εκεί.

cpc464 · 5 Μαΐου 2018

Αν είναι αλήθεια θα βγάλουμε υλικό για να γυρίσουμε ένα σωρό ταινίες, το game of thrones θα μοιάζει σάν να το γύρισε ερασιτέχνης.

Επεξ/σία 5 Μαΐου 2018 από cpc464

Σύνδεση

Τα μυστικά αρχεία του Βατικανού γίνονται προσβάσιμα μέσω της τεχνητής νοημοσύνης

Προτεινόμενες αναρτήσεις

deligkos

Vempire_G4

djdidi

lek88

BaggsR

Kostasspil

Predatorkill

bilya

Predatorkill

zousgr

bilya

nemo23

Vangelis_D9

stryder

cpc464

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση