Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Παρότι τα Μυστικά Αρχεία του Βατικανού αποτελούν μία από τις μεγαλύτερες συλλογές ιστορικών τεκμηρίων στον κόσμο, είναι και τα πλέον δύσχρηστα.

Εντός των τειχών του Βατικανού στη Ρώμη, μεσοτοιχία με την Αποστολική Βιβλιοθήκη και βορείως από την Capella Sistina, τα κρυφά αρχεία φιλοξενούν… 53 μίλια ραφιών με τεκμήρια που έχουν ηλικία ακόμη και 12 αιώνων. Περιλαμβάνουν, μεταξύ άλλων, το παπικό διάταγμα για τον αφορισμό του Μαρτίνου Λούθηρου και την έκκληση της Βασίλισσας της Σκωτίας Μαίρης προς τον Πάπα Σέξτο V, πριν από την εκτέλεσή της. Εξαιτίας του μεγέθους και του εύρους της, η συλλογή θεωρείται απαράμιλλης ιστορικής αξίας.

Παρ’ όλα αυτά, τα Μυστικά Αρχεία δεν μπορούν να χρησιμοποιηθούν από τους σύγχρονους μελετητές, επειδή η πρόσβαση σε αυτά είναι ιδιαίτερα δύσκολη… Από τα 52 μίλια των ραφιών μόλις ορισμένα… χιλιοστά έχουν ψηφιοποιηθεί και είναι διαθέσιμα online. Ακόμη λιγότερες σελίδες των αρχείων έχουν λάβει τέτοια μορφή, ώστε να είναι το περιεχόμενο αναζητήσιμο. Εάν κάποιος επιθυμεί πρόσβαση σε αυτά, θα πρέπει να αιτηθεί για ειδική άδεια, να πάει στη Ρώμη και διά χειρός να πραγματοποιήσει την αναζήτηση.

Αυτό θα αλλάξει με το πρόγραμμα In Codice Ratio το οποίο χρησιμοποιεί τεχνολογία τεχνητής νοημοσύνης και λογισμικό αναγνώρισης χαρακτήρων (OCR), προκειμένου να καταστήσει τα άγνωστα γραπτά τεκμήρια διαθέσιμα.

OCR και χειρόγραφη καλλιγραφία

Λογισμικό OCR χρησιμοποιείται εδώ και χρόνια για το «σκανάρισμα» βιβλίων και άλλων έντυπων κειμένων, αλλά δεν είναι κατάλληλο για το υλικό των Μυστικών Αρχείων. Βάσει της συμβατικής του χρήσης, «σπάει» τις λέξεις σε μια σειρά εικονογράμματα, εντοπίζοντας τα διαστήματα μεταξύ τους. Μετά συγκρίνει κάθε εικονόγραμμα από την αλφαβητική βάση δεδομένων που έχει στη μνήμη του. Έπειτα αποφασίζει ποιο γράμμα ταιριάζει με την εικόνα, το λογισμικό μεταφράζει τα γράμματα σε κώδικα μηχανής (ASCII) και μετά κάνει το κείμενο αναζητήσιμο.

Αυτή η διαδικασία «δουλεύει» με τα έντυπα κείμενα, ενώ δεν αποδίδει στα χειρόγραφα – όπως είναι η πλειονότητα των έγγραφων τεκμηρίων του Βατικανού. Το βασικό πρόβλημα είναι ότι στη χειρόγραφη καλλιγραφική μορφή των τεκμηρίων αυτών, δεν υπήρχαν διαστήματα ανάμεσα στα γράμματα.

Η τεχνολογία OCR δηλαδή δεν μπορεί να αναγνωρίσει πού ξεκινά το ένα γράμμα και πού τελειώνει. Το πρόβλημα, συχνά, αναφέρεται ως παράδοξο του Sayre. Το λογισμικό χρειάζεται να κατατμήσει τη λέξη σε ξεχωριστά γράμματα προκειμένου να τα αναγνωρίσει, αλλά στα χειρόγραφα, όπου τα γράμματα είναι «κολλημένα», το λογισμικό χρειάζεται να αναγνωρίζει τα γράμματα προκειμένου να τα ξεχωρίζει…

Οι επιστήμονες κατόρθωσαν να εξελίξουν το λογισμικό OCR, ώστε να αναγνωρίζει λέξεις αντί για γράμματα. Αυτό δουλεύει ως προς τη τεχνολογία, αλλά χρειάζεται τεράστια μνήμη προκειμένου να καταστεί αποδοτικό. Αντί των περιορισμένων γραμμάτων της αλφαβήτου, το σύστημα πρέπει να αναγνωρίζει την εικόνα χιλιάδων επί χιλιάδων λέξεων. Αυτό σημαίνει ότι χρειάζεται μία… αρμάδα ειδικών στη μεσαιωνική λατινική, για να επεξεργαστούν τα παλαιά χειρόγραφα και να «φωτογραφίσουν» κάθε λέξη. Στην πραγματικότητα, χρειάζονται αρκετές «φωτογραφίες» μίας λέξης, εξαιτίας ανωμαλιών στη γραφή ή κακό φωτισμό και άλλες μεταβλητές.

Αναγνώριση γραμμάτων

Στο In Codice Ratio, οι τέσσερις επιστήμονες που βρίσκονται πίσω από το project – οι Paolo Merialdo, Donatella Firmani, και Elena Nieddu από το Πανεπιστήμιο της Ρώμης, και ο Marco Maiorino που εργάζεται στα Αρχεία – προσπαθούν να λύσουν το παράδοξο του Sayre με μια καινοτόμο τεχνική που ονομάζεται κερματισμός με τη μορφή παζλ (jigsaw segmentation). Σύμφωνα με πρόσφατη δημοσίευση της ομάδας, μέσω αυτής της τεχνικής «σπάνε» οι λέξεις σε μια σειρά από κάθετες και οριζόντιες λωρίδες και αναζητώνται περιοχές όπου υπάρχει το λιγότερο μελάνι. Το λογισμικό τότε χωρίζει τις λέξεις σε αυτές τις περιοχές. Το αποτέλεσμα είναι μία σειρά κομματιών «παζλ».

Μπορεί τα κομμάτια αυτού του «παζλ» να μην είναι ιδιαίτερα χρήσιμα σε αυτή τη μορφή, αλλά το λογισμικό έχει τη δυνατότητα να τα συνδυάζει με τρόπο ώστε να δημιουργούνται τα γράμματα. Χρειάζεται μόνον να γνωρίζει ποιοι συνδυασμοί αντιπροσωπεύουν κανονικά γράμματα.

Προκειμένου να «εκπαιδευτεί» το λογισμικό, οι ερευνητές στράφηκαν στους μαθητές 24 σχολείων στην Ιταλία, προκειμένου να διαμορφώσουν τη βάση δεδομένων του συστήματος. Οι μαθητές, κάνοντας log-in σε μια ιστοσελίδα, επιλέγουν ποια κομμάτια του παζλ ανήκουν στην εικόνα ενός γράμματος του μεσαιωνικού λατινικού αλφαβήτου και ποιες όχι.

Εικόνα με την εικόνα και κλικ με κλικ, οι χρήστες «εκπαιδεύουν» το λογισμικό να αναγνωρίζει ένα προς ένα τα 24 γράμματα και να τα μετατρέπει σε χαρακτήρες.

Οι μαθητές δεν χρειάζεται καν να γνωρίζουν να διαβάζουν λατινικά. Απλώς πρέπει να επιλέγουν τα σωστά εικονο-γράμματα. Το σχέδιο λειτούργησε και καθώς συγκεντρώθηκε ένας ικανός αριθμός επιλογών το σύστημα ξεκίνησε αυτόνομα να συνδυάζει τα κομμάτια του παζλ του και να αναγνωρίζει γράμματα. Το ίδιο το λογισμικό καθίσταται έτσι «ειδικός» μέσω της τεχνητής ευφυΐας.

Αυτοεκπαίδευση του λογισμικού

Ωστόσο η αναγνώριση των κομματιών του παζλ δεν είναι αρκετή. Πρέπει να υπάρχουν πρόσθετα εργαλεία για να διακρίνουν τις διαφοροποιήσεις στο γραπτό κείμενο.

Για να αντιμετωπίσει το πρόβλημα, η ομάδα του In Codice Ratio «δίδαξε» στο λογισμικό ορισμένες αρχές κοινής λογικής. Διαμόρφωσαν ένα «σώμα» 1,5 εκατομμυρίου ήδη ψηφιοποιημένων λατινικών λέξεων και τις εξέτασαν όσον αφορά τους συνδυασμούς δύο ή τριών γραμμάτων. Ετσι, καθόρισαν ποιοι συνδυασμοί γραμμάτων είναι συνήθεις και ποιοι είναι εξαιρετικά σπάνιοι. Το λογισμικό OCR έχει τη δυνατότητα να χρησιμοποιήσει τα στατιστικά δεδομένα προκειμένου να «γνωρίζει» τις πιθανότητες για διαφορετικές σειρές γραμμάτων.

Με αυτή τη βελτίωση, το OCR άρχισε να μαθαίνει μόνο του να «διαβάζει» ορισμένα κείμενα. Η ομάδα αποφάσισε να το τροφοδοτήσει με κάποια χειρόγραφα από τα Αρχεία του Βατικανού, περισσότερες από 18.000 σελίδες, ένα υποσύνολο από τα Κρυφά Αρχεία στο οποίο περιλαμβάνονται επιστολές προς Ευρωπαίους Μονάρχες, κανονιστικές πράξεις και γενικού τύπου αλληλογραφία.

Τα αρχικά αποτελέσματα ήταν ανάμεικτα. Το ένα τρίτο λέξεων που μετεγγράφηκε είχε λάθη στην αναγνώριση των γραμμάτων από το OCR. Παρ’ όλα αυτά το 96% των χειρόγραφων γραμμάτων επελέγησαν σωστά από το λογισμικό.

Όπως σε κάθε περίπτωση που εφαρμόζεται η τεχνητή νοημοσύνη, το λογισμικό αναμένεται να βελτιώσει τις επιδόσεις του. Το ενδιαφέρον είναι ότι η στρατηγική που επελέγη από το In Codice Ratio – η κατάτμηση με τη μορφή παλζ και η μαζική εκπαίδευση του λογισμικού – μπορεί να εφαρμοσθεί για την ανάγνωση κειμένων σε διαφορετικές γλώσσες. Επίσης θα ανοίξει το δρόμο για την παγκόσμια πρόσβαση σε χειρόγραφα τεκμήρια όπως επιστολές και ημερολόγια σε ερευνητές.


The Atlantic

 


Διαβάστε ολόκληρο το άρθρο

Δημοσ.

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005 

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018 

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

  • Like 2
  • Thanks 2
  • Confused 1
Δημοσ. (επεξεργασμένο)
15 λεπτά πριν, Predatorkill είπε

1981

Παντρευεται ο πριγκηπας της Αγγλιας

H Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2005 

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool παιρνει τη κουπα

Ο παπας πεθαινει

2018 

Παντρευεται ο πριγκηπας της Αγγλιας

Η Liverpool στο τελικο

Καποιος να ειδοποιησει τον παπα!!!

ο πάπας δεν πέθανε το 81. επίσης θα χε λογική μόνο αν ο κάρολος ξαναπαντρεύονταν. 

Επεξ/σία από bilya
  • Like 1
  • Thanks 1
Δημοσ. (επεξεργασμένο)
20 minutes ago, Predatorkill said:

Στο δικό σου link γράφει:

 

  • Quote

    Pope Paul VI died on 6 August 1978, and John Paul I also passed away just a month after being selected as his successor. However, although the next pope appointed that year, John Paul II, was wounded in an assassination attempt in 1981, he survived the shooting and remained the pontiff for another 24 years, until his death in 2005. No pope died in 1981, as claimed above.

     

Επεξ/σία από zousgr
quote the quote
Δημοσ.

Εγώ σκάναρα στα Ελληνικά μία παράγραφο σε ocr και η μετάφραση ήτανε άρες μπάρες κουκουνάρες! Πόσο μάλλον να σκανάρουνε αυτά τα βιβλία έχουν να εκδώσουν άλλα τον άλλων.

Δημοσ.

Δηλαδή κάτι συγγραφείς τύπου Νταν Μπράουν θα μείνουν άνεργοι. Κακή εξέλιξη για τον κλάδο τους, πρέπει να τους συμπαρασταθούμε συνδικαλιστικά. :-P

 

  • Thanks 1
Δημοσ. (επεξεργασμένο)

vatican.jpg.caeca1f7c97bbd0d6a59039a9719733f.jpg

Αν είναι αλήθεια θα βγάλουμε υλικό για να γυρίσουμε ένα σωρό ταινίες, το game of thrones θα μοιάζει σάν να το γύρισε ερασιτέχνης.

Επεξ/σία από cpc464
  • Like 2

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...