Ψηφιοποίηση εγγράφου-βιβλίου με τύπους μέσα

sakis63 · 12 Αυγούστου 2011

Γεια σας συνφορουμίτες και καλό υπόλοιπο καλοκαιριού εύχομαι!Πάω κατευθείαν στο θέμα που με ταλανίζει εδώ και καιρό.

Θέλω να "ψηφιοποιήσω" ένα εγχειρίδιο με πολλά διαγράμματα -γραφήματα και τύπους και να το αναγνωρίσει ο υπολογιστής όσο καλύτερα γίνεται χωρίς μεγάλη χρονοτριβή.

Σκέφτομαι τη λύση μέσω ABBYY FINE READER 8.0 (να το σκανάρω σελίδα-σελίδα) που έχω ήδη νόμιμα (αγορασμένο) στον υπολογιστή μου..

Τι απ'όλα πρέπει να έχω υπόψη έτσι ώστε να "αναγνωριστεί" χωρίς λάθη.;;Έχοντας γνώση της δυσκολία του εγχειρήματος είχα πριν καιρό δοκιμάσει να το κάνω και παρ'όλο που πρόσεξα κάποια γενικά πράγματα όπως π.χ Ρύθμιση γλώσσας κειμένου "Ελληνικά-Αγγλικά"(έχει και αγγλικά μέσα το εγχειρίδιο εκτός ελληνικά) και πάλι έβγαζε πάρα πολλά λάθη στην πορεία σε βαθμό που σκέφτηκα να αρχίσω να το γράφω στο word εκ νέου για πιο γρήγορα!

Είναι κάτι που δεν ρύθμισα σωστά ή απλώς το εγχείρημα είναι αντικειμενικά πολύ δύσκολο;Το manual που έχω είναι στα αγγλικά..

Εντωμεταξύ έχω ακούσει από άλλους που έχουν χρειαστεί και κάνει κάτι αντίστοιχο ότι είναι απλώς θέμα ρουτίνας και χρόνου!!;;

Μήπως υπάρχει πιο εξειδικευμένη ρύθμιση γι'αυτή την δουλειά;;Ή θα πρέπει να έχει κανείς Μac και κάποιο άλλο αντίστοιχο λογισμικό πιο αυτοματοποιημένο για να κάνει πιο "εύκολα" τη δουλειά;;

Ευχαριστώ πολύ και ελπίζω προς διαφώτιση σας!

accipio · 12 Αυγούστου 2011

Μια χαρά είναι το Finereader για πολύγλωσσο ocr - αλλά θα δυσκολευτεί πολύ σε περιπτώσεις μαθηματικών / φυσικών / χημικών τύπων, τους οποίους πρακτικά δε θα μπορέσει να αναγνωρίσει. Τα γραφήματα -λογικά- θα τα αναγνωρίσει ως εικόνες. Για για να μην έχεις πολλά σφάλματα στην αναγνώριση του κειμένου, πρόσεξε τη σάρωση (π.χ. σάρωση σε grayscale, τουλάχιστον στα 300 dpi, με σωστές ρυθμίσεις φωτεινότητας, οξύτητας κτλ.). Βέβαια παίζει ρόλο και ο τύπος της γραμματοσειράς του πρωτότυπου για την ακρίβεια της αναγνώρισης.

sakis63 · 12 Αυγούστου 2011

Μια χαρά είναι το Finereader για πολύγλωσσο ocr - αλλά θα δυσκολευτεί πολύ σε περιπτώσεις μαθηματικών / φυσικών / χημικών τύπων, τους οποίους πρακτικά δε θα μπορέσει να αναγνωρίσει. Τα γραφήματα -λογικά- θα τα αναγνωρίσει ως εικόνες. Για για να μην έχεις πολλά σφάλματα στην αναγνώριση του κειμένου, πρόσεξε τη σάρωση (π.χ. σάρωση σε grayscale, τουλάχιστον στα 300 dpi, με σωστές ρυθμίσεις φωτεινότητας, οξύτητας κτλ.). Βέβαια παίζει ρόλο και ο τύπος της γραμματοσειράς του πρωτότυπου για την ακρίβεια της αναγνώρισης.

..Πολύ εύστοχα τα όσα γράφεις και σε ευχαριστώ αλλά δυστυχώς τα έχω προσέξει ήδη!!(ανάλυση ,φωτεινότητα,οξύτητα,διγλωσση ρύθμιση στο ABBYY),αλλά το θέμα είναι ότι το εγχειρίδιο "βρίθει" κυριολεκτικά από πυκνά γραφήματα με τύπους και μεταβλητές πολλαπλές καθώς ανήκει στην κατηγορία των "φυσικών επιστημών" οπότε λογικά όλα τα σχήματα του βιβλίου θα πρέπει να σκαναριστούν ξεχωριστά ως απλές εικόνες(για να μην μπαίνει στην διαδικασία το ΑΒΒΥΥ να το ταυτοποιήσει με κανόνες αναγνωρίσης κειμένου και γίνει μπάχαλο,όπως γίνεται αν την σκανάρεις όλη τη σελίδα με τα σχήματα μέσα) και να γίνει εισαγωγή ως εικόνα ξεχωριστά στο τελικό έγγραφο που θα προκύψει..Κάνω κάτι λάθος σε αυτό;;Γιατί αν είναι όπως τα λέω, το πράγμα διαφαίνεται όπως ακριβώς τα φανταζόμουνα.Πολλή και αγγαροδουλειά!..Ξέρετε αν υπάρχει κάτι ακόμα καλύτερο για σκανάρισμα τέτοιων εγχειριδίων-βιβλίων θετικών επιστημών...έστω και σε Μac Ή Λίνουξ(στο Linux αμφιβάλλω ότι θα βγει κάτι πιο εξειδικευμένο) Γιατί τουλάχιστον το ΑΒΒΥΥ 8.0 που έχω βγάζει πάραυτα ΠΟΛΛΑ Λάθη!! Οπότε τι λύση προτείνετε;;Υπάρχει κάτι καλύτερο σε πρόγραμμα για τέτοιου είδους επιστημονικά έγγραφα-βιβλία;;Ευχαριστώ προκαταβολικά!

accipio · 12 Αυγούστου 2011

Αυτό το κακό έχουν τα επιστημονικά κείμενα - θέλουν πολλή δουλειά εκ μέρους του χρήστη, την οποία δυστυχώς δεν μπορείς να αποφύγεις. Η διαδικασία που μπορείς να εφαρμόσεις (φαντάζομαι ότι ήδη την ξέρεις, αλλά τη γράφω για όποιον τυχόν ενδιαφέρεται) είναι:

1. Να εισαγάγεις όλες τις σελίδες στο Finereader.

2. Να τρέξεις τη διαδικασία της αναγνώρισης (Analyze layout), είτε σε καθεμιά χωριστά (με Ctrl+E) είτε σε όλες μαζί (με Ctrl+Shift+E), ώστε το πρόγραμμα να τοποθετήσει τα πλαίσια ελέγχου αυτόματα. Στη συνέχεια πρέπει να εξετάσεις καθεμιά σελίδα χωριστά, και να κάνεις τις διορθώσεις που πρέπει (να δεις αν επιλέχθηκε σωστά όλο το κείμενο που σε ενδιαφέρει, αν κάποιο πλαίσιο κειμένου πρέπει να μετατραπεί σε πλαίσιο εικόνας ή το αντίθετο, κτλ.).

3. Στη συνέχεια να προχωρήσεις με τη διαδικασία της αναγνώρισης, πάλι είτε σε κάθε σελίδα χωριστά (Ctrl+R) είτε μαζικά σε όλες τις σελίδες (Ctrl+Shift+R).

4. Τέλος, να ελέγξεις το αποτέλεσμα και να διορθώσεις τα λάθη αναγνώρισης.

Με άλλα λόγια, χρειάζεται πολλή, επίπονη δουλειά για να επιτύχεις αποδεκτό αποτέλεσμα. Δυστυχώς, δεν μπορείς να την αποφύγεις. Μόνο ίσως να προσλάβεις κάποια γραμματέα για να τα κάνει όλ' αυτά...

Τέλος, απ' όσο ξέρω, δεν υπάρχει πρόγραμμα που να αναγνωρίζει αυτόματα και να αναδημιουργεί εξειδικευμένους μαθηματικούς - ή παρόμοιους - τύπους χωρίς παρέμβαση του χρήστη. Ίσως στον τομέα αυτό να τα καταφέρνει καλύτερα η τελευταία έκδοση (10) του Finereader, την οποία μπορείς να δοκιμάσεις ως trial.

sakis63 · 12 Αυγούστου 2011

Αυτό το κακό έχουν τα επιστημονικά κείμενα - θέλουν πολλή δουλειά εκ μέρους του χρήστη, την οποία δυστυχώς δεν μπορείς να αποφύγεις. Η διαδικασία που μπορείς να εφαρμόσεις (φαντάζομαι ότι ήδη την ξέρεις, αλλά τη γράφω για όποιον τυχόν ενδιαφέρεται) είναι:

1. Να εισαγάγεις όλες τις σελίδες στο Finereader.

2. Να τρέξεις τη διαδικασία της αναγνώρισης (Analyze layout), είτε σε καθεμιά χωριστά (με Ctrl+E) είτε σε όλες μαζί (με Ctrl+Shift+E), ώστε το πρόγραμμα να τοποθετήσει τα πλαίσια ελέγχου αυτόματα. Στη συνέχεια πρέπει να εξετάσεις καθεμιά σελίδα χωριστά, και να κάνεις τις διορθώσεις που πρέπει (να δεις αν επιλέχθηκε σωστά όλο το κείμενο που σε ενδιαφέρει, αν κάποιο πλαίσιο κειμένου πρέπει να μετατραπεί σε πλαίσιο εικόνας ή το αντίθετο, κτλ.).

3. Στη συνέχεια να προχωρήσεις με τη διαδικασία της αναγνώρισης, πάλι είτε σε κάθε σελίδα χωριστά (Ctrl+R) είτε μαζικά σε όλες τις σελίδες (Ctrl+Shift+R).

4. Τέλος, να ελέγξεις το αποτέλεσμα και να διορθώσεις τα λάθη αναγνώρισης.

Με άλλα λόγια, χρειάζεται πολλή, επίπονη δουλειά για να επιτύχεις αποδεκτό αποτέλεσμα. Δυστυχώς, δεν μπορείς να την αποφύγεις. Μόνο ίσως να προσλάβεις κάποια γραμματέα για να τα κάνει όλ' αυτά...

Τέλος, απ' όσο ξέρω, δεν υπάρχει πρόγραμμα που να αναγνωρίζει αυτόματα και να αναδημιουργεί εξειδικευμένους μαθηματικούς - ή παρόμοιους - τύπους χωρίς παρέμβαση του χρήστη. Ίσως στον τομέα αυτό να τα καταφέρνει καλύτερα η τελευταία έκδοση (10) του Finereader, την οποία μπορείς να δοκιμάσεις ως trial.

Ευχαριστώ,αυτή την διαδικασία ακολουθώ κι εγώ απλώς θα δοκιμάσω τη "μαζική" αναγνώριση με Ctrl+Shift+R.Μου έβαλες και την ιδέα να δοκιμάσω και το FineReader 10!!

Αλήθεια τα άλλα πακέτα όπως Quark Express και Ιndesign που είναι κυρίως για σελιδοποίηση λες να έχουν και λειτουργίες με καλύτερα αποτελέσματα γι'αυτή τη δουλειά;;

accipio · 12 Αυγούστου 2011

Απ' ό,τι ξέρω, τα Quark Express και Ιndesign είναι προγράμματα σελιδοποίησης μόνο, χωρίς δυνατότητα ocr.

Σύνδεση

Ψηφιοποίηση εγγράφου-βιβλίου με τύπους μέσα

Προτεινόμενες αναρτήσεις

sakis63

accipio

sakis63

accipio

sakis63

accipio

Αρχειοθετημένο

Σύνδεση