Σημειώσεις σε PDF

jim_p · 10 Δεκεμβρίου 2017

Αυτο δεν εινια λαθος κωδικοποιηση. Αυτο λεγεται "το ocr τα εκανε σκ@τ@" και δεν μπορεις να κανεις κατι αλλο.

heavymetallicus · 11 Δεκεμβρίου 2017

Μια χαρά δούλεψε το OCR.Αλλά στο pdf που βγαίνει από το scanner,θέλει να αυξήσεις την ανάλυση του,να το "καθαρίσεις" και μετά να δουλέψεις το Tesseract.

Λοιπόν:Στην αρχή δοκίμασα να κάνω extract τα text που περιέχει το pdf μου. <pdftotext "name".pdf out.txt>.Δεν πέτυχε!

Ετσι λοιπόν άλλαξα την ανάλυση του εγγράφου. <convert -density 300 "name".pdf -depth 8 -strip -background white -alpha off out.tiff>.Με την εντολή αυτή μετατρέψαμε το PDF σε εικόνα TIFF υψηλής ανάλυσης.

Τέλος με την <tesseract out.tiff output>,πήρα το αποτέλεσμα που ήθελα.

Το tesseract θα σαρώσει την εικόνα out.tiff και θα αποθηκεύσει οποιοδήποτε εντοπισμένο κείμενο,στο αρχείο "output.txt".Το πρόθεμα .txt προστίθεται αυτόματα στο output.

Σύνδεση

Σημειώσεις σε PDF

Προτεινόμενες αναρτήσεις

jim_p

heavymetallicus

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση