jim_p Δημοσ. 10 Δεκεμβρίου 2017 Δημοσ. 10 Δεκεμβρίου 2017 Αυτο δεν εινια λαθος κωδικοποιηση. Αυτο λεγεται "το ocr τα εκανε σκ@τ@" και δεν μπορεις να κανεις κατι αλλο.
heavymetallicus Δημοσ. 11 Δεκεμβρίου 2017 Δημοσ. 11 Δεκεμβρίου 2017 Μια χαρά δούλεψε το OCR.Αλλά στο pdf που βγαίνει από το scanner,θέλει να αυξήσεις την ανάλυση του,να το "καθαρίσεις" και μετά να δουλέψεις το Tesseract. Λοιπόν:Στην αρχή δοκίμασα να κάνω extract τα text που περιέχει το pdf μου. <pdftotext "name".pdf out.txt>.Δεν πέτυχε! Ετσι λοιπόν άλλαξα την ανάλυση του εγγράφου. <convert -density 300 "name".pdf -depth 8 -strip -background white -alpha off out.tiff>.Με την εντολή αυτή μετατρέψαμε το PDF σε εικόνα TIFF υψηλής ανάλυσης. Τέλος με την <tesseract out.tiff output>,πήρα το αποτέλεσμα που ήθελα. Το tesseract θα σαρώσει την εικόνα out.tiff και θα αποθηκεύσει οποιοδήποτε εντοπισμένο κείμενο,στο αρχείο "output.txt".Το πρόθεμα .txt προστίθεται αυτόματα στο output.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα