Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Μια χαρά δούλεψε το OCR.Αλλά στο pdf που βγαίνει  από το scanner,θέλει να αυξήσεις την ανάλυση του,να το "καθαρίσεις" και μετά να δουλέψεις το Tesseract.

Λοιπόν:Στην αρχή δοκίμασα να κάνω extract τα text που περιέχει το pdf μου. <pdftotext "name".pdf out.txt>.Δεν πέτυχε!

Ετσι λοιπόν άλλαξα την ανάλυση του εγγράφου. <convert -density 300 "name".pdf -depth 8 -strip -background white -alpha off out.tiff>.Με την εντολή αυτή μετατρέψαμε το PDF σε εικόνα TIFF υψηλής ανάλυσης.

Τέλος με την <tesseract out.tiff output>,πήρα το αποτέλεσμα που ήθελα.

Το tesseract θα σαρώσει την εικόνα out.tiff και θα αποθηκεύσει οποιοδήποτε εντοπισμένο κείμενο,στο αρχείο "output.txt".Το πρόθεμα .txt προστίθεται αυτόματα στο output.

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...