Προφυλαγμένα αρχεία pdf

Gilmaru · 2 Απριλίου 2012

Παιδιά χρειάζομαι την βοήθεια σας και είναι πραγματικά πολύ σημαντικό για μένα!!

Έχω κάποια αρχεία που είναι στην προκειμένη περίπτωση βιβλία των παιδιών δημοτικού σε ψηφιακή μορφή, όπως παρέχονται δωρεάν από το παιδαγωγικό ινστιτούτο εδώ --> http://www.pi-schools.gr/books/dimotiko/ (θα επισύναπτα κάποιο ενδεικτικά, αλλά είναι μεγαλύτερα από 2mb)

Λοιπόν, κάνoυμε μια εργασία πάνω στην ορθογραφία και χρειαζόμαι την συχνότητα με την οποία εμφανίζεται η κάθε λέξη στο κείμενο και συγκεκριμένα ο κάθε τύπος της (π.χ. για την λέξη "μπαίνω" χρειάζεται να καταγράψω επίσης ξεχωριστά το "μπαίνεις", "μπαίνει", "μπήκε", "μπήκα", κλπ)

Τα προβλήματα είναι δύο:

1 - Τα αρχεία έχουν κάποιου είδους προστασία ή είναι φτιαγμένα με τέτοιο τρόπο που δεν μπορώ να κάνω ούτε καν αναζήτηση μια μια τις λέξεις από την τυπική αναζήτηση του adobe reader, με αποτέλεσμα να πρέπει να ψάχνω τις λέξεις μόνος μου μέσα στο κείμενο για να τις καταγράψω (μιλάμε για σύνολο περίπου 100 λέξεων "στόχων", που η κάθε μία έχει και μερικούς διαφορετικούς τύπους που πρέπει επίσης να καταγράφω..)

2 - Ενώ θα με βοηθούσε πολύ η αναζήτηση, ακόμη κι έτσι απαιτεί πολύ χρόνο, τον οποίο θα γλίτωνα (κι εγώ και άλλοι) αν υπήρχε κάποιο είδος προγράμματος που να μπορεί να καταγράψει την συχνότητα των λέξεων ή κάποιος άλλος τρόπος να καταγράφω τις λέξεις πιο εύκολα από το να τις μετράω μια μια στο κείμενο.

Θα σας ήμουν πραγματικά υπόχρεος αν μου απαντούσατε ή μου στέλνατε pm σε περίπτωση που γνωρίζετε κάτι που μπορεί να βοηθήσει!!

Ευχαριστώ!

Επεξ/σία 2 Απριλίου 2012 από Gilmaru

Gi0 · 2 Απριλίου 2012

Εαν ειναι κλειδωμενα, μπορεις να δοκιμασεις καποιο αντιστοιχο προγραμμα με το PdfDectypter για να τα ξεκλειδωσεις.

Δουλευει μια χαρα το συγκεκριμενο.

Με ενα google search θα βρεις αρκετα αντιστοιχα, οπως αυτο

Σχετικα με την συχνοτητα, στον Αcrobat Reader X Pro, εαν πας στο Tools-->Protection-->Search and Remove Text, μπορεις να βρεις ποσες φορες αναφερεται μια λεξη/φραση μεσα στο pdf στο οποιο την ψαχνεις.

Gilmaru · 2 Απριλίου 2012

Τnx, τελικά μάλλον έκανα λάθος όμως, μου γράφει ότι δεν είναι encrypted.

Παρόλαυτά δεν μπορεί να γίνει καμιά είδους αναζήτηση. Αν θέλετε να δείτε γιατί πράγμα μιλάω πάρτε για παράδειγμα αυτό --> http://www.pi-schools.gr/books/dimotiko/glossa_c/c_mat_1.pdf

η αναζήτηση δεν βρίσκει τίποτα ποτέ..

Gi0 · 2 Απριλίου 2012

Eκανα μια τυχαια αναζητηση με τον τροπο που αναφερω στο προηγουμενο post για τη λεξη 'σημαία' και βρηκα δυο instances χωρις να κανω κατι παραπανω.

Η λεξη 'Θεσσαλονίκη' αντιθετα βγαζει μηδεν αποτελεσματα, ενω υπαρχει σιγουρα μια τουλαχιστον φορα στη σελιδα 79.

Περιεργο. Και δεν ειναι ocr το κειμενο.

Gilmaru · 2 Απριλίου 2012

Όντως, την "σημαία" μου την βγάζει κι εμένα από την απλή αναζήτηση. Για κάποιο λόγο φαίνεται να πιάνει μόνο μερικά κειμενάκια δίπλα από τις εικόνες.

edit: δεν ξέρω αν έχει να κάνει με αυτό, αλλά αν δοκιμάσεις να κάνεις copy paste ένα κομμάτι του κειμένου οπουδήποτε αλλού στο βγάζει αλαμπουρνέζικα, εκτός από αυτά τα μικρά κειμενάκια δίπλα στις εικόνες των οποίων τις λέξεις αναγνωρίζει και η αναζήτηση.

Επεξ/σία 2 Απριλίου 2012 από Gilmaru

Gi0 · 2 Απριλίου 2012

Εαν δοκιμασεις να κανεις copy paste τις λεζαντες στο notepad, θα δεις οτι εμφανιζονται κανονικα.

Δεν συμβαινει το ιδιο ομως και με το κυριως κειμενο.

Υποθετω πως κατι παιζει με τα fonts.

Gilmaru · 2 Απριλίου 2012

A μόλις τώρα έγραφα το ίδιο Ναι όντως, τι στο καλό έχουν κάνει ρε γμτ.

Sash21 · 2 Απριλίου 2012

Μόλις σου έγραφα κι εγώ το ίδιο αλλά το προχώρησα και λιγάκι.

Έκανα τα παρακάτω βήματα με το Acrobat X

Έκανα αποθήκευση του εγγράφου σαν TIFF. Αυτό δημιουργεί ένα αρχείο εικόνας για κάθε σελίδα.

Μετά έκανα δημιουργία pdf από πολλά αρχεία.

Μετά έκανα Αναγνώριση κειμένου σε αυτό το αρχείο

και όλο το κείμενο νομίζω ότι διαβάζεται κανονικά.

Το πρόβλημα οφείλεται στο ότι δεν αναγνωρίζεται όλο το κείμενο επειδή η εξαγωγή που κάνανε από το

QuarkXpress περιέχει "renderable (editable) text" και το ocr του Adobe δεν μπορεί να το διαβάσει.

Gi0 · 2 Απριλίου 2012

Δυστυχως δοκιμασα και την μπακαλικη λυση της μετατροπης σε doc και στην συνεχεια επαιξα με fonts κλπ, αλλα δεν μου εκανε τη χαρη.

Ισως καποιος με περισσοτερες γνωσεις επι του θεματος (καποιος γραφιστας?) να σου φανει πιο χρησιμος

Mολις ειδα το edit σου

Αρα το πηγες μεσω ΟCR. Εαν δεν εχεις και απωλειες, good to go

accipio · 2 Απριλίου 2012

Μπορεί να γίνει αναζήτηση λέξεων μέσα στο pdf, αρκεί πρώτα να βρεις τη λέξη που σε ενδιαφέρει μέσα στο pdf (ψάχνοντας με το μάτι ή απλώς διαβάζοντας), να την αντιγράψεις και να την επικολλήσεις στο πεδίο αναζήτησης του Acrobat.

Π.χ. για να βρεις τη λέξη "δασκάλα" πρέπει να κάνεις αναζήτηση με αυτό το... έκτρωμα: ‰·ÛÎ¿Ï·

Κι αν προχωρούσες λίγο παραπέρα, μπορείς να βρεις τις αντιστοιχίες των... εκτρωμάτων με τα κανονικά ελληνικά γράμματα για να μη βαδίζεις στα τυφλά. Αυτό βέβαια θέλει χρόνο...

EDIT.: Θυμήθηκα ότι με είχε απασχολήσει παρόμοιο πρόβλημα στο παρελθόν, κι είχα προσπαθήσει να βρω τις αντιστοιχίες με τα ελληνικά. Ιδού ο πίνακας στον οποίον κατέληξα. Δεν θυμάμαι ωστόσο αν είναι πλήρης ή αν τα παράτησα κάπου στην πορεία...

∞ Α

∂ Β

° Γ

¢ Δ

∂ Ε

Π Η

£ Θ

π Ι

∫ Κ

§ Λ

ª Μ

¡ Ν

• Ξ

√ Ο

¶ Π

ƒ Ρ

™ Σ

Δ Τ

À Υ

º Φ

„ ψ

ø Ω

Õ Ά

• α

‚ β

Á γ

‰ δ

Â ε

˙ ζ

Ë η

ı θ

È ι

Î κ

Ï λ

Ì μ

Ó ν

Í ξ

Ô ο

 π

Ú ρ

Û σ

˜ ς

Ù τ

˘ υ

Ê φ

¯ χ

„ ψ

ˆ ω

¿ ά

¤ έ

‹ ή

› ί

fi ό

ύ ύ

Ò ώ

° ϊ

¸ ϋ

Gi0 · 2 Απριλίου 2012

Δοκιμασα στο pdf που εδωσε ο Sash Gilmaru με τη λεξη "ειδα" (Â›‰·) και οντως την βρηκε. Μαζι ομως βρηκε και την "καταιγιδα".

Καλη ιδεα παντως

Επεξ/σία 2 Απριλίου 2012 από Gi0

Gilmaru · 2 Απριλίου 2012

Ναι το δοκίμασα κι εγώ, πολύ καλή ιδέα!

Δοκίμασα επίσης να σχηματίσω ένα μόρφημα παίρνοντας ένα ένα τα γράμματα από το κείμενο και φαίνεται να είναι σχετικά ακριβές!

Βέβαια όταν υπάρχει τόνος νομίζω ότι σου βγάζει μόνο όσες λέξεις έχουν τόνο στο ίδιο σημείο και επίσης το κεφαλαίο και το μικρό το αναγνωρίζει σαν διαφορετικό γράμμα.

Αλλά και πάλι βοηθάει πολύ!! Γενικά ευχαριστώ για τον χρόνο σας παιδιά, πραγματικά βοηθάτε!!

edit: accipio tnx για το πινακάκι!!

Μόλις σου έγραφα κι εγώ το ίδιο αλλά το προχώρησα και λιγάκι.

Έκανα τα παρακάτω βήματα με το Acrobat X

Έκανα αποθήκευση του εγγράφου σαν TIFF. Αυτό δημιουργεί ένα αρχείο εικόνας για κάθε σελίδα.

Μετά έκανα δημιουργία pdf από πολλά αρχεία.

Μετά έκανα Αναγνώριση κειμένου σε αυτό το αρχείο

και όλο το κείμενο νομίζω ότι διαβάζεται κανονικά.

Το πρόβλημα οφείλεται στο ότι δεν αναγνωρίζεται όλο το κείμενο επειδή η εξαγωγή που κάνανε από το

QuarkXpress περιέχει "renderable (editable) text" και το ocr του Adobe δεν μπορεί να το διαβάσει.

Sash sorry εντωμεταξύ παρέλειψα εντελώς αυτό που είπες! Αυτό που έκανες γίνεται μόνο με Acrobat X;

edit 2 πως έκανες αναγνώριση κειμένου;

Επεξ/σία 2 Απριλίου 2012 από Gilmaru

Sash21 · 3 Απριλίου 2012

Καλημέρα,

εγώ έχω το Acrobat X Pro και με αυτό το δοκίμασα.

Για την αναγνώρηση κειμένου υπάρχει η σχετική εντολή.

Σου επισυνάπτω μια σελίδα να δεις τη εννοώ.

Την έχω κάνει με τον τρόπο που σου είπα και αναγνωρίζει όλο το κείμενο κανονικά.

Δυστυχώς το αρχείο είναι πολύ μεγάλο για να στο επισυνάψω όλο, αλλά μπορείς να πάρεις μια γεύση.Binder1.pdf

Gilmaru · 3 Απριλίου 2012

Καλημέρα,

εγώ έχω το Acrobat X Pro και με αυτό το δοκίμασα.

Για την αναγνώρηση κειμένου υπάρχει η σχετική εντολή.

Σου επισυνάπτω μια σελίδα να δεις τη εννοώ.

Την έχω κάνει με τον τρόπο που σου είπα και αναγνωρίζει όλο το κείμενο κανονικά.

Δυστυχώς το αρχείο είναι πολύ μεγάλο για να στο επισυνάψω όλο, αλλά μπορείς να πάρεις μια γεύση.Binder1.pdf

Σε ευχαριστώ πολύ! Επειδή ενδέχεται να βρω με κάποιο τρόπο το acrobat x pro, μήπως μπορείς να μου πεις βήμα βήμα τι κάνεις και που ακριβώς είναι αυτή η σχετική εντολή?

Sash21 · 4 Απριλίου 2012

Καλημέρα,

σου γράφω ένα ένα τα βήματα.

1.Ανοίγεις το πρωτότυπο αρχείο

2.Φτιάχνεις ένα φάκελο πχ στην επιφάνεια εργασίας σου

3.Κάνεις το πρωτότυπο αρχείο Save As - Image - TIFF και στη διαδρομή δίνεις το φάκελο που έφτιαξες.

4.Κλείνεις το αρχείο

5.Ανοίγεις το Acrobat X Pro

6.Επιλέγεις το Combine Files into PDF

7.Add files και επιλέγεις όλα τα TIFF που είχες φτιάξει πρίν

8.Τα βάζεις στη σειρά και πατάς Combine Files

9.Το νέο PDF είναι έτοιμο

10.Πηγαίνεις στα Tools-Recognize Text-In This File, All Pages και ΟΚ

11.Είσαι έτοιμος, τώρα αναγνωρίζει όλο το κείμενο.

Ελπίζω να σε βοήθησα.

Σημείωση: Η δημιουργία του PDF και η αναγνώριση κειμένου σε τόσες πολλές σελίδες είναι κάπως χρονοβόρα.....

Σύνδεση

Προφυλαγμένα αρχεία pdf

Προτεινόμενες αναρτήσεις

Gilmaru

Gi0

Gilmaru

Gi0

Gilmaru

Gi0

Gilmaru

Sash21

Gi0

accipio

Gi0

Gilmaru

Sash21

Gilmaru

Sash21

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση