Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ. (επεξεργασμένο)

Παιδιά χρειάζομαι την βοήθεια σας και είναι πραγματικά πολύ σημαντικό για μένα!!

 

Έχω κάποια αρχεία που είναι στην προκειμένη περίπτωση βιβλία των παιδιών δημοτικού σε ψηφιακή μορφή, όπως παρέχονται δωρεάν από το παιδαγωγικό ινστιτούτο εδώ --> http://www.pi-schools.gr/books/dimotiko/ (θα επισύναπτα κάποιο ενδεικτικά, αλλά είναι μεγαλύτερα από 2mb)

 

Λοιπόν, κάνoυμε μια εργασία πάνω στην ορθογραφία και χρειαζόμαι την συχνότητα με την οποία εμφανίζεται η κάθε λέξη στο κείμενο και συγκεκριμένα ο κάθε τύπος της (π.χ. για την λέξη "μπαίνω" χρειάζεται να καταγράψω επίσης ξεχωριστά το "μπαίνεις", "μπαίνει", "μπήκε", "μπήκα", κλπ)

 

Τα προβλήματα είναι δύο:

 

1 - Τα αρχεία έχουν κάποιου είδους προστασία ή είναι φτιαγμένα με τέτοιο τρόπο που δεν μπορώ να κάνω ούτε καν αναζήτηση μια μια τις λέξεις από την τυπική αναζήτηση του adobe reader, με αποτέλεσμα να πρέπει να ψάχνω τις λέξεις μόνος μου μέσα στο κείμενο για να τις καταγράψω (μιλάμε για σύνολο περίπου 100 λέξεων "στόχων", που η κάθε μία έχει και μερικούς διαφορετικούς τύπους που πρέπει επίσης να καταγράφω..) :-(

 

2 - Ενώ θα με βοηθούσε πολύ η αναζήτηση, ακόμη κι έτσι απαιτεί πολύ χρόνο, τον οποίο θα γλίτωνα (κι εγώ και άλλοι) αν υπήρχε κάποιο είδος προγράμματος που να μπορεί να καταγράψει την συχνότητα των λέξεων ή κάποιος άλλος τρόπος να καταγράφω τις λέξεις πιο εύκολα από το να τις μετράω μια μια στο κείμενο.

 

 

Θα σας ήμουν πραγματικά υπόχρεος αν μου απαντούσατε ή μου στέλνατε pm σε περίπτωση που γνωρίζετε κάτι που μπορεί να βοηθήσει!!

 

Ευχαριστώ! :-)

Επεξ/σία από Gilmaru
  • Moderators
Δημοσ.

Εαν ειναι κλειδωμενα, μπορεις να δοκιμασεις καποιο αντιστοιχο προγραμμα με το PdfDectypter για να τα ξεκλειδωσεις.

Δουλευει μια χαρα το συγκεκριμενο.

Με ενα google search θα βρεις αρκετα αντιστοιχα, οπως αυτο

 

Σχετικα με την συχνοτητα, στον Αcrobat Reader X Pro, εαν πας στο Tools-->Protection-->Search and Remove Text, μπορεις να βρεις ποσες φορες αναφερεται μια λεξη/φραση μεσα στο pdf στο οποιο την ψαχνεις.

Δημοσ.

Τnx, τελικά μάλλον έκανα λάθος όμως, μου γράφει ότι δεν είναι encrypted.

 

Παρόλαυτά δεν μπορεί να γίνει καμιά είδους αναζήτηση. Αν θέλετε να δείτε γιατί πράγμα μιλάω πάρτε για παράδειγμα αυτό --> http://www.pi-schools.gr/books/dimotiko/glossa_c/c_mat_1.pdf

 

η αναζήτηση δεν βρίσκει τίποτα ποτέ..

  • Moderators
Δημοσ.

Eκανα μια τυχαια αναζητηση με τον τροπο που αναφερω στο προηγουμενο post για τη λεξη 'σημαία' και βρηκα δυο instances χωρις να κανω κατι παραπανω.

 

Η λεξη 'Θεσσαλονίκη' αντιθετα βγαζει μηδεν αποτελεσματα, ενω υπαρχει σιγουρα μια τουλαχιστον φορα στη σελιδα 79.

Περιεργο. Και δεν ειναι ocr το κειμενο.

Δημοσ. (επεξεργασμένο)

Όντως, την "σημαία" μου την βγάζει κι εμένα από την απλή αναζήτηση. Για κάποιο λόγο φαίνεται να πιάνει μόνο μερικά κειμενάκια δίπλα από τις εικόνες.

 

edit: δεν ξέρω αν έχει να κάνει με αυτό, αλλά αν δοκιμάσεις να κάνεις copy paste ένα κομμάτι του κειμένου οπουδήποτε αλλού στο βγάζει αλαμπουρνέζικα, εκτός από αυτά τα μικρά κειμενάκια δίπλα στις εικόνες των οποίων τις λέξεις αναγνωρίζει και η αναζήτηση.

Επεξ/σία από Gilmaru
  • Moderators
Δημοσ.

Εαν δοκιμασεις να κανεις copy paste τις λεζαντες στο notepad, θα δεις οτι εμφανιζονται κανονικα.

Δεν συμβαινει το ιδιο ομως και με το κυριως κειμενο.

Υποθετω πως κατι παιζει με τα fonts.

Δημοσ.

Μόλις σου έγραφα κι εγώ το ίδιο :) αλλά το προχώρησα και λιγάκι.

Έκανα τα παρακάτω βήματα με το Acrobat X

Έκανα αποθήκευση του εγγράφου σαν TIFF. Αυτό δημιουργεί ένα αρχείο εικόνας για κάθε σελίδα.

Μετά έκανα δημιουργία pdf από πολλά αρχεία.

Μετά έκανα Αναγνώριση κειμένου σε αυτό το αρχείο

και όλο το κείμενο νομίζω ότι διαβάζεται κανονικά.

 

Το πρόβλημα οφείλεται στο ότι δεν αναγνωρίζεται όλο το κείμενο επειδή η εξαγωγή που κάνανε από το

QuarkXpress περιέχει "renderable (editable) text" και το ocr του Adobe δεν μπορεί να το διαβάσει.

  • Moderators
Δημοσ.

Δυστυχως δοκιμασα και την μπακαλικη λυση της μετατροπης σε doc και στην συνεχεια επαιξα με fonts κλπ, αλλα δεν μου εκανε τη χαρη.

Ισως καποιος με περισσοτερες γνωσεις επι του θεματος (καποιος γραφιστας?) να σου φανει πιο χρησιμος

 

Mολις ειδα το edit σου

Αρα το πηγες μεσω ΟCR. Εαν δεν εχεις και απωλειες, good to gohappy.gif

Δημοσ.

Μπορεί να γίνει αναζήτηση λέξεων μέσα στο pdf, αρκεί πρώτα να βρεις τη λέξη που σε ενδιαφέρει μέσα στο pdf (ψάχνοντας με το μάτι ή απλώς διαβάζοντας), να την αντιγράψεις και να την επικολλήσεις στο πεδίο αναζήτησης του Acrobat.

Π.χ. για να βρεις τη λέξη "δασκάλα" πρέπει να κάνεις αναζήτηση με αυτό το... έκτρωμα: ‰·ÛοϷ

Κι αν προχωρούσες λίγο παραπέρα, μπορείς να βρεις τις αντιστοιχίες των... εκτρωμάτων με τα κανονικά ελληνικά γράμματα για να μη βαδίζεις στα τυφλά. Αυτό βέβαια θέλει χρόνο...

 

 

EDIT.: Θυμήθηκα ότι με είχε απασχολήσει παρόμοιο πρόβλημα στο παρελθόν, κι είχα προσπαθήσει να βρω τις αντιστοιχίες με τα ελληνικά. Ιδού ο πίνακας στον οποίον κατέληξα. Δεν θυμάμαι ωστόσο αν είναι πλήρης ή αν τα παράτησα κάπου στην πορεία...

 

 

∞ Α

∂ Β

° Γ

¢ Δ

∂ Ε

Π Η

£ Θ

π Ι

∫ Κ

§ Λ

ª Μ

¡ Ν

• Ξ

√ Ο

¶ Π

ƒ Ρ

™ Σ

Δ Τ

À Υ

º Φ

„ ψ

ø Ω

 

Õ Ά

 

• α

‚ β

Á γ

‰ δ

 ε

˙ ζ

Ë η

ı θ

È ι

Î κ

Ï λ

Ì μ

Ó ν

Í ξ

Ô ο

 π

Ú ρ

Û σ

˜ ς

Ù τ

˘ υ

Ê φ

¯ χ

„ ψ

ˆ ω

 

 

¿ ά

¤ έ

‹ ή

› ί

fi ό

ύ ύ

Ò ώ

 

° ϊ

¸ ϋ

  • Moderators
Δημοσ. (επεξεργασμένο)

Δοκιμασα στο pdf που εδωσε ο Sash Gilmaru με τη λεξη "ειδα" (›‰·) και οντως την βρηκε. Μαζι ομως βρηκε και την "καταιγιδα".

Καλη ιδεα παντως

Επεξ/σία από Gi0
Δημοσ. (επεξεργασμένο)

Ναι το δοκίμασα κι εγώ, πολύ καλή ιδέα!

Δοκίμασα επίσης να σχηματίσω ένα μόρφημα παίρνοντας ένα ένα τα γράμματα από το κείμενο και φαίνεται να είναι σχετικά ακριβές!

Βέβαια όταν υπάρχει τόνος νομίζω ότι σου βγάζει μόνο όσες λέξεις έχουν τόνο στο ίδιο σημείο και επίσης το κεφαλαίο και το μικρό το αναγνωρίζει σαν διαφορετικό γράμμα.

 

 

Αλλά και πάλι βοηθάει πολύ!! Γενικά ευχαριστώ για τον χρόνο σας παιδιά, πραγματικά βοηθάτε!!

 

edit: accipio tnx για το πινακάκι!!

 

Μόλις σου έγραφα κι εγώ το ίδιο :) αλλά το προχώρησα και λιγάκι.

Έκανα τα παρακάτω βήματα με το Acrobat X

Έκανα αποθήκευση του εγγράφου σαν TIFF. Αυτό δημιουργεί ένα αρχείο εικόνας για κάθε σελίδα.

Μετά έκανα δημιουργία pdf από πολλά αρχεία.

Μετά έκανα Αναγνώριση κειμένου σε αυτό το αρχείο

και όλο το κείμενο νομίζω ότι διαβάζεται κανονικά.

 

Το πρόβλημα οφείλεται στο ότι δεν αναγνωρίζεται όλο το κείμενο επειδή η εξαγωγή που κάνανε από το

QuarkXpress περιέχει "renderable (editable) text" και το ocr του Adobe δεν μπορεί να το διαβάσει.

 

Sash sorry εντωμεταξύ παρέλειψα εντελώς αυτό που είπες! Αυτό που έκανες γίνεται μόνο με Acrobat X;

 

edit 2 πως έκανες αναγνώριση κειμένου;

Επεξ/σία από Gilmaru
Δημοσ.

Καλημέρα,

εγώ έχω το Acrobat X Pro και με αυτό το δοκίμασα.

Για την αναγνώρηση κειμένου υπάρχει η σχετική εντολή.

Σου επισυνάπτω μια σελίδα να δεις τη εννοώ.

Την έχω κάνει με τον τρόπο που σου είπα και αναγνωρίζει όλο το κείμενο κανονικά.

Δυστυχώς το αρχείο είναι πολύ μεγάλο για να στο επισυνάψω όλο, αλλά μπορείς να πάρεις μια γεύση.Binder1.pdf

Δημοσ.

Καλημέρα,

εγώ έχω το Acrobat X Pro και με αυτό το δοκίμασα.

Για την αναγνώρηση κειμένου υπάρχει η σχετική εντολή.

Σου επισυνάπτω μια σελίδα να δεις τη εννοώ.

Την έχω κάνει με τον τρόπο που σου είπα και αναγνωρίζει όλο το κείμενο κανονικά.

Δυστυχώς το αρχείο είναι πολύ μεγάλο για να στο επισυνάψω όλο, αλλά μπορείς να πάρεις μια γεύση.Binder1.pdf

 

Σε ευχαριστώ πολύ! Επειδή ενδέχεται να βρω με κάποιο τρόπο το acrobat x pro, μήπως μπορείς να μου πεις βήμα βήμα τι κάνεις και που ακριβώς είναι αυτή η σχετική εντολή?

Δημοσ.

Καλημέρα,

σου γράφω ένα ένα τα βήματα.

1.Ανοίγεις το πρωτότυπο αρχείο

2.Φτιάχνεις ένα φάκελο πχ στην επιφάνεια εργασίας σου

3.Κάνεις το πρωτότυπο αρχείο Save As - Image - TIFF και στη διαδρομή δίνεις το φάκελο που έφτιαξες.

4.Κλείνεις το αρχείο

5.Ανοίγεις το Acrobat X Pro

6.Επιλέγεις το Combine Files into PDF

7.Add files και επιλέγεις όλα τα TIFF που είχες φτιάξει πρίν

8.Τα βάζεις στη σειρά και πατάς Combine Files

9.Το νέο PDF είναι έτοιμο

10.Πηγαίνεις στα Tools-Recognize Text-In This File, All Pages και ΟΚ

11.Είσαι έτοιμος, τώρα αναγνωρίζει όλο το κείμενο.

 

Ελπίζω να σε βοήθησα.

Σημείωση: Η δημιουργία του PDF και η αναγνώριση κειμένου σε τόσες πολλές σελίδες είναι κάπως χρονοβόρα.....

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...