Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

[Κολωνακιώτισσα γκόμενα mode on]
 

Σε περίπτωση που όλα αποτύχουν, αναφορικά με τον αριθμό των pdf:
 
1) Online
2) Excel macro
 
edit, αυτό φαίνεται γλυκούλι.

1) Ντέν καταλαβαίνει ελλήνικως, και ενδέχεται να υπάρχουν και τέτοια στα PDF.

Επίσης το copy paste (για να πάρω text) από τα PDFs δεν είναι εφικτό. Ακόμα κι αν ξεπεράσουμε το θέμα του να ανοίγω 1-1 τα PDF, θα πρέπει να τα περνάω και από OCR και έχει και σχήματα μέσα και θα βρίσκω το ένα γράμμα εδώ το άλλο γράμμα στο πουλί της Χάιδως και γενικά σαν την ελληνική οικονομία θα γίνει το αποτέλεσμα.

2) Ζητάει text, ξαναγυρίζουμε στο πρόβλημα (1)

3) Το 3 φαίνεται να κάνει ακριβώς αυτό που ζητάω, thanks for that, διαβάζει και PDFs παρόλο που δεν το γράφει, αλλά  ούτε αυτό τα speakαρει τα greek characters. Ξενέρα QQ
 

Και ένα example σε python:
 
http://www.yasyf.com/coding/simple-python-word-frequency-count/
 
Γενικά, σε python είναι αρκετά εύκολο να το κάνεις.


Κοίτα, R & VBA πάει κι έρχεται, Python ούτε καν. Τι κάνω με αυτό "chmod a+x Wordcount.py"? Βρήκα αυτό που λέει ότι κάνει τα Python scripts, executables αλλά ας μην κάνω πειράματα βραδιάτικα. Πως χρησιμοποιώ τον κώδικα που μου έδωσες?

Επίσης, θα έχει πρόβλημα με ελληνικούς χαρακτήρες ή .pdf αρχεία?

Πάντως κι εμένα μου κάνει θεωρητικά εύκολο, γι' αυτό μπερδεύομαι που δεν υπάρχει out of the box λύση. Ωραίο προβληματάκι για προγραμματιστές, χρήσιμο για θεωρητικούς και pattern lovers, τα text analytics & data mining στα ντουζένια τους. Ίσως προτζεκτάκι για το μέλλον αν δε βρω.

  • Απαντ. 18,3k
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Δημοσ.

το chmod a+x δίνει δικαιώματα για να μπορεί να τρέχει το wordcount.py το οποίο είναι αυτό που φτιάχνεις.
για να το τρέξεις, απο terminal, αν είσαι σε λίνουξ, πας στο φάκελο που βρίσκεται και πατάς ./wordcount.py και εισοδο (εδώ βάζεις τα pdf που θέλεις να διαβασει με κενό χωρισμένα και καλό είναι να βρίσκονται στο ίδιο σημείο με το .py σου αλλιώς θα πρέπει να βαλεις ολόκληρο το directory).
σε windows λογικά κάπως αντίστοιχα, δεν το έχω ψάξει ποτέ.
Επίσης η python είναι sensitive στη στοίχιση, οπότε αν κάτι το κάνεις copy paste πρόσεξε πως θα το τοποθετήσεις να μη χαλάσεις τη στοίχιση.

Υ.Γ. δεν έχω γνώσεις πάνω στη python πέρα 1-2 πολύ βασικά

  • Like 1
Δημοσ.

pdf και ελληνικά είναι αρκετά πονεμένη ιστορία. Για να μπορέσεις να "διαβάσεις" ελληνικά από pdf πρέπει να συντρέχουν κάποιες προϋποθέσεις. 

 

για το chmod (=change mode) κτλ, όπως τα είπε ο αποπάνως. 

 

 

Προσωπικά θα έκανα τα εξής:

 

- How to readlines from pdf python

- how to search for a word in lines python

- how to use dictionaries for frequency counting python

 

αυτό που ζητάς δεν είναι τίποτα... αλλά είναι κάπως βαρετό και θέλει και την ώρα του για να το κάνεις error safe (όσο πιο πολύ γίνεται at least). 

 

 

Εάν δεν είναι ευαίσθητη πληροφορία, δεν ρίχνεις το original goal μήπως υπάρχει καλύτερος τρόπος να το επιτύχεις; 

  • Like 1
Δημοσ.

έχω μια λίστα από πόλεις σε αρχείο text γραμμένες σε ξεχωριστή γραμμή την κάθε μία, μία κάτω από την άλλη δηλαδή. Μπορώ με κάποιο τρόπο χρησιμοποιώντας το Google Maps να μου βγάλει τα χιλιόμετρα και την ώρα που χρειάζεται να πάω στην κάθε μία ξεχωριστά από ένα συγκεκριμένο σημείο (ας πούμε το χωριό μου), χωρίς να χρειάζεται να τις πατάω μία μία; Η λίστα προφανώς είναι αρκετά μεγάλη και είναι αρκετά χρονοβόρο να δοκιμάζω χειροκίνητα μία μία τις πόλεις για να μετράω την απόσταση και τον χρόνο.

Δημοσ.

** αν γίνεται abuse του thread, feel free οι mods να το κάνουν ανεξάρτητο, λογικά όμως ολοκληρώνουμε
 

 

Προσωπικά θα έκανα αυτό

pdftotext pd_.pdf - | sed -e 's/ /\n/g' | grep -ci 'word'
Διανθισμένο με ένα for και ένα if.

Αλλά εσύ κάνε δουλειά με αυτό

 

Δεν καταλαβαίνω το πρώτο. Φαντάζομαι κάποια γραμμη εντολών σε γλώσσα ή Linux, αλλά δεν ξέρω από τέθοια.

Για το δεύτερο, δεν έχω Linux, αλλά θα δοκιμάσω alt προγράμματα, ίσως είμαι τυχερός. Cheers
 

Εάν δεν είναι ευαίσθητη πληροφορία, δεν ρίχνεις το original goal μήπως υπάρχει καλύτερος τρόπος να το επιτύχεις;

Τριπλό goal βασικά και λίγο Ταλιμπαν ο τρόπος που προσπαθώ να το πετύχω, αλλά ο πιο γρήγορος για να τσεκάρω αν αξίζει να πάω σε ορθόδοξη λύση.

1) work-related, άρα πάμε στο (2)

2) Λαμβάνω σε inbox, dropbox και κοινόχρηστους φακέλους πάρα πολλά αρχεία καθημερινά τα οποία δεν έχω χρόνο να διαβάσω, όχι σκαναριστά, ούτε καν διαγώνια. Θα έπρεπε όμως ή έστω "καλό θα ήταν". Τα αρχεία αυτά μπορεί να είναι από επίσημα καθαρογραμμένα εγγλέζικα reports, μέχρι προσωπικές σημειώσεις, γρήγορα drafts, academic papers, κτλ κτλ, ενώ σε μερικές περιπτώσεις δεν έχουν καν νορμαλ τίτλους, οπότε για να δεις τι είναι πρέπει να τα ανοίξεις, να σκρολλάρεις περιεχόμενο κτλ.

Σκέφτηκα ότι αν υπήρχε ένα πρόγραμμα να τα σκανάρει και να μου πετάει keywords θα μπορούσα αφενός να πάρω μια ιδέα περί τίνος πρόκειται, αφετέρου να δω αμέσως αν κάτι είναι σημαντικό/επίκαιρο, άρα θα έπρεπε να το ψάξω περισσότερο. Φαντάσου κάτι σαν το "trending keywords" στο Twitter, αλλά με πηγές που θα του καθορίσεις εσύ.

πχ όταν έσκασε το "Grexit" σαν όρος ας πούμε για μια εβδομάδα φαντάζομαι ότι το πρόγραμμα θα το έβγαζε στην κορυφή. Τα δε PDFs που το ανέφεραν 3 & 4 φορές, θα έπαιρναν προτεραιότητα κοκ. Αν δε, συνδύαζαν μερικά τις λέξεις "Grexit", "πτώχευση", "χρηματιστήριο", πανηγύρι, δεν χάνεις χρόνο, ούτε κάθεσαι να παίζεις με τις πιθανότητες αν αυτό που διάλεξες να διαβάσεις θα γράφει κάτι σημαντικό ή όχι.

3) Πατώντας στο παραπάνω, πάμε πιο εξειδικευμένα.

Αφού έκανα extract τα keywords και μικρούς συνδυασμούς αυτών από μερικές δεκάδες έγγραφα, θα τα βαθμολογούσα του πόσο σημαντικά ή relevant είναι. Μετά θα έβλεπα αν υπάρχει κάποια σχέση μεταξύ συγκεκριμένων keywords και της βαθμολογίας.
 
Αν όχι, τι είχαμε, τι χάσαμε.

Αν ναι, σημαίνει ότι αξίζει τον κόπο να κάτσω να φτιάξω εγώ ένα προγραμματάκι (αυτό που είπες δηλαδή) να κάνει ακριβώς αυτό που θέλω, να κάνει την ανάλυση μόνο του (άπειρες έτοιμες βιβλιοθήκες), να το εκπαιδεύσω όπως θέλω και να γλιτώσω δια παντώς με τις άσκοπες αναζητήσεις.

Απλά δεν αξίζει να κάτσω να φτιάξω κάτι από την αρχή αν τα πρώτα αποτελέσματα είναι αποθαρρυντικά, γι αυτό ρώτησα για ετοιματζίδικες λύσεις.

 

Δημοσ.

Αυτό που θες να κάνεις ειναι data mining, έτσι κάνει λεφτά η Google συλλέγοντας απο το Gmail μας.

 

Υπάρχουν λύσεις που διδάσκονται. Κοίτα στο coursera για παράδειγμα, αλλά θέλει αρκετό κόπο για να τις φέρεις στα μέτρα σου. Αν δεν κάνω λάθος, είπες πως ξες R, αν αυτο ισχύει σίγουρα θα βρεις έτοιμες βαςικές λύσεις.

 

Η μια γραμμή κώδικας που σου έδωσα παραπάνω κάνει τα εξής:

1. Το pdf σε text

2. Αγνοεί τα κενά

3. Μετράει πόσες φορές υπάρχει η λέξη "word"

 

Αν έχεις μία λίστα με λέξεις που σε ενδιαφέρουν, μετατρέπεις το word σε μεταβλητή που παίρνει λέξεις απο τη λίστα σου και εκτυπώσεις το αποτέλεσμα σε αρχείο.

 

Σε αυτο το σημειο, προτεινουμε να φτιάξεις καφέ και να βάλεις Linux.

  • Like 1
Επισκέπτης
Αυτό το θέμα είναι πλέον κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...