Μικρές Απορίες - Σύντομες Απαντήσεις

Praetorianos · 14 Σεπτεμβρίου 2015

[Κολωνακιώτισσα γκόμενα mode on]

Σε περίπτωση που όλα αποτύχουν, αναφορικά με τον αριθμό των pdf:

1) Online
2) Excel macro

edit, αυτό φαίνεται γλυκούλι.

1) Ντέν καταλαβαίνει ελλήνικως, και ενδέχεται να υπάρχουν και τέτοια στα PDF.

Επίσης το copy paste (για να πάρω text) από τα PDFs δεν είναι εφικτό. Ακόμα κι αν ξεπεράσουμε το θέμα του να ανοίγω 1-1 τα PDF, θα πρέπει να τα περνάω και από OCR και έχει και σχήματα μέσα και θα βρίσκω το ένα γράμμα εδώ το άλλο γράμμα στο πουλί της Χάιδως και γενικά σαν την ελληνική οικονομία θα γίνει το αποτέλεσμα.

2) Ζητάει text, ξαναγυρίζουμε στο πρόβλημα (1)

3) Το 3 φαίνεται να κάνει ακριβώς αυτό που ζητάω, thanks for that, διαβάζει και PDFs παρόλο που δεν το γράφει, αλλά ούτε αυτό τα speakαρει τα greek characters. Ξενέρα QQ

Και ένα example σε python:

http://www.yasyf.com/coding/simple-python-word-frequency-count/

Γενικά, σε python είναι αρκετά εύκολο να το κάνεις.

Κοίτα, R & VBA πάει κι έρχεται, Python ούτε καν. Τι κάνω με αυτό "chmod a+x Wordcount.py"? Βρήκα αυτό που λέει ότι κάνει τα Python scripts, executables αλλά ας μην κάνω πειράματα βραδιάτικα. Πως χρησιμοποιώ τον κώδικα που μου έδωσες?

Επίσης, θα έχει πρόβλημα με ελληνικούς χαρακτήρες ή .pdf αρχεία?

Πάντως κι εμένα μου κάνει θεωρητικά εύκολο, γι' αυτό μπερδεύομαι που δεν υπάρχει out of the box λύση. Ωραίο προβληματάκι για προγραμματιστές, χρήσιμο για θεωρητικούς και pattern lovers, τα text analytics & data mining στα ντουζένια τους. Ίσως προτζεκτάκι για το μέλλον αν δε βρω.

Kostas93 · 14 Σεπτεμβρίου 2015

το chmod a+x δίνει δικαιώματα για να μπορεί να τρέχει το wordcount.py το οποίο είναι αυτό που φτιάχνεις.
για να το τρέξεις, απο terminal, αν είσαι σε λίνουξ, πας στο φάκελο που βρίσκεται και πατάς ./wordcount.py και εισοδο (εδώ βάζεις τα pdf που θέλεις να διαβασει με κενό χωρισμένα και καλό είναι να βρίσκονται στο ίδιο σημείο με το .py σου αλλιώς θα πρέπει να βαλεις ολόκληρο το directory).
σε windows λογικά κάπως αντίστοιχα, δεν το έχω ψάξει ποτέ.
Επίσης η python είναι sensitive στη στοίχιση, οπότε αν κάτι το κάνεις copy paste πρόσεξε πως θα το τοποθετήσεις να μη χαλάσεις τη στοίχιση.

Υ.Γ. δεν έχω γνώσεις πάνω στη python πέρα 1-2 πολύ βασικά

groot · 14 Σεπτεμβρίου 2015

pdf και ελληνικά είναι αρκετά πονεμένη ιστορία. Για να μπορέσεις να "διαβάσεις" ελληνικά από pdf πρέπει να συντρέχουν κάποιες προϋποθέσεις.

για το chmod (=change mode) κτλ, όπως τα είπε ο αποπάνως.

Προσωπικά θα έκανα τα εξής:

- How to readlines from pdf python

- how to search for a word in lines python

- how to use dictionaries for frequency counting python

αυτό που ζητάς δεν είναι τίποτα... αλλά είναι κάπως βαρετό και θέλει και την ώρα του για να το κάνεις error safe (όσο πιο πολύ γίνεται at least).

Εάν δεν είναι ευαίσθητη πληροφορία, δεν ρίχνεις το original goal μήπως υπάρχει καλύτερος τρόπος να το επιτύχεις;

Thresh · 14 Σεπτεμβρίου 2015

μικρή απορία?

whodatinsomniaK · 14 Σεπτεμβρίου 2015

Προσωπικά θα έκανα αυτό

pdftotext pd_.pdf - | sed -e 's/ /\n/g' | grep -ci 'word'

Διανθισμένο με ένα for και ένα if.

Αλλά εσύ κάνε δουλειά με αυτό

gokuthelegend · 14 Σεπτεμβρίου 2015

έχω μια λίστα από πόλεις σε αρχείο text γραμμένες σε ξεχωριστή γραμμή την κάθε μία, μία κάτω από την άλλη δηλαδή. Μπορώ με κάποιο τρόπο χρησιμοποιώντας το Google Maps να μου βγάλει τα χιλιόμετρα και την ώρα που χρειάζεται να πάω στην κάθε μία ξεχωριστά από ένα συγκεκριμένο σημείο (ας πούμε το χωριό μου), χωρίς να χρειάζεται να τις πατάω μία μία; Η λίστα προφανώς είναι αρκετά μεγάλη και είναι αρκετά χρονοβόρο να δοκιμάζω χειροκίνητα μία μία τις πόλεις για να μετράω την απόσταση και τον χρόνο.

mylo · 14 Σεπτεμβρίου 2015

πως πάνε απο air βενιζέλος στο μαρούσι και ποιο συγκεκριμένα οτε academy? εννοώ με ποιό μμμ? όχι με ιχ

Lucifer · 14 Σεπτεμβρίου 2015

Προαστιακό, στάση Νερατζιώτισσα.

10 λεπτά με τα πόδια.

mylo · 14 Σεπτεμβρίου 2015

κυριακές έχει συχνά δρομολόγια? ξέρουμε κόστος?

Lucifer · 14 Σεπτεμβρίου 2015

Εδώ τα δρομολόγια. Κόστος 8 ευρώ.

Praetorianos · 14 Σεπτεμβρίου 2015

** αν γίνεται abuse του thread, feel free οι mods να το κάνουν ανεξάρτητο, λογικά όμως ολοκληρώνουμε

Προσωπικά θα έκανα αυτό
pdftotext pd_.pdf - | sed -e 's/ /\n/g' | grep -ci 'word'
Διανθισμένο με ένα for και ένα if.

Αλλά εσύ κάνε δουλειά με αυτό

Δεν καταλαβαίνω το πρώτο. Φαντάζομαι κάποια γραμμη εντολών σε γλώσσα ή Linux, αλλά δεν ξέρω από τέθοια.

Για το δεύτερο, δεν έχω Linux, αλλά θα δοκιμάσω alt προγράμματα, ίσως είμαι τυχερός. Cheers

Εάν δεν είναι ευαίσθητη πληροφορία, δεν ρίχνεις το original goal μήπως υπάρχει καλύτερος τρόπος να το επιτύχεις;

Τριπλό goal βασικά και λίγο Ταλιμπαν ο τρόπος που προσπαθώ να το πετύχω, αλλά ο πιο γρήγορος για να τσεκάρω αν αξίζει να πάω σε ορθόδοξη λύση.

1) work-related, άρα πάμε στο (2)

2) Λαμβάνω σε inbox, dropbox και κοινόχρηστους φακέλους πάρα πολλά αρχεία καθημερινά τα οποία δεν έχω χρόνο να διαβάσω, όχι σκαναριστά, ούτε καν διαγώνια. Θα έπρεπε όμως ή έστω "καλό θα ήταν". Τα αρχεία αυτά μπορεί να είναι από επίσημα καθαρογραμμένα εγγλέζικα reports, μέχρι προσωπικές σημειώσεις, γρήγορα drafts, academic papers, κτλ κτλ, ενώ σε μερικές περιπτώσεις δεν έχουν καν νορμαλ τίτλους, οπότε για να δεις τι είναι πρέπει να τα ανοίξεις, να σκρολλάρεις περιεχόμενο κτλ.

Σκέφτηκα ότι αν υπήρχε ένα πρόγραμμα να τα σκανάρει και να μου πετάει keywords θα μπορούσα αφενός να πάρω μια ιδέα περί τίνος πρόκειται, αφετέρου να δω αμέσως αν κάτι είναι σημαντικό/επίκαιρο, άρα θα έπρεπε να το ψάξω περισσότερο. Φαντάσου κάτι σαν το "trending keywords" στο Twitter, αλλά με πηγές που θα του καθορίσεις εσύ.

πχ όταν έσκασε το "Grexit" σαν όρος ας πούμε για μια εβδομάδα φαντάζομαι ότι το πρόγραμμα θα το έβγαζε στην κορυφή. Τα δε PDFs που το ανέφεραν 3 & 4 φορές, θα έπαιρναν προτεραιότητα κοκ. Αν δε, συνδύαζαν μερικά τις λέξεις "Grexit", "πτώχευση", "χρηματιστήριο", πανηγύρι, δεν χάνεις χρόνο, ούτε κάθεσαι να παίζεις με τις πιθανότητες αν αυτό που διάλεξες να διαβάσεις θα γράφει κάτι σημαντικό ή όχι.

3) Πατώντας στο παραπάνω, πάμε πιο εξειδικευμένα.

Αφού έκανα extract τα keywords και μικρούς συνδυασμούς αυτών από μερικές δεκάδες έγγραφα, θα τα βαθμολογούσα του πόσο σημαντικά ή relevant είναι. Μετά θα έβλεπα αν υπάρχει κάποια σχέση μεταξύ συγκεκριμένων keywords και της βαθμολογίας.

Αν όχι, τι είχαμε, τι χάσαμε.

Αν ναι, σημαίνει ότι αξίζει τον κόπο να κάτσω να φτιάξω εγώ ένα προγραμματάκι (αυτό που είπες δηλαδή) να κάνει ακριβώς αυτό που θέλω, να κάνει την ανάλυση μόνο του (άπειρες έτοιμες βιβλιοθήκες), να το εκπαιδεύσω όπως θέλω και να γλιτώσω δια παντώς με τις άσκοπες αναζητήσεις.

Απλά δεν αξίζει να κάτσω να φτιάξω κάτι από την αρχή αν τα πρώτα αποτελέσματα είναι αποθαρρυντικά, γι αυτό ρώτησα για ετοιματζίδικες λύσεις.

whodatinsomniaK · 14 Σεπτεμβρίου 2015

Αυτό που θες να κάνεις ειναι data mining, έτσι κάνει λεφτά η Google συλλέγοντας απο το Gmail μας.

Υπάρχουν λύσεις που διδάσκονται. Κοίτα στο coursera για παράδειγμα, αλλά θέλει αρκετό κόπο για να τις φέρεις στα μέτρα σου. Αν δεν κάνω λάθος, είπες πως ξες R, αν αυτο ισχύει σίγουρα θα βρεις έτοιμες βαςικές λύσεις.

Η μια γραμμή κώδικας που σου έδωσα παραπάνω κάνει τα εξής:

1. Το pdf σε text

2. Αγνοεί τα κενά

3. Μετράει πόσες φορές υπάρχει η λέξη "word"

Αν έχεις μία λίστα με λέξεις που σε ενδιαφέρουν, μετατρέπεις το word σε μεταβλητή που παίρνει λέξεις απο τη λίστα σου και εκτυπώσεις το αποτέλεσμα σε αρχείο.

Σε αυτο το σημειο, προτεινουμε να φτιάξεις καφέ και να βάλεις Linux.

Valerie_ · 14 Σεπτεμβρίου 2015

πότε σταμάτησε η γυναίκα να παίρνει το επώνυμο του συζύγου με τον γάμο;;

Lucifer · 14 Σεπτεμβρίου 2015

18/2/1983

zio10 · 15 Σεπτεμβρίου 2015

πότε σταμάτησε η γυναίκα να παίρνει το επώνυμο του συζύγου με τον γάμο;;

Ποτέ!

Σύνδεση

Μικρές Απορίες - Σύντομες Απαντήσεις

Προτεινόμενες αναρτήσεις

Praetorianos

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

frenzy

angmar

frenzy

Δημοσιευμένες Εικόνες

Kostas93

groot

Thresh

whodatinsomniaK

gokuthelegend

mylo

Lucifer

mylo

Lucifer

Praetorianos

whodatinsomniaK

Valerie_

Lucifer

zio10

frenzy

angmar

frenzy

Σύνδεση