Eru Iluvatar Δημοσ. 7 Οκτωβρίου 2014 Δημοσ. 7 Οκτωβρίου 2014 Γεια χαρά, σκεφτόμουν να κάνω ένα project το οποίο θα βασίζεται στην εύρεση όρων στο ιντερνετ. Για παράδειγμα, με βάση τη μεγαλύτερη εφημερίδα κάθε χώρας να ψάχνει για συγκεκριμένα keywords ανά έτος (εγκληματικότητα, μετανάστευση κλπ). Αφού μαζέψω όλα τα στοιχεία, ύστερα θέλω να κατασκεύασω ένα δείκτη (index). Αυτή είναι η ίδεα. Το θέμα είναι πώς μπορώ να διεκπεραιώσω κάτι τέτοιο. Το μυαλό μου πάει στην Python. Παίδες, έχετε δει κάτι ανάλογο;
nikos_90 Δημοσ. 7 Οκτωβρίου 2014 Δημοσ. 7 Οκτωβρίου 2014 τα δεδομενα θα τα τραβας απο api απο αυτες τις σελιδες? γιατι αν δεν ειιναι με api και θες να κανεις web scraping θα αντιμετωπισεις προβληματα. το πιθανοτερο ειναι να χρειαζεται να προσαρμοζεις συχνα τον κωδικα σου για να δουλευει σωστα για την καθε σελιδα οταν γίνεται μια αλλαγη σε καποια απο αυτες. αν παλι περνεις απο api ειναι αρκετα πιο σταθερο. γινεται και με php παντως σχετικα εύκολα. σιγουρα θα γινεται και με python, αναλογα τι χρηση θες να κανεις θα διαλεξεις και τι θα χρησιμοποιησεις. και εννοειται με ποια γλωσσα εισαι πιο εξοικειωμένος.
pmav99 Δημοσ. 7 Οκτωβρίου 2014 Δημοσ. 7 Οκτωβρίου 2014 Με όλες τις γλώσσες του ντουνιά γίνεται. Χρησιμοποίησε ό,τι ξέρεις καλύτερα
leonidas_fs Δημοσ. 8 Οκτωβρίου 2014 Δημοσ. 8 Οκτωβρίου 2014 Πάνω απ'ολα προσδιόρισε το τι ακριβώς θέλεις να κάνεις, ώστε να μπορέσεις να βρεις την σωστή προσέγγιση στο πρόβλημα σου!
Eru Iluvatar Δημοσ. 8 Οκτωβρίου 2014 Μέλος Δημοσ. 8 Οκτωβρίου 2014 Παιδία είμαι πολύ νεός στον τομέα data mining. Δεν είμαι καν πληροφορικός. Διάβασα για το scraping. Θα δω τι μπορώ να κάνω. Υ.Γ. Ούτε καν ξέρω τι είναι το API. Σκεφτόμουν πως αν οι εφημερίδες έχουν archive να μπορώ να κάνω scraping συγκεκριμένων όρων με βάση την ημερομηνία. Παράδειγμα: Έστω ότι θέλεις να κατασκευάσεις ένα δείκτη με βάση keywords όπως: economy, economic, uncertainty, uncertain, σε διαφορετικές χώρες με βάση τη μεγαλύτερη εφημερίδα της χώρας για συγκεκριμένα έτη. Άρα θα πρέπει να φτιάξεις ένα προγραμμα που με βάση την ημερομηνία ψάχνει αυτούς τους όρους (ανάλογα με κάθε χώρα θα είναι και διαφορετικοί, αλλά ας υποθέσουμε πως είσαι σε μια χώρα προς το παρόν) Ύστερα από τα δεδομένα όλης της χρονιάς θα βγάλεις τα aggregates και θα φτιάξεις το δείκτη για τη χώρα i την περίοδο t. Κάπως έτσι το σκέφτομαι.
pmav99 Δημοσ. 8 Οκτωβρίου 2014 Δημοσ. 8 Οκτωβρίου 2014 Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις; Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ). Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι
Eru Iluvatar Δημοσ. 8 Οκτωβρίου 2014 Μέλος Δημοσ. 8 Οκτωβρίου 2014 Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις; Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ). Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι Το χρείαζομαι για εργασία. Το twitter θα ηταν καλό αν είχε και παλιότερα data, π.χ. εγώ χρειάζομαι από το 1990-2010. Όπως καταλαβαίνεις το project είναι αρκετά δύσκολο, ιδιαίτερα για κάποιον που δεν ξέρει. Ευχαριστώ πάντως για το feedback μέχρι τώρα.
pmav99 Δημοσ. 8 Οκτωβρίου 2014 Δημοσ. 8 Οκτωβρίου 2014 Δεν υπάρχει περίπτωση να βρεις εφημερίδες που να έχουν online το περιεχόμενό τους πριν από το 2000. Η ελευθεροτυπία είχε αρχείο από 2001, αλλά από ότι βλέπω τώρα δεν δουλεύει το link. Τσέκαρε και αργότερα μήπως και... http://www.enet.gr/online/ss2 Εγώ αν ήμουν στη θέση σου, εκτός και αν ήταν για διπλωματική, θα έκανα κάτι άλλο. Έχει υπερβολικά πολύ δουλειά γιατί αυτό. 1
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα