Δημιουργία βάσης δεδομένων που θα στηρίζεται σε online search

Eru Iluvatar · 7 Οκτωβρίου 2014

Γεια χαρά,

σκεφτόμουν να κάνω ένα project το οποίο θα βασίζεται στην εύρεση όρων στο ιντερνετ. Για παράδειγμα, με βάση τη μεγαλύτερη εφημερίδα κάθε χώρας να ψάχνει για συγκεκριμένα keywords ανά έτος (εγκληματικότητα, μετανάστευση κλπ). Αφού μαζέψω όλα τα στοιχεία, ύστερα θέλω να κατασκεύασω ένα δείκτη (index).

Αυτή είναι η ίδεα. Το θέμα είναι πώς μπορώ να διεκπεραιώσω κάτι τέτοιο. Το μυαλό μου πάει στην Python.

Παίδες, έχετε δει κάτι ανάλογο;

nikos_90 · 7 Οκτωβρίου 2014

τα δεδομενα θα τα τραβας απο api απο αυτες τις σελιδες?

γιατι αν δεν ειιναι με api και θες να κανεις web scraping θα αντιμετωπισεις προβληματα.

το πιθανοτερο ειναι να χρειαζεται να προσαρμοζεις συχνα τον κωδικα σου για να δουλευει σωστα για την καθε σελιδα οταν γίνεται μια αλλαγη σε καποια απο αυτες.

αν παλι περνεις απο api ειναι αρκετα πιο σταθερο.

γινεται και με php παντως σχετικα εύκολα. σιγουρα θα γινεται και με python, αναλογα τι χρηση θες να κανεις θα διαλεξεις και τι θα χρησιμοποιησεις. και εννοειται με ποια γλωσσα εισαι πιο εξοικειωμένος.

pmav99 · 7 Οκτωβρίου 2014

Με όλες τις γλώσσες του ντουνιά γίνεται. Χρησιμοποίησε ό,τι ξέρεις καλύτερα

leonidas_fs · 8 Οκτωβρίου 2014

Πάνω απ'ολα προσδιόρισε το τι ακριβώς θέλεις να κάνεις, ώστε να μπορέσεις να βρεις την σωστή προσέγγιση στο πρόβλημα σου!

Eru Iluvatar · 8 Οκτωβρίου 2014

Παιδία είμαι πολύ νεός στον τομέα data mining. Δεν είμαι καν πληροφορικός. Διάβασα για το scraping. Θα δω τι μπορώ να κάνω.

Υ.Γ. Ούτε καν ξέρω τι είναι το API. Σκεφτόμουν πως αν οι εφημερίδες έχουν archive να μπορώ να κάνω scraping συγκεκριμένων όρων με βάση την ημερομηνία.

Παράδειγμα: Έστω ότι θέλεις να κατασκευάσεις ένα δείκτη με βάση keywords όπως: economy, economic, uncertainty, uncertain, σε διαφορετικές χώρες με βάση τη μεγαλύτερη εφημερίδα της χώρας για συγκεκριμένα έτη.

Άρα θα πρέπει να φτιάξεις ένα προγραμμα που με βάση την ημερομηνία ψάχνει αυτούς τους όρους (ανάλογα με κάθε χώρα θα είναι και διαφορετικοί, αλλά ας υποθέσουμε πως είσαι σε μια χώρα προς το παρόν) Ύστερα από τα δεδομένα όλης της χρονιάς θα βγάλεις τα aggregates και θα φτιάξεις το δείκτη για τη χώρα i την περίοδο t.

Κάπως έτσι το σκέφτομαι.

pmav99 · 8 Οκτωβρίου 2014

Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις;

Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ).

Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι

Eru Iluvatar · 8 Οκτωβρίου 2014

Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις;

Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ).

Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι

Το χρείαζομαι για εργασία.

Το twitter θα ηταν καλό αν είχε και παλιότερα data, π.χ. εγώ χρειάζομαι από το 1990-2010. Όπως καταλαβαίνεις το project είναι αρκετά δύσκολο, ιδιαίτερα για κάποιον που δεν ξέρει.

Ευχαριστώ πάντως για το feedback μέχρι τώρα.

pmav99 · 8 Οκτωβρίου 2014

Δεν υπάρχει περίπτωση να βρεις εφημερίδες που να έχουν online το περιεχόμενό τους πριν από το 2000. Η ελευθεροτυπία είχε αρχείο από 2001, αλλά από ότι βλέπω τώρα δεν δουλεύει το link. Τσέκαρε και αργότερα μήπως και...

http://www.enet.gr/online/ss2

Εγώ αν ήμουν στη θέση σου, εκτός και αν ήταν για διπλωματική, θα έκανα κάτι άλλο. Έχει υπερβολικά πολύ δουλειά γιατί αυτό.

Σύνδεση

Δημιουργία βάσης δεδομένων που θα στηρίζεται σε online search

Προτεινόμενες αναρτήσεις

Eru Iluvatar

nikos_90

pmav99

leonidas_fs

Eru Iluvatar

pmav99

Eru Iluvatar

pmav99

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση