Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Γεια χαρά,

 

σκεφτόμουν να κάνω ένα project το οποίο θα βασίζεται στην εύρεση όρων στο ιντερνετ. Για παράδειγμα, με βάση τη μεγαλύτερη εφημερίδα κάθε χώρας να ψάχνει για συγκεκριμένα keywords ανά έτος (εγκληματικότητα, μετανάστευση κλπ). Αφού μαζέψω όλα τα στοιχεία, ύστερα θέλω να κατασκεύασω ένα δείκτη (index).

 

Αυτή είναι η ίδεα. Το θέμα είναι πώς μπορώ να διεκπεραιώσω κάτι τέτοιο. Το μυαλό μου πάει στην Python.

 

Παίδες, έχετε δει κάτι ανάλογο;

Δημοσ.

τα δεδομενα θα τα τραβας απο api απο αυτες τις σελιδες?

γιατι αν δεν ειιναι με api και θες να κανεις web scraping θα αντιμετωπισεις προβληματα.

το πιθανοτερο ειναι να χρειαζεται να προσαρμοζεις συχνα τον κωδικα σου για να δουλευει σωστα για την καθε σελιδα οταν γίνεται μια αλλαγη σε καποια απο αυτες.

 

αν  παλι περνεις απο api ειναι αρκετα πιο σταθερο.

γινεται και με php παντως σχετικα εύκολα. σιγουρα θα γινεται και με python, αναλογα τι χρηση θες να κανεις θα διαλεξεις και τι θα χρησιμοποιησεις. και εννοειται με ποια γλωσσα εισαι πιο εξοικειωμένος.

Δημοσ.

Πάνω απ'ολα προσδιόρισε το τι ακριβώς θέλεις να κάνεις, ώστε να μπορέσεις να βρεις την σωστή προσέγγιση στο πρόβλημα σου!

Δημοσ.

Παιδία είμαι πολύ νεός στον τομέα data mining. Δεν είμαι καν πληροφορικός. Διάβασα για το scraping. Θα δω τι μπορώ να κάνω.

 

Υ.Γ. Ούτε καν ξέρω τι είναι το API. Σκεφτόμουν πως αν οι εφημερίδες έχουν archive να μπορώ να κάνω scraping συγκεκριμένων όρων με βάση την ημερομηνία. 


Παράδειγμα: Έστω ότι θέλεις να κατασκευάσεις ένα δείκτη με βάση keywords όπως: economy, economic, uncertainty, uncertain, σε διαφορετικές χώρες με βάση τη μεγαλύτερη εφημερίδα της χώρας για συγκεκριμένα έτη.

 

Άρα θα πρέπει να φτιάξεις ένα προγραμμα που με βάση την ημερομηνία ψάχνει αυτούς τους όρους (ανάλογα με κάθε χώρα θα είναι και διαφορετικοί, αλλά ας υποθέσουμε πως είσαι σε μια χώρα προς το παρόν) Ύστερα από τα δεδομένα όλης της χρονιάς θα βγάλεις τα aggregates και θα φτιάξεις το δείκτη για τη χώρα i την περίοδο t.

 

Κάπως έτσι το σκέφτομαι.

Δημοσ.

Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις;

 

Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ).

 

Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι

Δημοσ.

Αυτό το χρειάζεσαι ή το κάνεις για να μάθεις;

 

Αν δεν σου δίνουν έτοιμα τα keywords σε κάθε άρθρο, να ξέρεις ότι είναι ένα θέμα και το πως θα εξάγεις μόνος σου την κατηγορία του (πάει δηλαδή το θέμα σε natural language processing, artificial intelligence κτλ).

 

Πάντως πολύ πολύ πιο συνηθισμένο και απλό είναι να δουλέψεις με tweets και όχι με άρθρα εφημερίδων. Στα δίνουν και με API νομίζω κιόλας και το μόνο που θα έχεις να ασχοληθείς είναι το στατιστικό κομμάτι

 

Το χρείαζομαι για εργασία.

 

Το twitter θα ηταν καλό αν είχε και παλιότερα data, π.χ. εγώ χρειάζομαι από το 1990-2010. Όπως καταλαβαίνεις το project είναι αρκετά δύσκολο, ιδιαίτερα για κάποιον που δεν ξέρει.

 

Ευχαριστώ πάντως για το feedback μέχρι τώρα.

Δημοσ.

Δεν υπάρχει περίπτωση να βρεις εφημερίδες που να έχουν online το περιεχόμενό τους πριν από το 2000. Η ελευθεροτυπία είχε αρχείο από 2001, αλλά από ότι βλέπω τώρα δεν δουλεύει το link. Τσέκαρε και αργότερα μήπως και...

 

http://www.enet.gr/online/ss2

 

Εγώ αν ήμουν στη θέση σου, εκτός και αν ήταν για διπλωματική, θα έκανα κάτι άλλο. Έχει υπερβολικά πολύ δουλειά γιατί αυτό.

  • Like 1

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...