Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Γεια σας παιδια,

 

οπως λεει ο τιτλος. Με ενδιαφερει να συλλεξω κατι στατιστικα απο μια ιστοσελιδα , και να τα βαλω σε μια βαση δεδομενων που συνδεεται με αλλη ιστοσελιδα ωστε να εμφανιζω τα στατιστικα οπως θελω εγω.

 

1) Ποιος ειναι ο πιο απλος τροπος; Με html/php;

 

2) Μπορω να το ρυθμισω να το κανει αυτοματα πχ καθε μερα στην ιδια ωρα προκειμενου να ενημερωθουν αυτοματα τα στατιστικα στη βαση δεδομενων;

 

Εχω κανει σχετικη ερευνα, και εχω πελαγωσει λιγακι, χρειαζομαι μια ξεκαθαρη κατευθυνση αν γινεται!

 

Ευχαριστω!

Δημοσ.

Εαν είσαι familiar με Python είναι σχετικά απλό να ασχοληθείς με το scrapy framework. Αφου στήσεις την βάση σου με την μορφή που θέλεις τα συλλέγεις με το scrapy. Μπορείς να έχεις το script να τρέχει ανα 24 ώρες σχετικά εύκολα στον server (ή με deamon ή προγραμματιστικά). Απο εκεί και πέρα, αφορά την σελίδα που θα στήσεις κάθε πότε θα τραβάει δεδομένα απο την βάση σου.

  • Like 2
Δημοσ.

Εαν είσαι familiar με Python είναι σχετικά απλό να ασχοληθείς με το scrapy framework. Αφου στήσεις την βάση σου με την μορφή που θέλεις τα συλλέγεις με το scrapy. Μπορείς να έχεις το script να τρέχει ανα 24 ώρες σχετικά εύκολα στον server (ή με deamon ή προγραμματιστικά). Απο εκεί και πέρα, αφορά την σελίδα που θα στήσεις κάθε πότε θα τραβάει δεδομένα απο την βάση σου.

 

Ενταξει, ευχαριστω πολυ για τη κατευθυνση που μου εδωσες!!

Δημοσ.

Καταρχήν, πριν κάνεις οτιδήποτε πρέπει να γνωρίζεις αν το site επιτρέπει να πάρεις τα data. Που σημαίνει ότι πρέπει να δεις το robots.txt και τι απαγορεύει (για παράδειγμα, http://www.insomnia.gr/robots.txt)

 

Αν κάτι απαγορεύεται κι εσύ το κάνεις scrape είσαι ηθικά έκθετος. Αυτό μπορεί να μη σημαίνει και τίποτα, ή μπορεί να σημαίνει πολλά. Εξαρτάται από το τι data θα τραβήξεις και πως θα τα αξιοποιήσεις. Αν δηλαδή τα data είναι proprietary κι εσύ τα εκμεταλλεύεσαι για δικό σου κέρδος δεν αποκλείεται να ξυπνήσεις ένα πρωί και να βρεθείς προ δυσάρεστων εκπλήξεων.

 

Από εκεί και πέρα μπορείς να το κάνεις με οποιαδήποτε γλώσσα προγραμματισμού θες, αρκεί να έχεις τις κατάλληλες γνώσεις. Και ναι, μπορείς να το στήσεις να τρέχει όποτε θες. Η Python που σου πρότειναν είναι μια καλή λύση γιατί έχει έτοιμες βιβλιοθήκες.

Δημοσ.

Η ιστοσελίδα που θέλεις να κάνεις scrape χρησιμοποιεί javascript (Ajax calls κτλ); Αν ναι, να ξέρεις ότι σκέτο scrapy δεν θα είναι αρκετό.

Δημοσ.

Elorant, πολυ ενδιαφερουσα η παρατηρηση σου. 

 

Βασικα παιδια θελω να κατεβασω στατιστικα απο τους μπασκετμπολιστες απο τη σελιδα http://www.euroleague.net/

 

Πιο συγκεκριμενα τους παιχτες.. π.χ. www.euroleague.net/competition/players/showplayer?pcode=002100&seasoncode=E2016

 

Και να συνδυασω με τα στατιστικα της ιστοσελιδας του παιχνιδιου fantasy.

 

Να φανταστω πως ειναι παρανομο;

Δημοσ.

Παράνομο δεν είναι. Το robots.txt αποκλείει συγκεκριμένα spiders και για τα υπόλοιπα το μόνο που ζητά είναι 15 δευτερόλεπτα καθυστέρηση μεταξύ κάθε request.

Δημοσ.

Απο οτι τσεκαρα η σελίδα με τα στατιστικα του καθε παικτη, ειναι αρκετα απλη, δεν εχει ajax calls κλπ. Αν γνωρίζεις λιγο c# φτιαχνεις  ενα console application, χρησιμοποιεις και το https://htmlagilitypack.codeplex.com/ για να διαβάζεις πολύ εύκολα το html και ξεμπερδεύεις.

 

Μετά φτιαχνεις ενα task στα windows που του ορίζεις καθε ποτε να τρεξει το .exe σου και εισαι ετοιμος.

 

το μονο ειναι να φτιαξεις και ενα logger να γραφει καθε μερα στην βαση αν κατάφερε να διαβασει η όχι, αν οχι να σου στειλει κανα email κατι, ωστε να το ξερεις, γιατι μπορει να αλλάξουν καποια στιγμή την σελιδα τους οσον αφορα το html.

Δημοσ.

[offtopic]


Disclaimer: Με C# δεν έχω ασχοληθεί ποτέ

Έκανα κλικ και πρόσεξα ότι είναι πρακτικά unmaintained (last update 2012) καθώς και ότι ως documentation υπάρχει ένα μόνο παράδειγμα και ένα CHM με το API. Είναι δυνατόν σε μια τόσο διαδεδομένη γλώσσα σαν τη C# να μην υπάρχουν πιο high profile βιβλιοθήκες;

[/offtopic]

Δημοσ.

Δεν χρεαιζεται τιποτα φοβερο documentation κανει αυτο το απλο πράγμα να διαβαζει html πολυ συγκεκριμενη δουλεια δλδ, αν θες μπορω να σου δωσω sample κωδικα ειναι τυφλοσουρτη

Δημοσ.

[offtopic]

 

Disclaimer: Με C# δεν έχω ασχοληθεί ποτέ

 

Έκανα κλικ και πρόσεξα ότι είναι πρακτικά unmaintained (last update 2012) καθώς και ότι ως documentation υπάρχει ένα μόνο παράδειγμα και ένα CHM με το API. Είναι δυνατόν σε μια τόσο διαδεδομένη γλώσσα σαν τη C# να μην υπάρχουν πιο high profile βιβλιοθήκες;

 

[/offtopic]

 

Οι πραγματικοί άντρες δεν χρειάζονται βιβλιοθήκες. :-D

Δημοσ.

Οι πραγματικοί άντρες δεν χρειάζονται βιβλιοθήκες. :-D

Λολ, οι αντρες που δεν εχουν πολυ χρονο και δεν θελουν να ανακαλύψουν τον τροχο απο την αρχή τις χρειαζονται :) :)

  • Like 1
Δημοσ.

Παιδια, σας ευχαριστω πολυ για τη βοηθεια και τις συμβουλες σας. Τα καταφερα με το python να κατεβασω και να τα βαλω σε csv αρχεια.

 

Καποιος μπορει να μου δωσει κανα guide για να κατανοησω/να μαθω ποτε ειναι παρανομο αν θελω να κατεβασω απο αλλο site ;

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...