Sartiv Δημοσ. 9 Ιανουαρίου 2017 Δημοσ. 9 Ιανουαρίου 2017 Γεια σας παιδια, οπως λεει ο τιτλος. Με ενδιαφερει να συλλεξω κατι στατιστικα απο μια ιστοσελιδα , και να τα βαλω σε μια βαση δεδομενων που συνδεεται με αλλη ιστοσελιδα ωστε να εμφανιζω τα στατιστικα οπως θελω εγω. 1) Ποιος ειναι ο πιο απλος τροπος; Με html/php; 2) Μπορω να το ρυθμισω να το κανει αυτοματα πχ καθε μερα στην ιδια ωρα προκειμενου να ενημερωθουν αυτοματα τα στατιστικα στη βαση δεδομενων; Εχω κανει σχετικη ερευνα, και εχω πελαγωσει λιγακι, χρειαζομαι μια ξεκαθαρη κατευθυνση αν γινεται! Ευχαριστω!
jimisvog Δημοσ. 9 Ιανουαρίου 2017 Δημοσ. 9 Ιανουαρίου 2017 Εαν είσαι familiar με Python είναι σχετικά απλό να ασχοληθείς με το scrapy framework. Αφου στήσεις την βάση σου με την μορφή που θέλεις τα συλλέγεις με το scrapy. Μπορείς να έχεις το script να τρέχει ανα 24 ώρες σχετικά εύκολα στον server (ή με deamon ή προγραμματιστικά). Απο εκεί και πέρα, αφορά την σελίδα που θα στήσεις κάθε πότε θα τραβάει δεδομένα απο την βάση σου. 2
Sartiv Δημοσ. 9 Ιανουαρίου 2017 Μέλος Δημοσ. 9 Ιανουαρίου 2017 Εαν είσαι familiar με Python είναι σχετικά απλό να ασχοληθείς με το scrapy framework. Αφου στήσεις την βάση σου με την μορφή που θέλεις τα συλλέγεις με το scrapy. Μπορείς να έχεις το script να τρέχει ανα 24 ώρες σχετικά εύκολα στον server (ή με deamon ή προγραμματιστικά). Απο εκεί και πέρα, αφορά την σελίδα που θα στήσεις κάθε πότε θα τραβάει δεδομένα απο την βάση σου. Ενταξει, ευχαριστω πολυ για τη κατευθυνση που μου εδωσες!!
Επισκέπτης Δημοσ. 9 Ιανουαρίου 2017 Δημοσ. 9 Ιανουαρίου 2017 Καταρχήν, πριν κάνεις οτιδήποτε πρέπει να γνωρίζεις αν το site επιτρέπει να πάρεις τα data. Που σημαίνει ότι πρέπει να δεις το robots.txt και τι απαγορεύει (για παράδειγμα, http://www.insomnia.gr/robots.txt) Αν κάτι απαγορεύεται κι εσύ το κάνεις scrape είσαι ηθικά έκθετος. Αυτό μπορεί να μη σημαίνει και τίποτα, ή μπορεί να σημαίνει πολλά. Εξαρτάται από το τι data θα τραβήξεις και πως θα τα αξιοποιήσεις. Αν δηλαδή τα data είναι proprietary κι εσύ τα εκμεταλλεύεσαι για δικό σου κέρδος δεν αποκλείεται να ξυπνήσεις ένα πρωί και να βρεθείς προ δυσάρεστων εκπλήξεων. Από εκεί και πέρα μπορείς να το κάνεις με οποιαδήποτε γλώσσα προγραμματισμού θες, αρκεί να έχεις τις κατάλληλες γνώσεις. Και ναι, μπορείς να το στήσεις να τρέχει όποτε θες. Η Python που σου πρότειναν είναι μια καλή λύση γιατί έχει έτοιμες βιβλιοθήκες.
pmav99 Δημοσ. 9 Ιανουαρίου 2017 Δημοσ. 9 Ιανουαρίου 2017 Η ιστοσελίδα που θέλεις να κάνεις scrape χρησιμοποιεί javascript (Ajax calls κτλ); Αν ναι, να ξέρεις ότι σκέτο scrapy δεν θα είναι αρκετό.
Sartiv Δημοσ. 9 Ιανουαρίου 2017 Μέλος Δημοσ. 9 Ιανουαρίου 2017 Elorant, πολυ ενδιαφερουσα η παρατηρηση σου. Βασικα παιδια θελω να κατεβασω στατιστικα απο τους μπασκετμπολιστες απο τη σελιδα http://www.euroleague.net/ Πιο συγκεκριμενα τους παιχτες.. π.χ. www.euroleague.net/competition/players/showplayer?pcode=002100&seasoncode=E2016 Και να συνδυασω με τα στατιστικα της ιστοσελιδας του παιχνιδιου fantasy. Να φανταστω πως ειναι παρανομο;
Επισκέπτης Δημοσ. 9 Ιανουαρίου 2017 Δημοσ. 9 Ιανουαρίου 2017 Παράνομο δεν είναι. Το robots.txt αποκλείει συγκεκριμένα spiders και για τα υπόλοιπα το μόνο που ζητά είναι 15 δευτερόλεπτα καθυστέρηση μεταξύ κάθε request.
Amaretos Δημοσ. 10 Ιανουαρίου 2017 Δημοσ. 10 Ιανουαρίου 2017 Απο οτι τσεκαρα η σελίδα με τα στατιστικα του καθε παικτη, ειναι αρκετα απλη, δεν εχει ajax calls κλπ. Αν γνωρίζεις λιγο c# φτιαχνεις ενα console application, χρησιμοποιεις και το https://htmlagilitypack.codeplex.com/ για να διαβάζεις πολύ εύκολα το html και ξεμπερδεύεις. Μετά φτιαχνεις ενα task στα windows που του ορίζεις καθε ποτε να τρεξει το .exe σου και εισαι ετοιμος. το μονο ειναι να φτιαξεις και ενα logger να γραφει καθε μερα στην βαση αν κατάφερε να διαβασει η όχι, αν οχι να σου στειλει κανα email κατι, ωστε να το ξερεις, γιατι μπορει να αλλάξουν καποια στιγμή την σελιδα τους οσον αφορα το html.
pmav99 Δημοσ. 10 Ιανουαρίου 2017 Δημοσ. 10 Ιανουαρίου 2017 [offtopic] Disclaimer: Με C# δεν έχω ασχοληθεί ποτέΈκανα κλικ και πρόσεξα ότι είναι πρακτικά unmaintained (last update 2012) καθώς και ότι ως documentation υπάρχει ένα μόνο παράδειγμα και ένα CHM με το API. Είναι δυνατόν σε μια τόσο διαδεδομένη γλώσσα σαν τη C# να μην υπάρχουν πιο high profile βιβλιοθήκες; [/offtopic]
Amaretos Δημοσ. 10 Ιανουαρίου 2017 Δημοσ. 10 Ιανουαρίου 2017 Δεν χρεαιζεται τιποτα φοβερο documentation κανει αυτο το απλο πράγμα να διαβαζει html πολυ συγκεκριμενη δουλεια δλδ, αν θες μπορω να σου δωσω sample κωδικα ειναι τυφλοσουρτη
Επισκέπτης Δημοσ. 11 Ιανουαρίου 2017 Δημοσ. 11 Ιανουαρίου 2017 [offtopic] Disclaimer: Με C# δεν έχω ασχοληθεί ποτέ Έκανα κλικ και πρόσεξα ότι είναι πρακτικά unmaintained (last update 2012) καθώς και ότι ως documentation υπάρχει ένα μόνο παράδειγμα και ένα CHM με το API. Είναι δυνατόν σε μια τόσο διαδεδομένη γλώσσα σαν τη C# να μην υπάρχουν πιο high profile βιβλιοθήκες; [/offtopic] Οι πραγματικοί άντρες δεν χρειάζονται βιβλιοθήκες.
Amaretos Δημοσ. 11 Ιανουαρίου 2017 Δημοσ. 11 Ιανουαρίου 2017 Οι πραγματικοί άντρες δεν χρειάζονται βιβλιοθήκες. Λολ, οι αντρες που δεν εχουν πολυ χρονο και δεν θελουν να ανακαλύψουν τον τροχο απο την αρχή τις χρειαζονται :) 1
pmav99 Δημοσ. 11 Ιανουαρίου 2017 Δημοσ. 11 Ιανουαρίου 2017 It's time to come out of the closet... I am a sissy, I admit it
Sartiv Δημοσ. 11 Ιανουαρίου 2017 Μέλος Δημοσ. 11 Ιανουαρίου 2017 Παιδια, σας ευχαριστω πολυ για τη βοηθεια και τις συμβουλες σας. Τα καταφερα με το python να κατεβασω και να τα βαλω σε csv αρχεια. Καποιος μπορει να μου δωσει κανα guide για να κατανοησω/να μαθω ποτε ειναι παρανομο αν θελω να κατεβασω απο αλλο site ;
Επισκέπτης Δημοσ. 11 Ιανουαρίου 2017 Δημοσ. 11 Ιανουαρίου 2017 Θα κοιτάς πάντα το robots.txt. Βάζεις το domain του site και στο τέλος robots.txt. Π.χ.: http://www.insomnia.gr/robots.txt http://www.plaisio.gr/robots.txt http://edition.cnn.com/robots.txt Και πάει λέγοντας. Αν εκεί έχει κάτι disallow δεν το κάνεις scrape.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα