LiveBanka Δημοσ. 12 Απριλίου 2018 Δημοσ. 12 Απριλίου 2018 Βιβλιοθήκες που χρειάζεστε είναι : -urllib2( pip install urllib2 ) -bs4 ( pip install bs4 ) -os( built-in ) Το script είναι γραμμένο σε python 2.7 είναι γρήγορο και πολύ απλό. Για αυτούς που έχουν ασχοληθεί λίγο παραπάνω με το προγραμματισμό το συγκεκριμένο script δεν κάνει τίποτα παραπάνω από data scrapping στην ιστοσελίδα http://katalogoskiniton.com . Δεν παίρνει κατευθείαν τους αριθμούς αλλά πρώτα κατεβάζει τις σελίδας για να μην κάνει πολλές αιτήσεις στην ιστοσελίδα και σας μπλοκάρι. (Αφού το κατεβάσετε μπορείτε να το αλλάξετε να παίρνει τους αριθμούς κατευθείαν αν θέλετε.) Το πρόγραμμα χωρίζετε σε 3 συναρτήσεις . Στην συνάρτηση download_main() που κατεβάζει τις 7 κύριες σελίδες με τα τριψήφια ( 690,693,694,695,697,698,699 ) αφού λοιπόν κατέβουν τρέχει η συνάρτηση download_sub() και πάει και μπαίνει και στις 7 σελίδες ξεχωριστά και κατεβάζει όλα τα links με νούμερα που έχει μέσα ( Χρονοβόρο κομμάτι ) . Τέλος η τρίτη συνάρτηση η συνάρτηση get_numbers() πάει και ελέγχει το φάκελο sub που έχει η συνάρτηση download_sub() αποθηκεύσει τα links και τραβάει όλους τους αριθμούς που θα βρει και θα τους αποθηκεύσει μέσα σε ένα .txt αρχείο που θα το ονομάσει numbers.txt Για να παίξει το πρόγραμμα χρειάζονται και 2 φάκελοι ο φάκελος main και ο φάκελος sub ώστε να μπορεί το πρόγραμμα τα αποθηκεύσει μέσα τους. Δεν γνωρίζω αν το scrapping επιτρέπετε στην συγκεκριμένη ιστοσελίδα για αυτό σας προτείνω να κατεβάσετε το openvpn να βάλετε τους server από το vpnbook. Κάθε τροποποίηση είναι καλοδεχούμενη. Κατεβάστε το από το git hub : https://github.com/LiveBanka/greek_numbers Κατεβάστε το μέσω terminal : get clone https://github.com/LiveBanka/greek_numbers 3
sundance_kid Δημοσ. 21 Απριλίου 2018 Δημοσ. 21 Απριλίου 2018 Γιατί να τα τραβήξω απο το site, την ώρα που μπορώ να γράψω το αποτέλεσμα ενός counter σε αρχείο (πχ 6930000000 εως 6939999999) και να τα βαφτίσω ανάλογα με το 3ψήφιο πρόθεμα; Το katalogoskiniton.com δεν κάνει κάτι παραπάνω. Ούτε θα καθυστερήσω στο να πάρω τα δεδομένα, ούτε θα δημιουργώ traffic, ούτε θα έχω legal issues με το scrapping στη σελίδα. 2
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα