drmetal Δημοσ. 6 Φεβρουαρίου 2010 Δημοσ. 6 Φεβρουαρίου 2010 Θέλω να δημιουργήσω (ή να βρώ αν υπάρχει έτοιμη) μια λίστα με ενεργά domains (google.com, insomnia.gr κλπ κλπ οτιδήποτε domains οπουδήποτε), όσο πιο μεγάλη τόσο το καλύτερο. Η μοναδική ιδέα που σκέφτηκα μέχρι τώρα είναι να δημιουργώ τυχαία search queries στο google και να φιλτράρω τα αποτελέσματα. Το θέμα είναι, μάλλον η google θα έχει όριο στα search queries που μπορεί κάποιος (ένα πρόγραμμα) να κάνει σε ένα χρονικό διάστημα. (Μην γραφω κώδικα 2 ώρες για να κολλήσω εκεί) Ξέρεις κάποιος κάτι για αυτό ? Αλλη ιδέα είναι το crawling, αλλά είναι αρκετά πιο δύσκολο να προγραμματιστεί. Αν έχετε κάποιες άλλες ιδέες πως να δημιουργήσω/βρω μια τέτοια λίστα, ή αν ξέρετε κάποιο έτοιμο πρόγραμμα που κάνει κάτι ανάλογο πείτε το Ευχαριστώ!
parsifal Δημοσ. 6 Φεβρουαρίου 2010 Δημοσ. 6 Φεβρουαρίου 2010 Το θέμα είναι, μάλλον η google θα έχει όριο στα search queries που μπορεί κάποιος (ένα πρόγραμμα) να κάνει σε ένα χρονικό διάστημα. (Μην γραφω κώδικα 2 ώρες για να κολλήσω εκεί) Ναι, ισχύει απόλυτα αυτό που λες. Έπεσα τις προάλλες επάνω σε αυτήν την περίπτωση. Το κορυφαίο είναι ότι δεν έστελνα καν με αυτοματοποιημένο τρόπο queries, αλλά με το χέρι, απλώς με αρκετά γρήγορο ρυθμό! Από ένα σημείο και μετά, άρχισε να μου βγάζει CAPTCHA για να επιβεβαιώσω ότι δεν είμαι bot, αλλά παρ' ό,τι απάντησα σωστά, έγινε προσωρινό ban της IP μου! Υπάρχουν πάντως έτοιμοι crawlers, ίσως κάποιοι να σε βολεύουν και να μην χρειαστεί να υλοποιήσεις δικό σου από το μηδέν: http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers
drmetal Δημοσ. 6 Φεβρουαρίου 2010 Μέλος Δημοσ. 6 Φεβρουαρίου 2010 Καλά φαντάστηκα. Οι crawlers δεν είναι optimized για την δουλειά που θέλω, πρέπει να γίνουν αλλαγές στο κώδικα ή να βρώ κάποιο που κάνει κάτι παρόμοιο. θα το κάνω αυτό αν δεν βρεθεί καλύτερη ιδέα
Προτεινόμενες αναρτήσεις
Αρχειοθετημένο
Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.