λειτουργια ενος robot crawler

mastmaster · 26 Σεπτεμβρίου 2010

Ρε παιδιά ολοι γνωρίζεται το skroutz...αν διαβάσετε καπου εκει μέσα λεει πως μπορείς να βάλεις τα προιόντα σου μέσω rss/xml ή με το robot toy skroutz οπου θα σκανάρει τα προιόντα σου απο το eshop σου!

Απορια σχετικά με το robot

Πως γίνεται κάτι τέτοιο;

πως καταλαβαίνει η μηχανή απο μια γραμμή κειμένου θα αρπάξει αυτό που θέλει!

Θέλω να φτιάξω και εγώ ενα τέτοιο robot!

27 Σεπτεμβρίου 2010

Αν δεν υπάρχει ένα σαφώς ορισμένο xml schema τότε η διαδικασία λέγεται screen scraping.

Αυτό που κάνεις είναι να "τραβήξεις" τον κώδικα της σελίδας (με curl για php, με node.js για javascript, με nokogiri για ruby..κ.α) και στη συνέχεια παίρνεις μέσω dom manipulation (είτε έμμεσα, είτε άμεσα) τα html elements που σε ενδιαφέρουν...η δομή της σελίδας της περισσότερες φορές δεν αλλάζει, το μόνο που αλλάζει είναι τα προϊόντα (στην προκειμένη περίπτωση) (άρα ξέρεις σίγουρα ποια html elements πρέπει να πάρεις για να πάρεις την τιμή και την περιγραφή του προϊόντος).

Κάποτε είχα φτιαξει (hacked together μάλλον) έναν υποτυπώδη scraper σε php και jquery... (έπερνα μέσω curl τη σελίδα/ σελίδες και στη συνέχεια με dom traversing και dom manipulation έπαιρνα τις πληροφορίες που ήθελα)...αυτός ήταν ένας απλοϊκός τρόπος...υπάρχουν πιο έξυπνες/απλές λύσεις...

poscaman · 27 Σεπτεμβρίου 2010

Αν δεν υπάρχει ένα σαφώς ορισμένο xml schema τότε η διαδικασία λέγεται screen scraping.
Αυτό που κάνεις είναι να "τραβήξεις" τον κώδικα της σελίδας (με curl για php, με node.js για javascript, με nokogiri για ruby..κ.α) και στη συνέχεια παίρνεις μέσω dom manipulation (είτε έμμεσα, είτε άμεσα) τα html elements που σε ενδιαφέρουν...η δομή της σελίδας της περισσότερες φορές δεν αλλάζει, το μόνο που αλλάζει είναι τα προϊόντα (στην προκειμένη περίπτωση) (άρα ξέρεις σίγουρα ποια html elements πρέπει να πάρεις για να πάρεις την τιμή και την περιγραφή του προϊόντος).

Κάποτε είχα φτιαξει (hacked together μάλλον) έναν υποτυπώδη scraper σε php και jquery... (έπερνα μέσω curl τη σελίδα/ σελίδες και στη συνέχεια με dom traversing και dom manipulation έπαιρνα τις πληροφορίες που ήθελα)...αυτός ήταν ένας απλοϊκός τρόπος...υπάρχουν πιο έξυπνες/απλές λύσεις...

λογικά είναι xml schema..

orotoi · 27 Σεπτεμβρίου 2010

και γώ πιστεύω στην περίπτωση του skroutz είναι xml..

mastmaster · 27 Σεπτεμβρίου 2010

ευχαριστω πολυ για την απαντηση θα το ψαξω και θα σου πω!

---------- Προσθήκη στις 17:19 ---------- Προηγούμενο μήνυμα στις 17:14 ----------

που μπορω να βρω ενα ετοιμο? γιατι δεν τα παω καλα με jquery

poscaman · 27 Σεπτεμβρίου 2010

τι σχέση έχει το jquery?

mastmaster · 27 Σεπτεμβρίου 2010

τα λινκ που μας εδωσες σε οδηγουν στην api της jquery

poscaman · 27 Σεπτεμβρίου 2010

Με πολλούς τρόπους μπορεί να γίνει κάτι τέτοιο, απλά σου έδειξαν ένα παράδειγμα.

Απλό δεν είναι τίποτα, θέλει διάβασμα και ψάξιμο.

bandito · 28 Σεπτεμβρίου 2010

Ρε παιδιά ολοι γνωρίζεται το skroutz...αν διαβάσετε καπου εκει μέσα λεει πως μπορείς να βάλεις τα προιόντα σου μέσω rss/xml ή με το robot toy skroutz οπου θα σκανάρει τα προιόντα σου απο το eshop σου!
Απορια σχετικά με το robot

Πως γίνεται κάτι τέτοιο;

πως καταλαβαίνει η μηχανή απο μια γραμμή κειμένου θα αρπάξει αυτό που θέλει!

Θέλω να φτιάξω και εγώ ενα τέτοιο robot!

Δεν ξέρω πως το κάνει το skroutz αλλά χρειάζεται να ξέρεις τουλάχιστον regular expressions και κάποιο scripting language (αλλά οχι απαραίτητα). Ruby εχει Mechanize, Nokogiri κτλ.

mastmaster · 28 Σεπτεμβρίου 2010

Επειδή δεν τα καταλαβαινω όλα αυτά..μπορεί κάποιος να μου δώσει ενα καλό sample Που να τρέχει?

_tasos · 28 Σεπτεμβρίου 2010

Επειδή δεν τα καταλαβαινω όλα αυτά..μπορεί κάποιος να μου δώσει ενα καλό sample Που να τρέχει?

Για κάθε site από το οποίο θέλεις να πάρεις κάποια δεδομένα θα πρέπει να γράψεις κάποιο script. Δεν υπάρχει κάποια γενική λύση, για κάθε περίπτωση το script διαφέρει. Θα πρέπει να δεις τη δομή της σελίδας προϊόντος για κάθε site για να μπορέσεις να απομονώσεις με το (custom) script τον τίτλο, εικόνα, περιγραφή κ ότι άλλο μπορεί να έχει η σελίδα.

orotoi · 25 Νοεμβρίου 2010

Επειδή δεν τα καταλαβαινω όλα αυτά..μπορεί κάποιος να μου δώσει ενα καλό sample Που να τρέχει?

πάντως πριν ξεκινήσεις να φτιάχνεις ενα τέτοιο robot καλό και χρήσιμο θα ηταν να τα καταλαβαίνεις όλα αυτά. Το "ενα καλό sample που να τρέχει" το μεταφράζω ως "μου το φτιάχνετε εσείς?"

Σύνδεση

λειτουργια ενος robot crawler

Προτεινόμενες αναρτήσεις

mastmaster

Επισκέπτης

poscaman

orotoi

mastmaster

poscaman

mastmaster

poscaman

bandito

mastmaster

_tasos

orotoi

Αρχειοθετημένο

Σύνδεση