Προς το περιεχόμενο

λειτουργια ενος robot crawler


mastmaster

Προτεινόμενες αναρτήσεις

Δημοσ.

Ρε παιδιά ολοι γνωρίζεται το skroutz...αν διαβάσετε καπου εκει μέσα λεει πως μπορείς να βάλεις τα προιόντα σου μέσω rss/xml ή με το robot toy skroutz οπου θα σκανάρει τα προιόντα σου απο το eshop σου!

Απορια σχετικά με το robot

Πως γίνεται κάτι τέτοιο;

πως καταλαβαίνει η μηχανή απο μια γραμμή κειμένου θα αρπάξει αυτό που θέλει!

 

Θέλω να φτιάξω και εγώ ενα τέτοιο robot!

Δημοσ.

Αν δεν υπάρχει ένα σαφώς ορισμένο xml schema τότε η διαδικασία λέγεται screen scraping.

Αυτό που κάνεις είναι να "τραβήξεις" τον κώδικα της σελίδας (με curl για php, με node.js για javascript, με nokogiri για ruby..κ.α) και στη συνέχεια παίρνεις μέσω dom manipulation (είτε έμμεσα, είτε άμεσα) τα html elements που σε ενδιαφέρουν...η δομή της σελίδας της περισσότερες φορές δεν αλλάζει, το μόνο που αλλάζει είναι τα προϊόντα (στην προκειμένη περίπτωση) (άρα ξέρεις σίγουρα ποια html elements πρέπει να πάρεις για να πάρεις την τιμή και την περιγραφή του προϊόντος).

Κάποτε είχα φτιαξει (hacked together μάλλον) έναν υποτυπώδη scraper σε php και jquery... (έπερνα μέσω curl τη σελίδα/ σελίδες και στη συνέχεια με dom traversing και dom manipulation έπαιρνα τις πληροφορίες που ήθελα)...αυτός ήταν ένας απλοϊκός τρόπος...υπάρχουν πιο έξυπνες/απλές λύσεις...

Δημοσ.
Αν δεν υπάρχει ένα σαφώς ορισμένο xml schema τότε η διαδικασία λέγεται screen scraping.

Αυτό που κάνεις είναι να "τραβήξεις" τον κώδικα της σελίδας (με curl για php, με node.js για javascript, με nokogiri για ruby..κ.α) και στη συνέχεια παίρνεις μέσω dom manipulation (είτε έμμεσα, είτε άμεσα) τα html elements που σε ενδιαφέρουν...η δομή της σελίδας της περισσότερες φορές δεν αλλάζει, το μόνο που αλλάζει είναι τα προϊόντα (στην προκειμένη περίπτωση) (άρα ξέρεις σίγουρα ποια html elements πρέπει να πάρεις για να πάρεις την τιμή και την περιγραφή του προϊόντος).

Κάποτε είχα φτιαξει (hacked together μάλλον) έναν υποτυπώδη scraper σε php και jquery... (έπερνα μέσω curl τη σελίδα/ σελίδες και στη συνέχεια με dom traversing και dom manipulation έπαιρνα τις πληροφορίες που ήθελα)...αυτός ήταν ένας απλοϊκός τρόπος...υπάρχουν πιο έξυπνες/απλές λύσεις...

 

λογικά είναι xml schema..

Δημοσ.

ευχαριστω πολυ για την απαντηση θα το ψαξω και θα σου πω!

 

---------- Προσθήκη στις 17:19 ---------- Προηγούμενο μήνυμα στις 17:14 ----------

 

που μπορω να βρω ενα ετοιμο? γιατι δεν τα παω καλα με jquery

Δημοσ.

Με πολλούς τρόπους μπορεί να γίνει κάτι τέτοιο, απλά σου έδειξαν ένα παράδειγμα.

 

Απλό δεν είναι τίποτα, θέλει διάβασμα και ψάξιμο.

Δημοσ.
Ρε παιδιά ολοι γνωρίζεται το skroutz...αν διαβάσετε καπου εκει μέσα λεει πως μπορείς να βάλεις τα προιόντα σου μέσω rss/xml ή με το robot toy skroutz οπου θα σκανάρει τα προιόντα σου απο το eshop σου!

Απορια σχετικά με το robot

Πως γίνεται κάτι τέτοιο;

πως καταλαβαίνει η μηχανή απο μια γραμμή κειμένου θα αρπάξει αυτό που θέλει!

 

Θέλω να φτιάξω και εγώ ενα τέτοιο robot!

 

Δεν ξέρω πως το κάνει το skroutz :P αλλά χρειάζεται να ξέρεις τουλάχιστον regular expressions και κάποιο scripting language (αλλά οχι απαραίτητα). Ruby εχει Mechanize, Nokogiri κτλ.

Δημοσ.
Επειδή δεν τα καταλαβαινω όλα αυτά..μπορεί κάποιος να μου δώσει ενα καλό sample Που να τρέχει?

 

Για κάθε site από το οποίο θέλεις να πάρεις κάποια δεδομένα θα πρέπει να γράψεις κάποιο script. Δεν υπάρχει κάποια γενική λύση, για κάθε περίπτωση το script διαφέρει. Θα πρέπει να δεις τη δομή της σελίδας προϊόντος για κάθε site για να μπορέσεις να απομονώσεις με το (custom) script τον τίτλο, εικόνα, περιγραφή κ ότι άλλο μπορεί να έχει η σελίδα.

  • 1 μήνα μετά...
Δημοσ.

Επειδή δεν τα καταλαβαινω όλα αυτά..μπορεί κάποιος να μου δώσει ενα καλό sample Που να τρέχει?

 

πάντως πριν ξεκινήσεις να φτιάχνεις ενα τέτοιο robot καλό και χρήσιμο θα ηταν να τα καταλαβαίνεις όλα αυτά. Το "ενα καλό sample που να τρέχει" το μεταφράζω ως "μου το φτιάχνετε εσείς?"

Αρχειοθετημένο

Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...