sinikos Δημοσ. 20 Αυγούστου 2017 Δημοσ. 20 Αυγούστου 2017 Καλησπέρα. Έχω ενα καταλογο/directory καποιων συγκεκριμένων (συναφών) κατηγοριών (π.χ. εστιατόρια, ταβέρνες, φαστ φουντ κλπ) και θέλω να αρχίσω να καταχωρώ. α) Αν αντλώ δεδομένα απο σελίδες που έχουν στοιχεία δημόσια (vrisko,xo klp) και αρχίσω να καταχωρώ, θα έχω νομικό πρόβλημα αν δεν ενημερώσω τους ιδιοκτήτες? β) Αν ψάξω για κανα freelancer να μου κάνει καταχωρίσεις, ποιο εύρος αμοιβής ανα καταχώρηση θα ήταν καλό? Η κάθε καταχώριση εχει τίτλο, περιγραφή αν υπάρχει, διευθυνση, στοιχεία επικοινωνίας και κατηγορία.
Predatorkill Δημοσ. 20 Αυγούστου 2017 Δημοσ. 20 Αυγούστου 2017 Το scraping απαγορευεται στο 95% των ιστοσελιδων, πρεπει για καθε site να διαβασεις τους ορους χρησης. Το οτι ειναι δημοσια δεν σημαινει οτι μπορεις να τα αντιγραψεις. Τωρα για freelancer δεν ξερω, θα μπορουσες βεβαια να φτιαξεις δικα σου script ανα site που θες να κανεις scrape με λιγο διαβασμα, υπαρχουν αρκετοι scrapers εκει εξω κυριως σε python και js.
sinikos Δημοσ. 20 Αυγούστου 2017 Μέλος Δημοσ. 20 Αυγούστου 2017 Αααα το πρόβλημα θα το έχω με τα site που πηρα τα δεδομένα? Εγώ νομιζα απο το κάθε επαγγελματία.... Αν κάνω scraping (που δεν το ειχα σκεφτει, ουτε ξερω πως γίνεται), που θα ξέρει η σελίδα οτι έκανα απο αυτους? Δηλαδή αυτό που θα πάρω θα είναι κοινό παντού αφού είναι τα στοιχεία της εκάστοτε επιχείρησης. Δεν κάνω δηλ σκραπιν κάποιο κείμενο απο site.
Predatorkill Δημοσ. 20 Αυγούστου 2017 Δημοσ. 20 Αυγούστου 2017 Αν η σελιδα κραταει σωστα logs μπορουν να δουν οτι μια IP τους «χτυπαει» καθε δευτερολεπτο ζητωντας καθε φορα κατι αλλο. Οι «μεγαλοι» συνηθως το κανουν, αν μπαινουν στο κοπο να κινηθουν νομικα δεν το γνωριζω. Βεβαια λαμβανουν μετρα εναντια στα bots/scrapers βαζωντας πχ το τηλεφωνο της εταιριας σε φωτο αλα captcha ωστε να μην μπεις καν στον κοπο να τους χτυπησεις(αν και παρακαμπεται σε αρκετες περιπτωσεις). Πχ το fuelprices.gr εχει βαλει captcha ωστε να βαλει φρενο στις διαφορες εφαρμογες κινητων που τραβανε δεδομενα αλλα αμα κατεβασεις τις εφαρμογες μια χαρα δουλευουν. (Βεβαια τα τζιμανια εκει λενε πως αμα εχεις κωδικο πρατηριουχου δεν εχει captcha οποτε καπως ετσι μαλλον τα τραβανε) Εν το μεταξυ μιας και επιασα το fuelprices αν δεις το network xhr requesrs στα dev tools του browser ειναι αδεια και το μονο που επιστρεφει ειναι html, αρα ολη η διαδικασια ναι μεν περνει parameters στο url του browser αλλα η «επιστροφη» των δεδομενων μαλλον γινεται μεσω server side rendering, με αυτο το τροπο δεν μπορεις να τραβηξεις δεδομενα απ ευθειας απο το σερβερ αλλα μονο κανοντας scrape το dom. Ενδεχεται να λεω μαλακιες, αλλα ετσι υποψιαζομαι οτι γινεται. Υγ. Τους επαγγελματιες δεν τους νοιαζει, ισα ισα, οσο πιο πολυ εμφανιζονται τοσο το καλυτερο γι αυτους, ειδικα για μια περιπτωση πχ σαν τη δικη σου. Υγ2. Αν δεις στο github scrapers θα δεις οτι πολλοι βαζουν anonymity proxies πριν χτυπησουν το domain που θελουν.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα