mindreader Δημοσ. 19 Φεβρουαρίου 2019 Δημοσ. 19 Φεβρουαρίου 2019 Ανοιγω αυτο το θεμα, να συζητησουμε γι'αυτο το τοσο 'διαχρονικο', το τόσο απλό, αλλά με την ιδιαίτερη σημαντικότητά του, θέμα. Αφορμή; Πέρυσι μεταφέρθηκα σε νέο hosting server. Και αμέλησα να ασχοληθω με αυτο. Το τελευταίο διάστημα, παρατήρησα ιδιαίτερο load σε συγκεκριμενες ωρες της μερας, γεγονος που επιβαρυνε το input/output του server, με αποτελεσμα μια γενικοτερη συμφορηση, που δεν δικαιολογουνταν ομως απο την γενικη επισκεψιμοτητα του site. Επειτα απο διερευνηση, και με τη βοηθεια του host provider, ανακαλυψαμε οτι τις ωρες που δημιουργουνταν προβλημα, δηλαδη χτυπουσε limit up στο input/output του server, ηταν οι στιγμες που εκαναν επισκεψη τα bots! Το wordpress δημιουργει απο μονο του ενα υποτυπωδες robots.txt. Εντυπωση μου εκανε οτι αυτο το κανει, διχως φυσικο αρχειο robots.txt. Και εχει μονο αποκλεισμο καποιων directories, διχως τιποτε αλλο. Υπαρχουν ιστοσελιδες που βοηθουν στην δημιουργια του robots.txt, και δημιουργησα ενα, αποκλειοντας ολες τις μηχανες αναζητησης, εκτος απο την google. Ειναι καλο το σκεπτικο αυτο ομως; Εχω διαφορες ερωτησεις, σαν food for thought, για οποιον το εχει ψαξει και θελει να πει εδω σχετικα: - Ειναι καλη τακτικη να αφηνουμε ελευθερο μονο το google bot? - Επιβαρυνουν οντως τοσο πολυ, το crawling των bots? Ειδα με το helpdesk του host provider, οτι εμενα η yandex(ρωσικη), με γονατισε. Οντως επιβαρυνουν πολυ, και ασκοπα, το traffic, φτανοντας ακομη και σε limit ups? - Ποσο σεβονται τελικα το robots.txt οι search engines? Καπου ειδα οτι η google το αγνοει, αλλα επειδη την google την θελουμε, ισως αυτο να μην ειναι τοσο κακο τελικα. Οι αλλες search engines, το 'σεβονται' ομως; - Τελικα, ποση ειναι η χρησιμοτητα του robots.txt; Εγω ειδα οτι δεν μπορω να το αμελησω/αγνοησω μαλλον, αλλα θελω και τη δικη σας εμπειρια. Καλη συζητηση να εχουμε!
Επισκέπτης Δημοσ. 19 Φεβρουαρίου 2019 Δημοσ. 19 Φεβρουαρίου 2019 Τα μεγάλα search engines σέβονται το robots.txt. Οι υπόλοιποι όχι. Το ποια bots θα αφήσεις και ποια όχι είναι καθαρά προσωπική σου επιλογή. Τα bots σαφώς και επιβαρύνουν το site σου, ειδικά αν δεν κάνεις καθόλου έλεγχο στα requests. Επίσης πολλά bots είναι κακογραμμένα με αποτέλεσμα να ανοίγουν εκατοντάδες requests ανά δευτερόλεπτο το οποίο έχει ως συνέπεια ένα μέσο site σε shared hosting να γονατίζει. Εν κατακλείδι, το robots από μόνο του δεν πρόκειται να σε σώσει. Πρέπει να γράψεις κώδικα για να βάλεις όριο στα requests ανά δευτερόλεπτο ή ανά ip. Το οποίο και πάλι δεν σε καλύπτει 100% γιατί πολλά bots είναι πίσω από proxies με εκατοντάδες ή και χιλιάδες ips. Αλλά αρκεί για να κόψει το 70% των bots.
mindreader Δημοσ. 19 Φεβρουαρίου 2019 Μέλος Δημοσ. 19 Φεβρουαρίου 2019 Να φανταστειτε, οτι 'χτυπουσε' το firewall του hosting server τις επιμαχες στιγμες, συμφωνα με οσα εδειξαν τα access logs! Θελω να δω πως θα παει γενικοτερα τωρα με το robots που ανεβασα. Αλλιως να βρω κανενα wordpress plugin, περι οριων σε requests/sec, ή ανα ip. Αν ξερει καποιος να προτεινει τετοιο plugin, ας πει. Να ειμαι ready to go. Θα δω κι εγω βεβαια. To robots.txt που εφτιαξα, ειναι το εξης: User-agent: Bingbot Disallow: / User-agent: MSNBot Disallow: / User-agent: Slurp Disallow: / User-agent: Baiduspider Disallow: / User-agent: YandexBot Disallow: / User-agent: ia_archiver Disallow: / User-agent: teoma Disallow: / Πειτε προτασεις για νεους ουσιαστικους ΚΟΦΤΕΣ περιεργων search engines, που κακο κανουν, καλο δεν κανουν.
CyberCr33p Δημοσ. 19 Φεβρουαρίου 2019 Δημοσ. 19 Φεβρουαρίου 2019 (επεξεργασμένο) Τα bots τι URLs επισκέπτονται; Εάν για παράδειγμα επισκέπτονται ταυτόχρονα χιλιάδες URLs της μορφής https://www.example.com/?s=search_keyword τότε θα τρώνε πολλούς πόρους αλλά συνήθως τέτοιες περιπτώσεις έχουν να κάνουν με λάθος κατασκευή της ιστοσελίδας. Το έχω δει να συμβαίνει αλλά είναι ελάχιστες αυτές οι περιπτώσεις. Πιο πιθανό θεωρώ ο webhost σου να έχει υπερφορτωμένο server (λόγο άλλων sites που φιλοξενούνται στον ίδιο server) ή να χρησιμοποιεί για παράδειγμα cloudlinux και να σου περιορίζει τους πόρους που μπορείς να χρησιμοποιήσεις. Οπότε σε αυτές τις περιπτώσεις σε ώρες αιχμής (είτε των άλλων sites που είναι στον ίδιο server είτε του δικού σου site) η σελίδα σου θα αργεί να φορτώσει ή και δεν θα φορτώνει καθόλου εμφανίζοντας σφάλματα (π.χ. 5xx errors). Γνώμη μου είναι να μην μπλοκάρεις τα bots γνωστών μηχανών αναζήτησης όπως Bing, Yandex, κλπ γιατί αν και μικρό το ποσοστό υπάρχουν άτομα που τα χρησιμοποιούν. Ειδικά Yandex που στην Ρωσία μένουν πολλοί Έλληνες. Επεξ/σία 19 Φεβρουαρίου 2019 από CyberCr33p 1
mindreader Δημοσ. 19 Φεβρουαρίου 2019 Μέλος Δημοσ. 19 Φεβρουαρίου 2019 Εδω εχει μια λιστα (λέει) με bad bots. Τι λέτε γι'αυτην; https://pastebin.com/BPRv4TDd Σχετικο και ασχετο με τα robots, αλλα αν δεν πιασει το simple way με τις manual καταχωρησεις, πρεπει να εχουμε και plan B, δοκιμαζω και αυτο παράλληλα https://el.wordpress.org/plugins/block-bad-queries/
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα