Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Ανοιγω αυτο το θεμα, να συζητησουμε γι'αυτο το τοσο 'διαχρονικο', το τόσο απλό, αλλά με την ιδιαίτερη σημαντικότητά του, θέμα.

Αφορμή; Πέρυσι μεταφέρθηκα σε νέο hosting server. Και αμέλησα να ασχοληθω με αυτο.
Το τελευταίο διάστημα, παρατήρησα ιδιαίτερο load σε συγκεκριμενες ωρες της μερας, γεγονος που επιβαρυνε το input/output του server, με αποτελεσμα μια γενικοτερη συμφορηση, που δεν δικαιολογουνταν ομως απο την γενικη επισκεψιμοτητα του site.
Επειτα απο διερευνηση, και με τη βοηθεια του host provider, ανακαλυψαμε οτι τις ωρες που δημιουργουνταν προβλημα, δηλαδη χτυπουσε limit up στο input/output του server, ηταν οι στιγμες που εκαναν επισκεψη τα bots!

Το wordpress δημιουργει απο μονο του ενα υποτυπωδες robots.txt. Εντυπωση μου εκανε οτι αυτο το κανει, διχως φυσικο αρχειο robots.txt. Και εχει μονο αποκλεισμο καποιων directories, διχως τιποτε αλλο. Υπαρχουν ιστοσελιδες που βοηθουν στην δημιουργια του robots.txt, και δημιουργησα ενα, αποκλειοντας ολες τις μηχανες αναζητησης, εκτος απο την google.
Ειναι καλο το σκεπτικο αυτο ομως;

Εχω διαφορες ερωτησεις, σαν food for thought, για οποιον το εχει ψαξει και θελει να πει εδω σχετικα:

- Ειναι καλη τακτικη να αφηνουμε ελευθερο μονο το google bot?

- Επιβαρυνουν οντως τοσο πολυ, το crawling των bots? Ειδα με το helpdesk του host provider, οτι εμενα η yandex(ρωσικη), με γονατισε. Οντως επιβαρυνουν πολυ, και ασκοπα, το traffic, φτανοντας ακομη και σε limit ups?

- Ποσο σεβονται τελικα το robots.txt οι search engines? Καπου ειδα οτι η google το αγνοει, αλλα επειδη την google την θελουμε, ισως αυτο να μην ειναι τοσο κακο τελικα. Οι αλλες search engines, το 'σεβονται' ομως;

- Τελικα, ποση ειναι η χρησιμοτητα του robots.txt; Εγω ειδα οτι δεν μπορω να το αμελησω/αγνοησω μαλλον, αλλα θελω και τη δικη σας εμπειρια.


Καλη συζητηση να εχουμε!

Δημοσ.

Τα μεγάλα search engines σέβονται το robots.txt. Οι υπόλοιποι όχι.  Το ποια bots θα αφήσεις και ποια όχι είναι καθαρά προσωπική σου επιλογή.

Τα bots σαφώς και επιβαρύνουν το site σου, ειδικά αν δεν κάνεις καθόλου έλεγχο στα requests. Επίσης πολλά bots είναι κακογραμμένα με αποτέλεσμα να ανοίγουν εκατοντάδες requests ανά δευτερόλεπτο το οποίο έχει ως συνέπεια ένα μέσο site σε shared hosting να γονατίζει.

Εν κατακλείδι, το robots από μόνο του δεν πρόκειται να σε σώσει. Πρέπει να γράψεις κώδικα για να βάλεις όριο στα requests ανά δευτερόλεπτο ή ανά ip. Το οποίο και πάλι δεν σε καλύπτει 100% γιατί πολλά bots είναι πίσω από proxies με εκατοντάδες ή και χιλιάδες ips. Αλλά αρκεί για να κόψει το 70% των bots.

Δημοσ.

Να φανταστειτε, οτι 'χτυπουσε' το firewall του hosting server τις επιμαχες στιγμες, συμφωνα με οσα εδειξαν τα access logs!

Θελω να δω πως θα παει γενικοτερα τωρα με το robots που ανεβασα. Αλλιως να βρω κανενα wordpress plugin, περι οριων σε requests/sec, ή ανα ip. Αν ξερει καποιος να προτεινει τετοιο plugin, ας πει. Να ειμαι ready to go. Θα δω κι εγω βεβαια.

To robots.txt που εφτιαξα, ειναι το εξης:

User-agent: Bingbot
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: teoma
Disallow: /

 

Πειτε προτασεις για νεους ουσιαστικους ΚΟΦΤΕΣ περιεργων search engines,  που κακο κανουν, καλο δεν κανουν.

Δημοσ. (επεξεργασμένο)

Τα bots τι URLs επισκέπτονται; Εάν για παράδειγμα επισκέπτονται ταυτόχρονα χιλιάδες URLs της μορφής https://www.example.com/?s=search_keyword τότε θα τρώνε πολλούς πόρους αλλά συνήθως τέτοιες περιπτώσεις έχουν να κάνουν με λάθος κατασκευή της ιστοσελίδας. Το έχω δει να συμβαίνει αλλά είναι ελάχιστες αυτές οι περιπτώσεις.

Πιο πιθανό θεωρώ ο webhost σου να έχει υπερφορτωμένο server (λόγο άλλων sites που φιλοξενούνται στον ίδιο server) ή να χρησιμοποιεί για παράδειγμα cloudlinux και να σου περιορίζει τους πόρους που μπορείς να χρησιμοποιήσεις. Οπότε σε αυτές τις περιπτώσεις σε ώρες αιχμής (είτε των άλλων sites που είναι στον ίδιο server είτε του δικού σου site) η σελίδα σου θα αργεί να φορτώσει ή και δεν θα φορτώνει καθόλου εμφανίζοντας σφάλματα (π.χ. 5xx errors).

Γνώμη μου είναι να μην μπλοκάρεις τα bots γνωστών μηχανών αναζήτησης όπως Bing, Yandex, κλπ γιατί αν και μικρό το ποσοστό υπάρχουν άτομα που τα χρησιμοποιούν. Ειδικά Yandex που στην Ρωσία μένουν πολλοί Έλληνες.

Επεξ/σία από CyberCr33p
  • Like 1
Δημοσ.

Εδω εχει μια λιστα (λέει) με bad bots. Τι λέτε γι'αυτην;

https://pastebin.com/BPRv4TDd

Σχετικο και ασχετο με τα robots, αλλα αν δεν πιασει το simple way με τις manual καταχωρησεις, πρεπει να εχουμε και plan B, δοκιμαζω και αυτο παράλληλα https://el.wordpress.org/plugins/block-bad-queries/

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...