Προς το περιεχόμενο

Broken links / Link checker


Praetorianos

Προτεινόμενες αναρτήσεις

Δημοσ.

Η απορία μου είναι, υπάρχει τρόπος να ελέγξεις τα broken links σε ένα blog με κάποιο πρόγραμμα ή addon?

 

Η διαφορά των blogs με τα sites (ή έτσι μου φάνηκε τουλάχιστον) είναι ότι στην περίπτωση των blogs ακόμα κι αν είναι χαλασμένο το link, σε παραπέμπει σε σελίδα που απλώς αναφέρει ότι το post δεν υπάρχει και το link checker addon του Firefox δεν το αντιλαμβάνεται ως broken link, οπότε δεν το κοκκινίζει :-(

 

Κατέβασα επίσης το Xenu's Link Sleuth αλλά μου βγάζει κάτι timeout error και overloaded που δεν καταλαβαίνω τι λάθη είναι. Γνωρίζει κάποιος να βοηθήσει?

Επισκέπτης
Δημοσ.

404 Not Found

σε συνδυασμό με curl (σου παραθέτω σε php)

 

αυτό για να γράψεις κάτι μόνος σου...

αν θες κάτι έτοιμο, ψάξε για έτοιμα components που εξετάζουν το response code ...

Δημοσ.
404 Not Found

σε συνδυασμό με curl (σου παραθέτω σε php)

 

αυτό για να γράψεις κάτι μόνος σου...

αν θες κάτι έτοιμο, ψάξε για έτοιμα components που εξετάζουν το response code ...

Γίνονται όλα αυτά σε blog :confused:?

Δημοσ.
Γίνονται όλα αυτά σε blog :confused:?

 

Εννοείς σε κάποιο blog τύπου blogspot? Γιατί μπορείς κάλλιστα να φτιάξεις ένα δικό σου blog, και να ενσωματώσεις ότι θέλεις εσυ...

Δημοσ.
Η διαφορά των blogs με τα sites (ή έτσι μου φάνηκε τουλάχιστον) είναι ότι στην περίπτωση των blogs ακόμα κι αν είναι χαλασμένο το link, σε παραπέμπει σε σελίδα που απλώς αναφέρει ότι το post δεν υπάρχει και το link checker addon του Firefox δεν το αντιλαμβάνεται ως broken link, οπότε δεν το κοκκινίζει :-(

 

Η ανακολουθία οφείλεται πάνω κάτω στο εξής: Στα sites με στατικές ιστοσελίδες, συνήθως ένα μοναδικό URL (εδώ κάποιοι μπορεί να προτιμούσαν τον όρο URI) αντιστοιχεί σε ένα μοναδικό server-side resource, στην απλούστερη περίπτωση ένα αρχείο με κατάληξη .htm ή .html ή ένα directory. Αν το συγκεκριμένο resource μετακινηθεί ή διαγραφεί από τον server, το μέχρι πρότινος URL είναι πλέον ένα broken link και ο server αναμένεται να απαντήσει με HTTP status code 404.

 

Στα sites με δυναμικές ιστοσελίδες στα οποία η διάκριση URL γίνεται με την χρήση query strings, στην πραγματικότητα τα βασικά server-side resources είναι τα scripts που παράγουν δυναμικά τις ιστοσελίδες, άρα είναι κατά κανόνα λιγότερα από τις πιθανές διαφορετικές ιστοσελίδες που είναι σχεδιασμένο το site να σερβίρει. Εκεί, ένα "broken link" μπορεί να μην οδηγεί απαραίτητα σε 404 error, οπότε γίνεται πιο δύσκολη η διάκριση.

 

 

Βέβαια τα παραπάνω δεν ισχύουν ως κανόνας πάντα. Μπορεί π.χ. σε ένα στατικό site ο web server που το εξυπηρετεί να είναι configured ώστε να απαντά με custom 404 pages, να κάνει ανακατευθύνσεις ή άλλα κόλπα. Αντίστοιχα, ένα δυναμικό site μπορεί κάλλιστα να επιστρέφει 404 error. Σε κάθε περίπτωση, η αυτοματοποίηση της ανίχνευσης του "broken link" concept δεν είναι και τόσο straightforward υπόθεση...

Δημοσ.

@poscaman, ναι σε blogspot.com τύπου blog αναφερόμουν.

Η αλήθεια είναι ότι δεν τα γνώριζα αυτά που μου γράψατε, νόμιζα ότι θα είναι πιο απλό. Δηλαδή θα υπάρχει ένα addon σαν το LinkChecker του Firefox που θα αναγνωρίζει πότε το post υπάρχει ή όχι. :-)

 

Αλλά με αυτά που έγραψε ο parsifal περί redirection και html, αν κρίνω από αυτό:

 

bloggerd.jpg

 

 

μάλλον δεν γίνεται κάτι?

 

Κάτι άλλο, τα παρακάτω forbidden requests ή κάποια timeout/server errors, τι λάθη είναι?:

 

xenu.jpg

 

Δημοσ.
Αλλά με αυτά που έγραψε ο parsifal περί redirection και html, αν κρίνω από αυτό:

 

bloggerd.jpg

 

 

μάλλον δεν γίνεται κάτι?

 

Μάλλον όχι. Αυτό που δείχνεις εδώ είναι μία custom error page, η οποία παράγεται μάλλον δυναμικά (το γεγονός ότι βλέπεις .html στην address bar δε σημαίνει απαραίτητα ότι υπάρχει τέτοια στατική σελίδα στον server, μπορεί να εφαρμόζεται π.χ. URL rewriting με το mod_rewrite module του Apache ή αντίστοιχο facility σε άλλους web servers).

 

 

Κάτι άλλο, τα παρακάτω forbidden requests ή κάποια timeout/server errors, τι λάθη είναι?:

 

xenu.jpg

 

Forbidden requests: Μάλλον πρόκειται για 403 errors.

 

Timeout errors μπορεί να συμβούν για 1002 λόγους. Το αποτέλεσμα είναι πάντα το ίδιο: ο client έχει στείλει ένα αίτημα, περιμένει τον server να του απαντήσει με περιεχόμενο αλλά αυτός δεν το κάνει, είτε ποτέ είτε εντός του χρονικού περιθωρίου που ο client έχει ορίσει ως timeout αναμονής (παρατήρησε ότι η 2η περίπτωση είναι υπερσύνολο της πρώτης).

Δημοσ.
Μάλλον όχι.

Χμμ, οκ thanks. Πάμε χειροκίνητα να ελέγξουμε 7.466 links, τι χαρά! :-(:-(

 

(λίγο άκυρος μου φαίνεται ο αριθμός βέβαια, μάλλον είναι τραγικά λιγότερα στην πραγματικότητα)

Δημοσ.

Αν είναι όλα (ή τουλάχιστον σημαντικός αριθμός) από blogspot.com, η έξυπνη κίνηση θα είναι να φτιάξεις έναν δικό σου αυτοματισμό με κάποιο batch file/shell script σε συνδυασμό με έναν command line downloader (π.χ. wget ή το curl που ανέφερε ο φίλος natural_sgf) το οποίο θα ψάχνει για τη συμβολοσειρά π.χ. "Page not found" στο HTML source του κάθε link.

Δημοσ.
Αν είναι όλα (ή τουλάχιστον σημαντικός αριθμός) από blogspot.com, η έξυπνη κίνηση θα είναι να φτιάξεις έναν δικό σου αυτοματισμό με κάποιο batch file/shell script σε συνδυασμό με έναν command line downloader (π.χ. wget ή το curl που ανέφερε ο φίλος natural_sgf) το οποίο θα ψάχνει για τη συμβολοσειρά π.χ. "Page not found" στο HTML source του κάθε link.

Καλό ακούγεται αλλά οι γνώσεις μου πάνω σε αυτό το κομμάτι είναι περιορισμένες η αλήθεια είναι.

 

Κι αν ξεκινήσω να μαθαίνω φοβάμαι ότι θα μου πάρει περισσότερο χρόνο και κόπο να φτιάξω το script παρά να τα κάνω χειροκίνητα.

Δημοσ.
Ε, στο Insomnia είμαστε, όχι στο pleksimo.gr! Ανοίγεις νέο thread και ζητάς την αντίστοιχη βοήθεια. ;)

Δεν κατάλαβες πόσο περιορισμένες είναι οι γνώσεις μου, δεν έχω ιδέα πως θα φτιάξω ένα script, πόσο μάλλον να το βάλω να κάνει διάφορα :-D

 

Οπότε θα πρέπει να ανοίξω ένα thread να με μάθουν από την αρχή και ουσιαστικά θα είναι σαν να ζητάω να μου το φτιάξουν.

 

Κάτι άλλο, αφού σε κάθε περίπτωση το blogspot γυρίζει αυτή τη σελίδα που έβαλα προηγουμένως, γιατί σε μερικά links μου βγάζει "Status: not found"?

Δημοσ.
αφού σε κάθε περίπτωση το blogspot γυρίζει αυτή τη σελίδα που έβαλα προηγουμένως...

 

Μήπως κι αυτό είναι υπό εξέταση; :shifty:

 

Το τσέκαρες χειροκίνητα; Δηλαδή, επισκεφτήκες με τον browser δύο links για τα οποία το Xenu σου βγάζει διαφορετικό αποτέλεσμα, και είδες να δίνουν στον browser ίδιο αποτέλεσμα;

Δημοσ.
Μήπως κι αυτό είναι υπό εξέταση; :shifty:

Όχι σε αυτό είμαι σίγουρος, το πρόβλημα είναι αποκλειστικά ότι μερικά posts διαγράφηκαν και χάθηκαν τα links. Μόνο αυτό.

 

Το τσέκαρες χειροκίνητα; Δηλαδή, επισκεφτήκες με τον browser δύο links για τα οποία το Xenu σου βγάζει διαφορετικό αποτέλεσμα, και είδες να δίνουν στον browser ίδιο αποτέλεσμα;

Τα forbidden requests δουλεύουν όλα κανονικά χειροκίνητα, τα server errors μου βγάζουν λάθη στο ιστολόγιο και με προτρέπουν να επικοινωνήσω με την google, ενώ αυτή τη φορά που ξαναέτρεξα το τεστ δεν υπήρχαν timeouts.

 

Τέλος πάντων, θα διορθώσω πρώτα όλα τα not found errors και μετά θα κοιτάξω τα υπόλοιπα. Πάντως τα forbidden requests είναι links προς την wikipedia, παίζει κάποιο ρόλο αυτό?

Δημοσ.
Πάντως τα forbidden requests είναι links προς την wikipedia, παίζει κάποιο ρόλο αυτό?

 

Apparently ναι, παίζει:

 

When Link Sleuth attempts to follow links to Wikipedia it displays Wikipedia's "403 Forbidden" response to Xenu's ID of itself "User-Agent: Xenu Link Sleuth 1.2j". It's possible Wikipedia blocks Xenu because of loading issues.

Αρχειοθετημένο

Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...