Προς το περιεχόμενο

HTML μόνο το κείμενο


nikos2027

Προτεινόμενες αναρτήσεις

Δημοσ.

Παίδες χαιρετώ.

Έχω ένα web spider το οποιο ψάχνει σε site ορισμένες λέξεις και αν τις βρεί μου το

δίνει σαν προτεινόμενο.

Το πρόβλημα μου είναι ότι δεν μπορώ να πάρω το main body από το html.

Δηλ αν ψάνω τη λέξη insomnia μου και αυτή υπάρχει κάποιο banner ή link

τότε μου φέρνει το site σαν προτεινόμενο ενώ εγω θέλω να ψάχνω όσο το δυνατόν

στο κυρίως κείμενο. Η ερώτηση είναι: υπάρχει κάποιο εργαλείο σε .net ή dll που να καθαρίζει το κείμενο από links banners κλπ?

Ευχαριστώ.

Δημοσ.

Το web spider σου είναι σε .net; Μπορείς εύκολα να απομονώσεις το body με string functions και αν παίξεις λίγο με regular expressions θα καταφέρεις να βγάλεις τα links από την html και να σου μείνει το κείμενο.

 

Επίσης, αν θέλεις μπορείς να βγάλεις όλα τα html tags και να μείνει μόνο το text. Αν ψάξεις λίγο στο google θα βρεις ένα σωρό παραδείγματα.

Αρχειοθετημένο

Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...