HTML μόνο το κείμενο

nikos2027 · 9 Μαρτίου 2010

Παίδες χαιρετώ.

Έχω ένα web spider το οποιο ψάχνει σε site ορισμένες λέξεις και αν τις βρεί μου το

δίνει σαν προτεινόμενο.

Το πρόβλημα μου είναι ότι δεν μπορώ να πάρω το main body από το html.

Δηλ αν ψάνω τη λέξη insomnia μου και αυτή υπάρχει κάποιο banner ή link

τότε μου φέρνει το site σαν προτεινόμενο ενώ εγω θέλω να ψάχνω όσο το δυνατόν

στο κυρίως κείμενο. Η ερώτηση είναι: υπάρχει κάποιο εργαλείο σε .net ή dll που να καθαρίζει το κείμενο από links banners κλπ?

Ευχαριστώ.

_tasos · 9 Μαρτίου 2010

Το web spider σου είναι σε .net; Μπορείς εύκολα να απομονώσεις το body με string functions και αν παίξεις λίγο με regular expressions θα καταφέρεις να βγάλεις τα links από την html και να σου μείνει το κείμενο.

Επίσης, αν θέλεις μπορείς να βγάλεις όλα τα html tags και να μείνει μόνο το text. Αν ψάξεις λίγο στο google θα βρεις ένα σωρό παραδείγματα.

kagelos · 9 Μαρτίου 2010

Φίλε για .Net το Agility Pack είναι φοβερό. Κάνει parse το HTML σαν XML και φυσικά έχει properties για InnerText κλπ.

Σύνδεση

HTML μόνο το κείμενο

Προτεινόμενες αναρτήσεις

nikos2027

_tasos

kagelos

Αρχειοθετημένο

Σύνδεση