nikos2027 Δημοσ. 9 Μαρτίου 2010 Δημοσ. 9 Μαρτίου 2010 Παίδες χαιρετώ. Έχω ένα web spider το οποιο ψάχνει σε site ορισμένες λέξεις και αν τις βρεί μου το δίνει σαν προτεινόμενο. Το πρόβλημα μου είναι ότι δεν μπορώ να πάρω το main body από το html. Δηλ αν ψάνω τη λέξη insomnia μου και αυτή υπάρχει κάποιο banner ή link τότε μου φέρνει το site σαν προτεινόμενο ενώ εγω θέλω να ψάχνω όσο το δυνατόν στο κυρίως κείμενο. Η ερώτηση είναι: υπάρχει κάποιο εργαλείο σε .net ή dll που να καθαρίζει το κείμενο από links banners κλπ? Ευχαριστώ.
_tasos Δημοσ. 9 Μαρτίου 2010 Δημοσ. 9 Μαρτίου 2010 Το web spider σου είναι σε .net; Μπορείς εύκολα να απομονώσεις το body με string functions και αν παίξεις λίγο με regular expressions θα καταφέρεις να βγάλεις τα links από την html και να σου μείνει το κείμενο. Επίσης, αν θέλεις μπορείς να βγάλεις όλα τα html tags και να μείνει μόνο το text. Αν ψάξεις λίγο στο google θα βρεις ένα σωρό παραδείγματα.
kagelos Δημοσ. 9 Μαρτίου 2010 Δημοσ. 9 Μαρτίου 2010 Φίλε για .Net το Agility Pack είναι φοβερό. Κάνει parse το HTML σαν XML και φυσικά έχει properties για InnerText κλπ.
Προτεινόμενες αναρτήσεις
Αρχειοθετημένο
Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.