epiphone6 Δημοσ. 9 Ιουνίου 2022 Δημοσ. 9 Ιουνίου 2022 Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML. Έχω γράψει τον επόμενο... τεράστιο κώδικα. import codecs f = codecs.open("C:\test.hrml", 'r', 'utf-8') data=f.read() print(data) Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα. Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text. Ευχαριστώ πολυ
Lanike71 Δημοσ. 9 Ιουνίου 2022 Δημοσ. 9 Ιουνίου 2022 (επεξεργασμένο) 3 ώρες πριν, epiphone6 είπε Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML. Έχω γράψει τον επόμενο... τεράστιο κώδικα. import codecs f = codecs.open("C:\test.hrml", 'r', 'utf-8') data=f.read() print(data) Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα. Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text. Ευχαριστώ πολυ Έχω λίγη επαφή με python, αλλά πιστεύω ότι θέλει χρήση κάποιας βιβλιοθήκης. Δες τη Beautiful Soup. Tutorial: Web Scraping with Python Using Beautiful Soup – Dataquest Επεξ/σία 9 Ιουνίου 2022 από Lanike71
DrKo Δημοσ. 9 Ιουνίου 2022 Δημοσ. 9 Ιουνίου 2022 3 ώρες πριν, epiphone6 είπε Έχω παιδευτεί χωρίς αποτέλεσμα. Τι ακριβώς έχεις κάνει και έχεις παιδευτεί;
archer100 Δημοσ. 9 Ιουνίου 2022 Δημοσ. 9 Ιουνίου 2022 (επεξεργασμένο) Τρεξε το παρακατω και θα παρεις μονο ο,τι κειμενο υπαρχει στο html def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True soup = BeautifulSoup(data, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) Αν δυσκολευτεις, στειλε μου το html αρχειο να στο τρεξω εγω Επεξ/σία 9 Ιουνίου 2022 από archer100 1
spartakos87a Δημοσ. 10 Ιουνίου 2022 Δημοσ. 10 Ιουνίου 2022 Αν και δεν μας εξηγείς τι ακριβώς θες να "διαβάσεις" μια καλή βιβλιοθήκη στην Python γι'αυτήν την δουλειά είναι η, https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Ουσαστικά φορτώνεις το html και μετά με πολύ ευκολο τροόπο κάνεις extract τι ακριβώς θες.
epiphone6 Δημοσ. 13 Ιουνίου 2022 Μέλος Δημοσ. 13 Ιουνίου 2022 Παίδες σας ευχαριστώ θερμά. Με τις πολύτιμες συμβουλές σας, το κατάφερα. Καλή συνέχεια
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα