Python

epiphone6 · 9 Ιουνίου 2022

Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.

import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)

Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ

Lanike71 · 9 Ιουνίου 2022

3 ώρες πριν, epiphone6 είπε
Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.
import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)
Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ

Έχω λίγη επαφή με python, αλλά πιστεύω ότι θέλει χρήση κάποιας βιβλιοθήκης.

Δες τη Beautiful Soup.

Tutorial: Web Scraping with Python Using Beautiful Soup – Dataquest

Επεξ/σία 9 Ιουνίου 2022 από Lanike71

DrKo · 9 Ιουνίου 2022

3 ώρες πριν, epiphone6 είπε

Έχω παιδευτεί χωρίς αποτέλεσμα.

Τι ακριβώς έχεις κάνει και έχεις παιδευτεί;

archer100 · 9 Ιουνίου 2022

Τρεξε το παρακατω και θα παρεις μονο ο,τι κειμενο υπαρχει στο html

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

soup = BeautifulSoup(data, 'html.parser')
texts = soup.findAll(text=True)
visible_texts = filter(tag_visible, texts)

Αν δυσκολευτεις, στειλε μου το html αρχειο να στο τρεξω εγω

Επεξ/σία 9 Ιουνίου 2022 από archer100

spartakos87a · 10 Ιουνίου 2022

Αν και δεν μας εξηγείς τι ακριβώς θες να "διαβάσεις" μια καλή βιβλιοθήκη στην Python γι'αυτήν την δουλειά είναι η,

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Ουσαστικά φορτώνεις το html και μετά με πολύ ευκολο τροόπο κάνεις extract τι ακριβώς θες.

epiphone6 · 13 Ιουνίου 2022

Παίδες σας ευχαριστώ θερμά. Με τις πολύτιμες συμβουλές σας, το κατάφερα. Καλή συνέχεια

Σύνδεση

Python

Προτεινόμενες αναρτήσεις

epiphone6

Lanike71

DrKo

archer100

spartakos87a

epiphone6

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση