Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.

import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)

 

Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ 

Δημοσ. (επεξεργασμένο)
3 ώρες πριν, epiphone6 είπε

Παιδιά καλησπέρα! Μια βοήθεια παρακαλώ. Είμαι νέος στο Python και θέλω να διαβάσω τα περιεχόμενα από ένα αρχείο HTML.

Έχω γράψει τον επόμενο... τεράστιο κώδικα.

import codecs                                                                                                                                                                                                                                                                                     
f = codecs.open("C:\test.hrml", 'r', 'utf-8')
data=f.read()
print(data)

 

Ωστόσο λειτουργεί αλλά μου επιστρέφει και όλα τα tags, scripts κτλ. Στη ουσία ότι έχει η σελίδα. Έχω παιδευτεί χωρίς αποτέλεσμα.

Πως μπορώ να εκτυπώσω μόνο το περιεχόμενο του boby της σελίδας; Μόνο το text.

Ευχαριστώ πολυ 

Έχω λίγη επαφή με python, αλλά πιστεύω ότι θέλει χρήση κάποιας βιβλιοθήκης.

Δες τη Beautiful Soup.

 

Tutorial: Web Scraping with Python Using Beautiful Soup – Dataquest

Επεξ/σία από Lanike71
Δημοσ.
3 ώρες πριν, epiphone6 είπε

Έχω παιδευτεί χωρίς αποτέλεσμα.

Τι ακριβώς έχεις κάνει και έχεις παιδευτεί;

Δημοσ. (επεξεργασμένο)

Τρεξε το παρακατω και θα παρεις μονο ο,τι κειμενο υπαρχει στο html

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

soup = BeautifulSoup(data, 'html.parser')
texts = soup.findAll(text=True)
visible_texts = filter(tag_visible, texts) 

 Αν δυσκολευτεις, στειλε μου το html αρχειο να στο τρεξω εγω

Επεξ/σία από archer100
  • Thanks 1
Δημοσ.

Αν και δεν μας εξηγείς τι ακριβώς θες να "διαβάσεις" μια καλή βιβλιοθήκη στην Python γι'αυτήν την δουλειά είναι η,

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Ουσαστικά φορτώνεις το html και μετά με πολύ ευκολο τροόπο κάνεις extract τι ακριβώς θες.

 

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...