Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

 καλησπέρα, έχω ένα περίεργο txt αρχείο, το οποίο είναι της μορφής:

27ùB001GVISJMùA3RXAU2N8KV45Gùlady21ù0ù1ù1ù1332633600ùNasty No flavorùThe candy is just red , No flavor . Just  plan and chewy .  I would never buy them again

όπου ουσιαστικά τα πεδία χωρίζονται μεταξύ τους με το σύμβολο ù.

 

Το αρχείο έγινε export από το modeller, όπου εκεί, είχε επιλεχθεί σαν delimiter το 'ω'.

 

Όταν ανοίγω το txt αρχείο (είτε σε windows είτε σε mac) βλέπω το σύμβολο ù.

 

Για να μπορέσω να διαβάσω το αρχείο μου όμως (σε windows), χρησιμοποιώντας  python (3.6) και pandas βάζω σαν separator το ω κι όχι το ù.

Δλδ o κώδικας μου:

DF = pd.read_csv("/Users/vasilis/Desktop/myfile.txt", sep="ω", header = 'infer', engine = 'python')

Από εκεί και πέρα όλα καλα. Όταν πάω να τρέξω τον ίδιο κώδικα σε mac, βαράει. Βλέπω πως διαβάζει το αρχείο, αλλά το εμφανίζει με ένα περίεργο σύμβολο σαν seperator

δλδ

937�B000F4EU52�A1S4Y637N2ZY7Y�D

 

 

ο μόνος τρόπος για να παρσάρω σωστά είναι να γράψω:

DF = pd.read_csv("/Users/vasilis/Desktop/myfile.txt", sep="�", header = 'infer', engine = 'python')

Μπορεί να μου εξηγήσει κάποιος τι ακριβώς παίζει με την κωδικοποίηση, και γιατί δεν μπορώ να χρησιμοποιήσω το σωστό σύμβολο; Γιατί η python βλέπει το ù σαν ω στα windows, και σαν � στο macos;

 

 

Δημοσ.

Προφανώς δεν έχει γίνει export σε utf. Σωστή λύση -> το κάνεις export σε utf

Δε γαμιεται λύση -> δοκιμάζεις τα δύο encoding που έχουν ελληνικα, και με όποιο δουλέψει, δούλεψε.

  • Like 1

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...