Συμβολοσειρές

Genevil · 14 Μαρτίου 2012

Μπορεί κάποιος να μου εξηγήσει πώς μπορούμε να χρησιμοποιήσουμε ελληνικούς χαρακτήρες σ'ένα πρόγραμμα

(όταν γράφουμε σε C ή C++ κυρίως, ή οποιαδήποτε άλλη γλώσσα αν δεν έχει διαφορά),

Πώς ακριβώς δηλαδή δουλεύει η κωδικοποίηση χαρακτήρων και ποιές οι πιθανές διαφορές σε κάθε σύστημα..

Επίσης τι είναι οι διάφορες μορφές κωδικοποίησης, όπως η UTF-8, ASCII, unicode κτλ...

Ευχαριστώ...

albNik · 14 Μαρτίου 2012

Η κωδικοποίηση unicode περιέχει 2^16 χαρακτήρες που αρκούν για όλες τις γλώσσες (αγγλικά,ελληνικά, κινέζικα ...). Συνεπώς για κάθε χαρακτήρα χρειάζεται 2 bytes(=16 bit).

Το ascii περιέχει 128 χαρακτήρες (7 bit για το καθένα) και αποτελείται από τα αγγλικά, αριθμούς ...

Κάθε γλώσσα έχει το δικό της codepage (Greek-1253, Greek-737, Russian) που περιέχει 256 χαρακτήρες.

Οι θέσεις 0-127 είναι ίδιες για όλα τα codepages.

Οι άλλες 128-255 έχουν τα σύμβολα της κάθε γλώσσας.

Αν εσύ δημιουργήσεις ένα αρχείο και γράψεις μέσα του bytes >128, τότε ανάλογα με τι codepage το ανοίξεις θα δεις διαφορετικούς χαρακτήρες.

Αν το ανοίξεις ως unicode θα διαβαστούν τα bytes δυο-δυο.

Δεν υπάρχει τρόπος να γνωρίσεις σε τι codepage έχει γραφτεί ένα αρχείο.

Το notepad θα ανοίξει το αρχείο με το default codepage του συστήματος.

Σύνδεση

Συμβολοσειρές

Προτεινόμενες αναρτήσεις

Genevil

albNik

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση