2.7.3. Κώδικας χαρακτήρων UNICODE

Κώδικας χαρακτήρων UNICODE

Ο κώδικας Unicode είναι ένα παγκόσμιο σύνολο χαρακτήρων (universal character set), δηλ. ένα διεθνές πρότυπο που παρέχει τη δυνατότητα κωδικοποίησης όλων των χαρακτήρων των σημαντικότερων γλωσσών του κόσμου. Αποσκοπεί να είναι ένα υπερσύνολο όλων των άλλων κωδικοποιήσεων συνόλων χαρακτήρων που παρουσιάζουν περιορισμούς για χρήση σε πολυγλωσσικά υπολογιστικά συστήματα. Με τον κώδικα ASCII και τους άλλους κώδικες των 8 bit μπορούμε να αναπαραστήσουμε συνολικά μόνο 256 διαφορετικούς χαρακτήρες. Οι πρώτες 128 θέσεις δεσμεύονται για το Λατινικό αλφάβητο και μερικά σύμβολα, ενώ οι υπόλοιπες 128 για το τοπικό μη-Λατινογενές αλφάβητο.

 

Διαφημίσεις

 

Στο παρελθόν, διάφοροι οργανισμοί, συγκέντρωσαν διαφορετικά σύνολα χαρακτήρων και δημιούργησαν κωδικοποιήσεις γι’ αυτά (π.χ. ένα σύνολο μπορεί να κάλυπτε μόνο τις λατινογενείς δυτικοευρωπαϊκές γλώσσες ή μια ιδιαίτερη γλώσσα της Άπω Ανατολής, όπως τα Ιαπωνικά). Αυτό είχε ως αποτέλεσμα μια εφαρμογή να μην μπορεί να υποστηρίξει όλες τις κωδικοποιήσεις, αλλά ούτε μια συγκεκριμένη κωδικοποίηση επαρκούσε για να καλύψει όλα τα γράμματα, σημεία στίξης και τεχνικά σύμβολα μιας συγκεκριμένης γλώσσας. Επιπλέον, ήταν συνήθως αδύνατος ο συνδυασμός διαφορετικών κωδικοποιήσεων στην ίδια ιστοσελίδα ή σε μια βάση δεδομένων.

  • Ο κώδικας Unicode παρέχει ένα μεγάλο, ενιαίο σύνολο χαρακτήρων που έχει ως στόχο να συμπεριλάβει όλους τους χαρακτήρες που απαιτούνται για κάθε σύστημα γραφής στον κόσμο, συμπεριλαμβανομένων των αρχαίων συστημάτων γραφής (σφηνοειδής γραφή, γοτθική και αιγυπτιακή ιερογλυφική γραφή). Επίσης περιλαμβάνει και άλλα σύμβολα που χρησιμοποιούνται στα μαθηματικά, τις Φυσικές Επιστήμες και τη μουσική.
  • Πλέον, ο ρόλος του είναι σημαντικός στην αρχιτεκτονική του παγκόσμιου ιστού και τα λειτουργικά συστήματα, και υποστηρίζεται από όλα τα προγράμματα πλοήγησης και τις εφαρμογές.
  • Προτείνει έναν μοναδικό αριθμό (code point) για κάθε χαρακτήρα, ανεξάρτητα από το λειτουργικό σύστημα, το λογισμικό και τη φυσική γλώσσα. Οι πρώτες 65.536 (=216) θέσεις κωδικών σημείων (code points) στο σύνολο χαρακτήρων Unicode αποτελούν το Βασικό Πολυγλωσσικό Επίπεδο (Basic Multilingual Plane, ΒΜΡ) και περιλαμβάνει τους χαρακτήρες που χρησιμοποιούνται περισσότερο. Η τιμή του code point παριστάνεται με το πρόθεμα U+ ακολουθούμενο από τη δεκαεξαδική μορφή της θέσης του. Για παράδειγμα στο code point U+0041 αντιστοιχεί το “Latin Capital letter A”.
  • Παρέχει επίσης χώρο για περίπου ένα εκατομμύριο επιπλέον θέσεις κωδικών σημείων (code points) για συμπληρωματικούς χαρακτήρες (supplementary characters).

 

Διαφημίσεις
SEE ALL Add a note
YOU
Add your Comment
 
error: Το περιεχόμενο προστατεύεται!!
X