Unicode

Article

January 29, 2023

Unicode (Unicode) è uno standard industriale per i codici carattere che definisce set di caratteri codificati e metodi di codifica dei caratteri. È caratterizzato dal fatto che il set di caratteri (set di caratteri) è un singolo set di caratteri su larga scala (da esso deriva il nome "Uni"). In passato, i codici carattere originariamente sviluppati dal paese o da ciascun produttore non erano compatibili. Il metodo di coesistenza di codici a più caratteri ha lo svantaggio di sovrapporre i caratteri, quindi anche se ci sono lievi differenze, se i caratteri sono sostanzialmente gli stessi, verrà assegnato un numero per integrare i codici carattere di ogni paese e azienda. . Proposto da Xerox, che ha tradotto le workstation Star in giapponese (J-Star) negli anni '80, e creato dal Consorzio Unicode con la partecipazione di Microsoft, Apple, IBM, Sun Microsystems, Hewlett-Packard e Justsystems. Lo standard internazionale ISO / IEC 10646 e lo standard Unicode sono formulati congiuntamente in modo da avere la stessa tabella di codici caratteri.

Panoramica

Unicode è stato creato con l'idea di rendere disponibili tutti i caratteri utilizzati nel mondo in un set di caratteri comune e viene utilizzato in Unix, Windows, macOS, Plan 9, Java e così via. Include non solo personaggi moderni ma anche personaggi antichi, personaggi storici, simboli matematici, pittogrammi, ecc. In una certa misura viene presa in considerazione anche l'interoperabilità con i codici carattere pre-Unicode e, quando è richiesta l'identificazione storica e pratica, viene presa un'area di compatibilità e la conversione come codice originale → Unicode → codice originale ( Nella conversione andata e ritorno), alcuni si considera che i personaggi ritornino al loro stato originale. Tuttavia, se rientra nell'intervallo del normale JIS X 0208, ci sono pochi problemi, ma vengono mischiati più set di caratteri, CP932 che è lo stato effettivo di Shift_JIS, CP51932 e eucJP-MS che sono varianti di EUC-JP, ecc. sono supportati. Può causare caratteri confusi a causa di caratteri diversi.

Modello di codifica dei caratteri Unicode

Secondo il modello di codifica dei caratteri Unicode, il codice dei caratteri è suddiviso nelle quattro fasi seguenti. Abstract Character Set (ACR): Un insieme non ordinato di caratteri da codificare. Set di caratteri codificati (CCS): un set di caratteri astratto che corrisponde a un numero intero non negativo. L'intervallo di questo numero intero non negativo è chiamato spazio del codice, ogni valore è chiamato posizione del codice e il carattere astratto diventa un carattere codificato dopo la corrispondenza. I caratteri astratti possono corrispondere a più caratteri codificati. Formato di codifica dei caratteri (CEF): un metodo per convertire un numero intero non negativo in un set di caratteri codificati in una stringa di unità di codice. Il formato di codifica dei caratteri consente di rappresentare effettivamente i caratteri come dati in un computer. Codifica dei caratteri (CES): un metodo per serializzare una sequenza di unità di codice in una sequenza di byte. Se l'unità del segno è maggiore di 8 bit, è coinvolta l'endianness. Successivamente, la stringa di byte può essere compressa con gzip o convertita con Base64, Quoted-printable, ecc. Per passare attraverso una linea di trasmissione a 7 bit, ma questi sono al di fuori dell'intervallo del codice del carattere.

Set di caratteri

Lo spazio del codice del set di caratteri Unicode è 0-10FFFF16 con 1.114.112 punti di codice. In Unicode 12.1 (pubblicato il 7 maggio 2019), vengono assegnati 137.929 caratteri (12%), 65 vengono utilizzati come caratteri di controllo e 137.468 punti di codice (12%) sono protetti come caratteri privati. Inoltre, vengono utilizzati 2048 caratteri come punti di codice sostitutivi per UTF-16 e 66 punti di codice speciali non vengono utilizzati. I restanti 863.536 punti di codice (75%) sono inutilizzati. Punti di codice Unicode e nomi univoci vengono utilizzati per identificare i caratteri. Ad esempio, "a" è U + 0061 (LETTERA LATINA A) e "♪" è U + 266A (OTTA NOTA). Unicode.