Unicode
Article
January 29, 2023

Unicode (Unicode) è uno standard industriale per i codici carattere che definisce set di caratteri codificati e metodi di codifica dei caratteri. È caratterizzato dal fatto che il set di caratteri (set di caratteri) è un singolo set di caratteri su larga scala (da esso deriva il nome "Uni"). In passato, i codici carattere originariamente sviluppati dal paese o da ciascun produttore non erano compatibili. Il metodo di coesistenza di codici a più caratteri ha lo svantaggio di sovrapporre i caratteri, quindi anche se ci sono lievi differenze, se i caratteri sono sostanzialmente gli stessi, verrà assegnato un numero per integrare i codici carattere di ogni paese e azienda. . Proposto da Xerox, che ha tradotto le workstation Star in giapponese (J-Star) negli anni '80, e creato dal Consorzio Unicode con la partecipazione di Microsoft, Apple, IBM, Sun Microsystems, Hewlett-Packard e Justsystems. Lo standard internazionale ISO / IEC 10646 e lo standard Unicode sono formulati congiuntamente in modo da avere la stessa tabella di codici caratteri.
Panoramica
Unicode è stato creato con l'idea di rendere disponibili tutti i caratteri utilizzati nel mondo in un set di caratteri comune e viene utilizzato in Unix, Windows, macOS, Plan 9, Java e così via. Include non solo personaggi moderni ma anche personaggi antichi, personaggi storici, simboli matematici, pittogrammi, ecc. In una certa misura viene presa in considerazione anche l'interoperabilità con i codici carattere pre-Unicode e, quando è richiesta l'identificazione storica e pratica, viene presa un'area di compatibilità e la conversione come codice originale → Unicode → codice originale ( Nella conversione andata e ritorno), alcuni si considera che i personaggi ritornino al loro stato originale. Tuttavia, se rientra nell'intervallo del normale JIS X 0208, ci sono pochi problemi, ma vengono mischiati più set di caratteri, CP932 che è lo stato effettivo di Shift_JIS, CP51932 e eucJP-MS che sono varianti di EUC-JP, ecc. sono supportati. Può causare caratteri confusi a causa di caratteri diversi.Modello di codifica dei caratteri Unicode
Secondo il modello di codifica dei caratteri Unicode, il codice dei caratteri è suddiviso nelle quattro fasi seguenti. Abstract Character Set (ACR): Un insieme non ordinato di caratteri da codificare. Set di caratteri codificati (CCS): un set di caratteri astratto che corrisponde a un numero intero non negativo. L'intervallo di questo numero intero non negativo è chiamato spazio del codice, ogni valore è chiamato posizione del codice e il carattere astratto diventa un carattere codificato dopo la corrispondenza. I caratteri astratti possono corrispondere a più caratteri codificati. Formato di codifica dei caratteri (CEF): un metodo per convertire un numero intero non negativo in un set di caratteri codificati in una stringa di unità di codice. Il formato di codifica dei caratteri consente di rappresentare effettivamente i caratteri come dati in un computer. Codifica dei caratteri (CES): un metodo per serializzare una sequenza di unità di codice in una sequenza di byte. Se l'unità del segno è maggiore di 8 bit, è coinvolta l'endianness. Successivamente, la stringa di byte può essere compressa con gzip o convertita con Base64, Quoted-printable, ecc. Per passare attraverso una linea di trasmissione a 7 bit, ma questi sono al di fuori dell'intervallo del codice del carattere.Set di caratteri
Lo spazio del codice del set di caratteri Unicode è 0-10FFFF16 con 1.114.112 punti di codice. In Unicode 12.1 (pubblicato il 7 maggio 2019), vengono assegnati 137.929 caratteri (12%), 65 vengono utilizzati come caratteri di controllo e 137.468 punti di codice (12%) sono protetti come caratteri privati. Inoltre, vengono utilizzati 2048 caratteri come punti di codice sostitutivi per UTF-16 e 66 punti di codice speciali non vengono utilizzati. I restanti 863.536 punti di codice (75%) sono inutilizzati. Punti di codice Unicode e nomi univoci vengono utilizzati per identificare i caratteri. Ad esempio, "a" è U + 0061 (LETTERA LATINA A) e "♪" è U + 266A (OTTA NOTA). Unicode.Titoli di articoli correlati
ホーム
JIS X 0213
符号化文字集合
文字符号化方式
文字コード
大規模文字セット
1980年代
Starワークステーション
ゼロックス
マイクロソフト
Apple
IBM
サン・マイクロシステムズ
ヒューレット・パッカード
ジャストシステム
ユニコードコンソーシアム
ISO/IEC 10646
Unix
Windows
macOS
Plan 9
Java
文字コード
JIS X 0208
Shift JIS
CP932
EUC-JPの亜種
符号位置
直列化
エンディアン
gzip
Base64
Quoted-printable
十六進法
JIS X 0201
JIS X 0208
JIS X 0212
JIS X 0213
中国
日本
韓国
漢字を統合
CJK統合漢字
ブロックの一覧
閲覧ソフト
顔文字
UTF-8
UTF-16
UTF-32
基本多言語面
UTF-8
上位互換
バイト順マーク
UTF-16
バイト順
UTF-32
Microsoft Office
フリーウェア
シェアウェア
テキストエディタ
Linux
C言語
UTF-7
Base64
ASCII
SMTP
エイプリルフール
ジョークRFC
バイト
8ビット
オクテット
ノネット
CJK統合漢字
ワード
PDP-10
ACOS-6
面
代用符号位置
国際化ドメイン名
Punycode
古ハングル
Java
Windows NT
Windows 95
基本多言語面
$
€
基本多言語面
追加多言語面
絵文字
追加漢字面
第三漢字面
追加特殊用途面
私用面
JIS X 0208
2002年
OS
フォント
アプリケーション
常用漢字
2010年
DIS 10646#DIS 10646第1版
Xerox
ユニコードコンソーシアム
JIS X 0201
JIS X 0208
JIS X 0212
ハングル
追加面
ユーロ記号
CJK統合漢字
拡張A
JIS X 0213
シンド語
2008年
異体字セレクタ
麻雀牌
電話機の星印
Adobe-Japan1-6
ARIB外字
携帯電話の絵文字
新トルコリラ
ルーブル
アゼルバイジャン・マナト
WAVE DASH
変体仮名
BMP
SMP
SIP
TIP
SSP
ハングルの大移動
芝野耕司
Shift JIS
JIS X 0201
日本
中国
通貨
円記号
ASCII
バックスラッシュ
C言語
エスケープ文字
C言語
printf
フォント
ISO 646
韓国
ウォン記号
デンマーク
ノルウェー
Ø
ISO 8859
JIS X 0221
波ダッシュ
マイクロソフト
macOS
CP932
波ダッシュ#Unicodeに関連する問題
ダッシュ (記号)
波ダッシュ
全角チルダ
双柱
平行記号
マイナス記号
ハイフンマイナス
セント (通貨)
£
否定記号
Windows Vista
ブロック (Unicode)
0000-0FFF
1000-1FFF
2000-2FFF
3000-3FFF
4000-4FFF
5000-5FFF
6000-6FFF
7000-7FFF
8000-8FFF
9000-9FFF
A000-AFFF
B000-BFFF
C000-CFFF
D000-DFFF
E000-EFFF
F000-FFFF
10000-10FFF
11000-11FFF
12000-12FFF
13000-13FFF
14000-14FFF
16000-16FFF
17000-17FFF
18000-18FFF
1A000-1AFFF
1B000-1BFFF
1C000-1CFFF
1D000-1DFFF
1E000-1EFFF
1F000-1FFFF
20000-20FFF
21000-21FFF
22000-22FFF
23000-23FFF
24000-24FFF
25000-25FFF
26000-26FFF
27000-27FFF
28000-28FFF
29000-29FFF
2A000-2AFFF
2B000-2BFFF
2C000-2CFFF
2D000-2DFFF
2E000-2EFFF
2F000-2FFFF
30000-30FFF
31000-31FFF
32000-32FFF
E0000-E0FFF
Unicodeのブロック
面
用字
0 BMP
基本ラテン文字
ラテン文字
ラテン1補助
ラテン文字拡張A
ラテン文字拡張B
注音符号
合成可能なダイアクリティカルマーク
コプト文字
ギリシア文字
キリル文字
0 BMP
アルメニア文字
ヘブライ文字
アラビア文字
シリア文字
ターナ文字
ンコ文字
サマリア文字
マンダ文字
0 BMP
デーヴァナーガリー文字
ベンガル文字
グルムキー文字
グジャラート文字
オリヤー文字
タミル文字
テルグ文字
カンナダ文字
マラヤーラム文字
0 BMP
シンハラ文字
タイ文字
ラオス文字
チベット文字
ビルマ文字
グルジア文字
ハングル
エチオピア文字
チェロキー文字
0 BMP
カナダ先住民文字
オガム文字
ルーン文字
タガログ文字
ハヌノオ文字
ブヒッド文字
タグバヌワ文字
クメール文字
モンゴル文字
0 BMP
タイ・ナ文字
タイ・ロ文字
ブギス文字
タイタム文字
バリ文字
スンダ文字
バタク文字
0 BMP
レプチャ文字
オルチキ文字
0 BMP
ギリシア文字
一般句読点
文字様記号
その他の技術用記号
0 BMP
囲み英数字
罫線素片
ブロック要素
その他の記号
0 BMP
点字
グラゴル文字
ティフィナグ文字
0 BMP
CJK部首補助
漢字
康煕部首
漢字構成記述文字
CJKの記号及び句読点
平仮名
平仮名
片仮名
片仮名
注音字母
注音符号
0 BMP
CJKの筆画
片仮名拡張
囲みCJK文字・月
CJK互換用文字
CJK統合漢字拡張A
易経記号
CJK統合漢字
0 BMP
イ文字
リス文字
ヴァイ文字
バムン文字
シロティ・ナグリ文字
0 BMP
パスパ文字
サウラーシュトラ文字
ルジャン文字
ジャワ文字
チャム文字
0 BMP
タイ・ヴィエト文字
タイ・ヴィエト文字
メイテイ文字
サロゲート (high surrogate)
サロゲート (high private use surrogate)
0 BMP
サロゲート (low surrogate)
私用領域
CJK互換漢字
CJK互換形
特殊用途文字
1 SMP
線文字B
リュキア文字
カリア文字
古代イタリア文字
1 SMP
ゴート文字
古ペルム文字
ウガリト文字
古代ペルシャ文字
デザレット文字
デザレット文字
ショー文字
ショー文字
オスマニヤ文字
1 SMP
線文字A
キプロス音節文字
アラム文字
パルミラ文字
ナバテア文字
フェニキア文字
リュディア文字
メロエ文字楷書体
メロエ文字草書体
1 SMP
カローシュティー文字
古代南アラビア文字
古代北アラビア文字
マニ文字
アヴェスタ文字
パフラヴィ文字
突厥文字
古ハンガリー文字
1 SMP
ハニーフィー・ロヒンギャ文字
古ソグド文字
ソグド文字
ブラーフミー文字
カイティー文字
ソラング・ソンペング文字
マハージャニー文字
1 SMP
シャーラダー文字
グランタ文字
マイティリー文字
悉曇文字
モーディー文字
1 SMP
タークリー文字
アーホム文字
ドーグリー文字
ワラング・クシティ文字
ソヨンボ文字
1 SMP
グンジャラ・ゴーンディー文字
楔形文字
エジプト聖刻文字
1 SMP
アナトリア聖刻文字
バサ文字
パハウ・フモン文字
メデファイドリン文字
ミャオ文字
西夏文字
1 SMP
仮名補助
仮名拡張A
小書き仮名拡張
女書
1 SMP
太玄経記号
数学用英数字記号
メンデ文字
1 SMP
ドミノ記号
囲み漢字補助
その他の記号及び絵記号
顔文字
1 SMP
錬金術記号
2 SIP
CJK統合漢字拡張D
CJK互換漢字補助
3 TIP
14 SSP
15 PUA-A
補助私用領域A
16 PUA-B
補助私用領域B
JIS X 0221
ISO 15924
ISO/IEC 10646
ISO/IEC 10646
師茂樹
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
通貨
ユーロ記号
Unicode Consortium
Unicode Consortium
Unicode Consortium
小形克宏
INTERNET Watch
The Unicode Consortium
ISBN
The Unicode Consortium
ISBN
The Unicode Consortium
The Unicode Consortium
ISBN
The Unicode Consortium
ISBN
The Unicode Consortium
ISBN
The Unicode Consortium
ISBN
翔泳社
ISBN
小林龍生
東京電機大学出版局
ISBN
ISBN
星雲社
ISBN
Microsoft Corporation
アスキー
ISBN
三省堂
ISBN
Lunde, Ken
小松章
ISBN
ISO/IEC 10646
OpenType
Unicode一覧
Unicode一覧表
ブロック (Unicode)
Unicode参照アルゴリズム
機種依存文字
国際化と地域化
中西亮
文字コード
異体字セレクタ
UTC