字符编码

来自GSXAB的知识库
字符编码
术语名称 字符编码
英语名称 character encoding

字符编码(character encoding)广义上指从字符二进制串的相互映射过程,狭义上其中指编码字符集中的码位二进制串间相互映射的转换算法。

字符本身通过编码字符集被对应到编码空间中的码位,狭义上的字符编码将编码空间中的码位映射到某种定长或变长的二进制编码。 从同一种编码字符集开始的映射也存在不同的映射,比如字节序以及加入纠错码、需要填充位等不同场景,在具体编码同时还会使用不同的具体策略。

因为一般说到字符编码时也包括了前面的字符集中字符到码位的部分,这一策略根据不同字符编码有所不同,因此具体的字符编码中的细节需要看具体编码指定。

常见字符集字符编码
原始编码 电报码( Morse 电码 BCD 码IBM 卡编码 -
早期二进制码位分配的编码 - BCDICEBCDIC ASCIIISO 646-US 、 ISO 646-IRV)
地区字符编码 - - ISO 8859 : ISO 8859-1 、 ISO 8859-2 、……
- - EUC 类编码,含第一个国标字符集 GB 2312
其编码 EUC-CNIBM 代码页 936)也称 GB 2312
多地区字符编码通过切换串兼容 - - 通用框架: ISO 4873ISO 2022 ,含 ISO-2022-CN
ISO-2022-CN 的简化: HZ 编码
无需切换串的自同步编码 - UTF-EDCBIC 字符集 Unicode / ISO 10646 ,有常见编码 UTF-8UTF-16UTF-32 及废弃编码 UTF-1UTF-7
地区字符编码扩充 - - 国标系列后续:GBK微软代码页 936)、 GB 18030微软代码页 54936