查看“︁UTF-1”︁的源代码

[[分类:字符编码实例]]
[[分类: ISO 标准]]
{{InfoBox
|name=UTF-1
|eng_name=UTF-1
}}
{{#seo:
|keywords=UTF-1
|description=介绍了 Unicode 传输格式中的一种历史格式UTF-1。UTF-1除了单字节编码控制字符和ASCII外，保证190个单字节取值可以出现在多字节字符后续字节中，并将Unicode码位按190的幂划分为多个区域，每个区域中的码位按照顺序当作190进制在编码中排列。
|modified_time={{REVISIONYEAR}}-{{REVISIONMONTH}}-{{REVISIONDAY2}}
|published_time=2025-09-11
}}
'''UTF-1''' 是一个将 [[Unicode]] 字符集编码为[[字节]]流的[[字符编码]]方法。该方法已过时。 UTF 即 Unicode Transformation Format ， Unicode 传输格式。

这一编码是变长编码，每一个 Unicode 码位会被编码为 1、2、3、5 个字节。其编解码算法由于涉及非 2 的幂的乘除法，相对缓慢；且其需要使用 [[ASCII]] 中的可打印字符，会导致直接从字节串中判断 ASCII 中特殊可打印字符的方法失效，也就是对 ASCII 不兼容。这两个严重缺陷使得这一编码方式未受到广泛使用，而是快速被 [[UTF-8]] 代替。

== 编码规则 ==

UTF-1 会保证 <code>0x00-20</code> 和 <code>0x7F-9F</code> 不被多字节编码使用。这一点可以看作是对 [[ISO 2022]] 的兼容，对于 [[ISO 4873|C0 和 C1 控制字符]]区域、[[空格字符|空格字符 SPACE]] 和[[擦除字符|擦除字符 DEL]] 的所有单次出现时都保证其是这个字符本身。因此多字节字符编码中实际上字节只会使用剩下的 190 个取值。为使用这一方法，算法中会使用较多的对 190 取余数的运算。

UTF-1 使用单字节的 <code>0x00-9F</code> 编码原本的范围，也就是 <code>U+0000-009F</code> 。

然后， <code>U+00A0-00FF</code> 使用对应的双字节编码 <code>0xA0.A0-FF</code> ，也就是使用 <code>0xA0</code> 后连接上原来的字符。

接着，从 <code>0xA1.21</code> 开始到 <code>0xF5.FF</code> ，共计 85×190=16150 ，即 {{Hex|3F16}} 个编码，代表的是从 <code>U+0100</code> 开始到 <code>U+4015</code> 的字符，可以认为是去掉 {{Hex|100}} 偏移量以后拆分成两位的 190 进制，再将每个位各自对应到这 190 个可用的单字节取值上。

接着是三字节范围，从 <code>0xF6.21.21</code> 到 <code>0xFB.FF.FF</code> ，共计 6×190×190=216600 ，即 {{Hex|34E18}} 个编码，代表的是从 <code>U+4016</code> 开始到 <code>U+38E2D</code> 的字符，可以认为是去掉 {{Hex|4016}} 偏移量以后拆分成三位 190 进制，再将每个位各自对应到这 190 个可用的单字节取值上。

接着是五字节范围，从 <code>0xFC.21.21.21.21</code> 到 <code>0xFC.21.39.6E.6C</code> 的范围编码从 <code>U+38E2E</code> 到 <code>U+10FFFF</code> （现代 Unicode 最后一个码位）的字符。在最初规划中需要编码全部 <code>U+0000-7FFFFFFF</code> 范围所以理论范围是到 <code>0xFD.BD.2B.B9.40</code> 。同样相当于是多位的 190 进制数并对应。

=== BOM ===

带有 [[BOM 字符]]的 UTF-1 总是会把 BOM 编码为 <code>0xF7.64.4C ÷dL</code> ，可以用于判定编码（不过 UTF-1 是单字节编码，不需要判断字节序）。


{{常见字符编码}}

== 参考资料 ==

https://en.wikipedia.org/wiki/UTF-1