跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
MediaWiki帮助
GSXAB的知识库
搜索
搜索
外观
登录
个人工具
登录
Advertising:
查看“︁UTF-1”︁的源代码
页面
讨论
简体中文
阅读
查看源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
查看源代码
查看历史
刷新
常规
链入页面
相关更改
特殊页面
页面信息
外观
移至侧栏
隐藏
←
UTF-1
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
[[分类:字符编码实例]] [[分类: ISO 标准]] {{InfoBox |name=UTF-1 |eng_name=UTF-1 }} {{#seo: |keywords=UTF-1 |description=介绍了 Unicode 传输格式中的一种历史格式UTF-1。UTF-1除了单字节编码控制字符和ASCII外,保证190个单字节取值可以出现在多字节字符后续字节中,并将Unicode码位按190的幂划分为多个区域,每个区域中的码位按照顺序当作190进制在编码中排列。 |modified_time={{REVISIONYEAR}}-{{REVISIONMONTH}}-{{REVISIONDAY2}} |published_time=2025-09-11 }} '''UTF-1''' 是一个将 [[Unicode]] 字符集编码为[[字节]]流的[[字符编码]]方法。该方法已过时。 UTF 即 Unicode Transformation Format , Unicode 传输格式。 这一编码是变长编码,每一个 Unicode 码位会被编码为 1、2、3、5 个字节。其编解码算法由于涉及非 2 的幂的乘除法,相对缓慢;且其需要使用 [[ASCII]] 中的可打印字符,会导致直接从字节串中判断 ASCII 中特殊可打印字符的方法失效,也就是对 ASCII 不兼容。这两个严重缺陷使得这一编码方式未受到广泛使用,而是快速被 [[UTF-8]] 代替。 == 编码规则 == UTF-1 会保证 <code>0x00-20</code> 和 <code>0x7F-9F</code> 不被多字节编码使用。这一点可以看作是对 [[ISO 2022]] 的兼容,对于 [[ISO 4873|C0 和 C1 控制字符]]区域、[[空格字符|空格字符 SPACE]] 和[[擦除字符|擦除字符 DEL]] 的所有单次出现时都保证其是这个字符本身。因此多字节字符编码中实际上字节只会使用剩下的 190 个取值。为使用这一方法,算法中会使用较多的对 190 取余数的运算。 UTF-1 使用单字节的 <code>0x00-9F</code> 编码原本的范围,也就是 <code>U+0000-009F</code> 。 然后, <code>U+00A0-00FF</code> 使用对应的双字节编码 <code>0xA0.A0-FF</code> ,也就是使用 <code>0xA0</code> 后连接上原来的字符。 接着,从 <code>0xA1.21</code> 开始到 <code>0xF5.FF</code> ,共计 85×190=16150 ,即 {{Hex|3F16}} 个编码,代表的是从 <code>U+0100</code> 开始到 <code>U+4015</code> 的字符,可以认为是去掉 {{Hex|100}} 偏移量以后拆分成两位的 190 进制,再将每个位各自对应到这 190 个可用的单字节取值上。 接着是三字节范围,从 <code>0xF6.21.21</code> 到 <code>0xFB.FF.FF</code> ,共计 6×190×190=216600 ,即 {{Hex|34E18}} 个编码,代表的是从 <code>U+4016</code> 开始到 <code>U+38E2D</code> 的字符,可以认为是去掉 {{Hex|4016}} 偏移量以后拆分成三位 190 进制,再将每个位各自对应到这 190 个可用的单字节取值上。 接着是五字节范围,从 <code>0xFC.21.21.21.21</code> 到 <code>0xFC.21.39.6E.6C</code> 的范围编码从 <code>U+38E2E</code> 到 <code>U+10FFFF</code> (现代 Unicode 最后一个码位)的字符。在最初规划中需要编码全部 <code>U+0000-7FFFFFFF</code> 范围所以理论范围是到 <code>0xFD.BD.2B.B9.40</code> 。同样相当于是多位的 190 进制数并对应。 === BOM === 带有 [[BOM 字符]]的 UTF-1 总是会把 BOM 编码为 <code>0xF7.64.4C ÷dL</code> ,可以用于判定编码(不过 UTF-1 是单字节编码,不需要判断字节序)。 {{常见字符编码}} == 参考资料 == https://en.wikipedia.org/wiki/UTF-1
返回
UTF-1
。
Advertising: