Morse 电码
| 摩尔斯电码 | |
|---|---|
| 术语名称 | 摩尔斯电码 |
| 英语名称 | Morse code |
| 别名 | 摩斯电码, 莫尔斯电码, 摩尔斯密码, 摩斯密码 |
摩斯电码(Morse code)指一种经典的信号代码系统,通过信号的排列传递信息。它可以被看作一种原始的、基于信号的字符编码。由于其原始载体并非有固定、可任意选择足够短时间的时钟周期的数字化载体,且由人类直接读写,无法进行压缩等算法,其传输效率普遍低于现代编码。尽管习惯上也被翻译为摩斯密码,但由于任意人都可以在不需要额外信息的情况下解读,相当于明文,无法被称为一种密码。
由于前后有多个不同版本,按照习惯,在不特殊指明时,都是使用时间最长且最广泛的国际 Morse 电码(international Morse code),本文也遵守这一习惯,主要介绍这一版本。
(国际) Morse 电码中使用五种不同的符号。每个字符的主体由个数不超过 5 的两种不同的信号构成:点和划,对应在电报机上以不同时长按下。此外,由于是变长编码且不是前缀码,必须插入额外间隔才能进行信号的分组,因此符号上还有信号间的停顿、字母间的停顿、单词间的停顿,因此一种有 5 种不同符号。
版本差异
美式 Morse 电码
编码上, 1837 年前后,由美国艺术家 Samuel Morse 、物理学家 Joseph Henry 、机械工程师 Alfred Vail 共同创造的电报系统。 最初只编码数字,在 1840 年扩展到字母和标点,据说是根据当地报纸中活字的比例估计了字母频率,按照高频字母更短的方式安排了编码。 前后有 1838 的原始版本和 1844 的主要版本。
在这一版中,电磁铁、弹簧和电报机触头组成的结构将在收到连续电流时,会在纸带上刻出凹陷,并在电流停止时断开。 构成长短两种不同记号,称为点(dot)和划(dash),且划的长度和间隔的长度均有区别。 这一版称为美式 Morse 电码(American Morse code)或铁路 Morse 电码(Railroad Morse)。
在美式 Morse 电码中,实际上存在 9 种不同的基本元素:
- 点
- 划
- 长划(表示字母 L)
- 超长划(表示数字 0)
- 字符内间隔(字符内多个点和划之间)
- 长字符内间隔(出现在 C O R Y Z & 这六个字符中)
- 短间隔(字符间)
- 中等间隔(词间)
- 长间隔(句间)
也就是说由于划和间隔均长短不一,实际上一个字母内的编码信息中存在 6 种不同的编码元素。
声音码
设计上 Morse 码被画在纸带上,根据图形确认对应编码,但是电报机接收者可以通过电机发出的声音听到开始划痕和结束划痕的时间,操作员很快发现不需要纸带也能够听声音画下或写下听到的字母。 使用无线电广播通讯后,点和划被发送为较短和较长的两个脉冲,训练中发现将这些脉冲的拟声当作词汇可以让学习者更容易建立起听觉信息和字母的联系。 因此随着无线电报接收器的发声功能发展,点和划开始有自己独特的读音。其中点被读作“嘀(dit)”,划被读作“嗒(dah)”,且不在词尾的“嘀(dit)”读作“di”以配合实际字符内间隔的时长。
Gerke 调整版
Friedrich Gerke 于 1848 年提出的版本修改了一些字符的编码,主要是去除了不同长度的画和不同长度的间隔,使得 Morse 电码中字符中只剩下点、划、间隔三种符号,也就是说区分编码的元素只剩下了点划两个。 由于这一版本原本用于德语,其中含有德语特色字符 Ä Ö Ü 和字母组合 CH 专属的编码,且不区分字母 I 和 J 。
国际 Morse 电码
基本采用了 Gerke 版的编码,并引入了来自其他版本的 O 和 P 、引入新的 J 的编码,重新对 0-9 进行了编码。 这一版本在 1865 年被国际电报大会(International Telegraphy Congress)标准化为“国际 Morse 电码(international Morse code)”,是更加通行且更加广泛使用的版本,到目前仍在使用。 由于 Morse 电码在军用场合的使用于 1997 年结束,在国际海事通讯中的使用于 1999 年结束,这一版本现在已经只被业余无线电爱好者使用。
编码特征
编码元素
国际 Morse 电码共包含五个基本元素:
- 点,或“嘀”: 1 单位长度时间的持续
- 划,或“嗒”: 3 单位长度时间的持续
- 字符内间隔(字符内多个点和划之间): 1 单位长度时间的间隔, 1 个“嘀”长度的间隔
- 短间隔(字符间): 3 单位长度时间的间隔, 1 个“嗒”长度的间隔
- 中等间隔(词间): 7 单位长度时间的间隔(最初为 5 个)
编码形式
在 Morse 编码中,字母用不超过 5 个点划编码,数字使用规律的 5 个点划编码,标点使用 5~6 个点划编码。部分扩展也会使用不同长度的编码。
缩略
prosign
字符间间隔和字符内间隔的不同使得多个字母可以被不间隔地使用来标记特殊含义,可以通过这些字母的本来意义来作为助记符。只是因为 Morse 电码排列并不具有前缀性质,这样的连续常常可以被解读为其他字母或其他字母组合。也写成几个字母加上划线来表示这一些字母是连续未分隔的而不是几个独立的字母。
电报用缩写
由于 Morse 电码传输速度十分有限,部分常见短语被使用了特殊的缩写(通常是首字母缩写),这些缩写仍然保留字母间隔,因此区分于 prosign 。这些缩写一般只用在电报中。
简语
由于 Morse 电码传输速度十分有限,人们发明了一些简化的表达来节省时间,其中包括大量以 Q 开头和 Z 开头的三字母表达,用以指代一些常用短语或固定句式,称为 Q 简语和 Z 简语。
数字简码
由于数字和句点(用作小数点)在编码中有大量连续的划,在表达数字时十分累赘,非正式用法中可能把连续多个划缩写成一个,称为数字的简码(cut number code)。 但是这样简化会和其他字母有冲突,需要根据上下文明确这里都是数字。
码位表
下表遵从一般习惯, . 和 - 分别代表点和划,空格代表短间隔(字母间隔), / 代表中间隔(词间隔)。另外也有人在手写时使用 / 同时代表短间隔和中间隔的。
| Morse 电码 [1][2] | ||
|---|---|---|
| 字母 | A | .- |
| B | -... | |
| C | -.-. | |
| D | -.. | |
| E | . | |
| F | ..-. | |
| G | --. | |
| H | .... | |
| I | .. | |
| J | .--- | |
| K | -.- | |
| L | .-.. | |
| M | -- | |
| N | -. | |
| O | --- | |
| P | .--. | |
| Q | --.- | |
| R | .-. | |
| S | ... | |
| T | - | |
| U | ..- | |
| V | ...- | |
| W | .-- | |
| X | -..- | |
| Y | -.-- | |
| Z | --.. | |
| 数字 | 0 | ----- |
| 1 | .---- | |
| 2 | ..--- | |
| 3 | ...-- | |
| 4 | ....- | |
| 5 | ..... | |
| 6 | -.... | |
| 7 | --... | |
| 8 | ---.. | |
| 9 | ----. | |
| 数字简码 | 0 | - |
| 1 | .- | |
| 2 | ..- | |
| 3 | ...- | |
| 4 | ....- | |
| 5 | ..... | |
| 6 | -.... | |
| 7 | -... | |
| 8 | -.. | |
| 9 | -. | |
| 标点符号 | . | .-.-.- |
| , | --..-- | |
| ? | ..--.. | |
| ' | .----. | |
| / | -..-. | |
| ( | -.--. | |
| ) | -.--.- | |
| : | ---... | |
| = | -...- | |
| + | .-.-. | |
| - | -....- | |
| " | .-..-. | |
| @ | .--.-. | |
| prosign | KA 或写作 CT 联络开始,消息开始 | -.-.- |
| BT 分隔符 | .-.-. | |
| AR 消息结束 ,段落结束 | .-.-. | |
| AS 等待(我将暂停数分钟,请等待) | .-... | |
| AS AR 等待(比 AS 更长) | .-... .-.-. | |
| SK 联络结束 | ...-.- | |
| HH 订正(表示上一字有错) | ........ | |
| HH AR 忽视(表示整条信息有错) | ........ .-.-. | |
| R 收到(表示接收到对方信息,不代表理解或同意) | .-. | |
| K 结束(表示邀请对方发送信号) | -.- | |
| VE 确认(已理解或验证对方信息) | ...-. | |
| ? 重说(请求对方重复,或放在另一个信号后表疑问) | ..--.. | |
| INT 疑问(放在另一个信号前表疑问) | ..-.- | |
常见编码
按时长二进制化
一般把一个单位时间长度的开关用一个二进制位编码,因此是以下数据二进制串的连接,且其中点划和间隔类一定交替出现,互相分隔。
- 点,或“嘀”: 1B
- 划,或“嗒”: 111B
- 字符内间隔(字符内多个点和划之间): 0B
- 短间隔(字符间): 000B
- 中等间隔(词间): 0000000B
压缩编码
由于字符内间隔总是固定存在的,可以使用定长编码省略掉固定间隔。通常可以两个二进制位编码一个点、划、短间隔(可以包括中间隔)三种状态。
中文电报码
1873 年《电报新书》起,中文通过四个数字编码一个汉字的形式转化为数字,也称为“四码电报”。
表中按照类似康熙字典的部首方式排列,四码即为其在码本上的位置,通常按照页(2 位数)、行、列的方式排列。 解读时需要通讯人员对照码本或记忆常见字的四码。而发送时则需要根据文字找编码,这样比较困难, 直到后来四角号码检字法索引、拼音索引等不断增加到了码本中。
由于只有数字,可以通过数字截断码的形式传播。
中文缩略
同样受限于电报的低效率与高费用,中文电报一般使用惜字如金的表述。 特别地,出现了月份用地支代替、日期用韵目代替的特殊表述(称为“韵目代日”),常见于民国时期。
码本
国内先后以中华人民共和国电信总局于 1971 年初版的《标准电码本》[3]和中华人民共和国邮电部于 1983 年编写的《标准电码本(修订本)》[4]为规范。
https://en.wiktionary.org/wiki/Appendix:Chinese_telegraph_code/Mainland_1983
| 常见字符集与字符编码 | |||
|---|---|---|---|
| 原始编码 | 电报码( Morse 电码) | BCD 码、 IBM 卡编码 | - |
| 早期二进制码位分配的编码 | - | BCDIC、EBCDIC | ASCII (ISO 646-US 、 ISO 646-IRV) |
| 地区字符编码 | - | - | ISO 8859 : ISO 8859-1 、 ISO 8859-2 、…… |
| - | - | EUC 类编码,含第一个国标字符集 GB 2312 , 其编码 EUC-CN(IBM 代码页 936)也称 GB 2312 | |
| 多地区字符编码通过切换串兼容 | - | - | 通用框架: ISO 4873、ISO 2022 ,含 ISO-2022-CN ISO-2022-CN 的简化: HZ 编码 |
| 无需切换串的自同步编码 | - | UTF-EDCBIC | 字符集 Unicode / ISO 10646 ,有常见编码 UTF-8、 UTF-16 、 UTF-32 及废弃编码 UTF-1 、 UTF-7 |
| 地区字符编码扩充 | - | - | 国标系列后续:GBK(微软代码页 936)、 GB 18030(微软代码页 54936) |