汉字光标准化和数字化就花了一百多年,它能在 AI 时代存续吗

在倾注数十年心血后,1946 年 4 月,林语堂成功发明了机械式中文打字机,取名 “明快”,并向美国专利局提交了申请。打字机键盘的 64 个键表示汉字的偏旁,8 个数字键用来选字,一共能打约 9 万个汉字。

  林语堂是中国少数成功的双语作家,出版了几十本中英文书,不止一次获得诺贝尔文学奖提名。但对他来说,中文打字机的发明和应用是其一生的梦想。为了研发,他用尽了自己畅销书的版税,负债高达 12 万美元(相当于现在的 140 万美元),几乎破产。

  虽然打字机如愿诞生,但这项革命式的创新生不逢时,遇上了中国内战和美苏冷战。林语堂 1948 年以 12 万美元的亏损价格卖掉专利。到 1952 年专利正式获批之时,中国与世界已经大为不同。没能应用的明快打字机,成了林语堂的终生遗憾。

  耶鲁大学教授石静远(Jing Tsu)觉得,长远来看,林语堂的努力是值得的。明快打字机将汉字书写体系导入了电传打字机等领域,也将汉语推向了世界舞台。它还为不久后发展起来的计算机技术确立基础(如机器翻译),对中国和西方来说均是如此。

  林语堂不是孤例。石静远发现,在汉字可能消亡之际,几代才智非凡的中国人为拯救汉字曾付出惊人且具有创造性的努力,这些努力最终保全了汉字。但这些人物与历史现在大多被遗忘或忽视。比如除了林语堂,航空工程师周厚坤也发明了中文打字机,他曾说,“文字无罪”。

  那些呼吁废除汉字的人是更知名的人物,如鲁迅、陈独秀、瞿秋白、钱玄同。鲁迅说过 “汉字不灭,中国必亡”。拉丁文字报 SIN WENZ BAO(《新文字报》)1940 年诞生于陕甘宁边区,已成为讨论汉字拉丁化的经典素材。

  石静远将林语堂、周厚坤这些 “边缘” 人物与历史写成著作《汉字王国:让中国走向现代的语言革命》(Kingdom of Characters:The Language Revolution that made China Modern)。这本书的英文版在 2022 年出版,并在 2023 年推出简体中文版。英文书名中的 “character” 有 “字”“人物” 的双重含义,也是该书的主题。

  今年 1 月,因患咽喉炎无法发声的石静远,接受了《晚点 LatePost》的邮件访谈。

  她认为,在一连串巨变的刺激下,中国人开始行动,努力使自己的语言达到与西方字母语言同等的地位。从草根民众到现代中国的最高领导层,包括知识分子、教师、工程师、普通公民、古怪的发明家、职责所在的图书馆管理员和语言改革者在内,大家全体动员,为寻求汉字的出路,发起了一场 1000 年来最非同寻常的革命。

  “今天人们所学所用的每一个汉字背后都站着一群为此投入了巨大精力的人。这些人仅凭着对汉语的执着与热爱,满腔抱负,筚路蓝缕,开辟了一个探索和革命的世界,开启了一段大胆而艰险的旅程。” 石静远在《汉字王国》中写道。

  《汉字王国》的每一章都是关于汉字走向现代的一个岔路口。石静远印象最深的是那些让汉字活下来成为可能的个人。“他们的奉献精神和痴迷程度令人震惊,他们希望汉字能在现代社会生存下去的愿望令人感动。” 她喜欢图书馆学者杜定友的古怪精神,他在战时护送数十万册图书,以确保它们的安全。他不仅发明了一种索引法,还造了一个字 “圕”(发音念 tuǎn,意思为 “图书馆”)。

  石静远对中文革命的系统研究始于 2010 年出版的专著《中国离散境遇里的声音和书写》(Sound and Script in Chinese Diaspora)。这本书探讨了中国大陆以外的作家,如何将汉语作为表达文化归属和差异的媒介,其中有一章聚焦的正是林语堂的打字机。自那以后,她称自己像童话里的女孩爱丽丝一样,掉入了 “兔子洞”,开启一段奇妙之旅。

  她想进一步探究,中文和英文的技术竞争如何从翻译问题演变为数字时代的信息战争?更重要的是,作为一个移民,她一直想以一种崭新且易懂的方式讲述中西方之间的故事。

  她觉得,语言创造并打开了世界。每个人都知道被误解的感觉和含义。几个世纪以来,汉字一直是中西方困惑、竞争和文化障碍的根源。研究中国科学史的英国学者李约瑟,就称汉字为 “长城”。在中西交流史上,经历过浪漫、幻灭、接受和排斥的戏剧变化。通过研究字母和表意文字系统之间的互动或冲突,基本上可以勾勒出这种关系的起伏。

此前,石静远的专业是中国现当代文学,研究转向汉语信息技术和语言革命,她觉得顺理成章。因为她从不满足于只做一个坐在扶手椅上的文学学者。她喜欢从文学基地出发,穿梭、漫游在不同的知识海洋,试图以新的方式将各点联系起来,然后重新回归文学研究。

  “文学研究是我了解万事万物的后台通行证。” 石静远对《晚点 LatePost》说。

  中国境内的交流

  《汉字王国》的篇幅只有 200 多页,但人物和事件众多,讲述了从 1900 年到 2020 年整整 120 年的历史。这注定它是一部简史,没有同类专题著作细致、深入和复杂 [1]。但也可以将它看作一本入门的导览。而且,由于作者采用非虚构写作手法,文笔优美,可读性强。

  第一章的开头,这样写道:

  “20 世纪的第一个春天。红松花已经盛开,泰山之巅仍覆盖着皑皑白雪。一天黄昏,一个和尚在无人注意的情况下到达了清王朝的东北海岸。暮色初临,他在烟台港下了船。码头上一片嘈杂,却压不住响亮的笛韵歌声。在这个不久前被英国占领的地方,英国战舰往来巡逻,探照灯有规律地来回扫过突入海中的岬角。和尚沿着海岸线匆匆而行,他那布满灰尘的僧袍中藏着一份将永远改变汉语世界的文件。”

  “后来见过这位行脚僧的人怎么也想不到他能做出如此惊世之举。他相貌普通,鼻子宽宽,两颊凹陷,严厉的目光正好与他紧抿的嘴唇相配。……其实,这个衣衫破烂、满面风尘的人是个假和尚,他用的名字也是假的,他的真名是王照。……过去两年间,他是朝廷重金悬赏的钦犯。……王照归乡的愿望压倒了对被捕的恐惧。他计划先到山东,然后辗转回到家乡——北方港口城市天津。他白天在野地里打盹,夜里借着星光赶路,最多一夜走 24 公里。”

  王照是 1898 年戊戌变法的号召者之一。变法失败后,为躲避清廷捉拿,他逃到了日本。流亡期间,王照完成了他心目中的救国之法,迫不及待冒险归国。他的救国思路是,要救国得新民,要新民就得提高国人的识字率,而要提高识字率就得统一国人的读音,也就是建立一种中国的标准语言。

  秦朝的 “书同文” 统一了书面文字,但没有统一口语,各地都有方言,像北方人和南方人经常无法交流。但跨区域的官员们必须沟通,他们慢慢发展出一种标准语言,清朝时称之为 “官话”。受地理影响,“官话” 也可细分,包括东北官话、北京官话、江淮官话、西南官话等等。

  那份藏在王照僧袍里 “改变汉语世界的文件” 叫《官话合声字母》。在这本线装小册子里,王照利用汉字的 62 个基本组成部分来代表发音,创造了一套注音符号系统来显示一个整字的读音。他也是提议将 “北京官话” 作为国家标准语言的第一人。

  经过努力,逃犯王照以笔名出版的《官话合声字母》慢慢在民间有了名气,甚至出现抄袭或者稍加改动的版本。还有人谎称官话字母的原理是另一本韵书提出。王照无法忍受自己的名声被玷污。他决定夺回官话字母的所有权,以确保官话字母得到恰当采用和传授。

  1904 年,王照投案自首,被判终身监禁。不过两个月后,为庆祝慈禧七十大寿,清廷赦免了除康有为、梁启超以外的所有戊戌变法参与者,王照也得以出狱。清廷后来接受了改进版的官话字母。到 1906 年,王照的官话字母开始在中国一半以上省份用于学童的汉语课本。

  1911 年辛亥革命后的次年,中华民国教育部成立读音统一会制定 “国音”,王照是 80 名代表之一。“国音” 的讨论异常激烈,广东代表想用粤语、四川代表力推四川话……每个地方的代表都想让自己的方言变成 “国音”。

  石静远记录了讨论中的一个插曲:一位吴地代表和邻座提到 “黄包车”,听惯了北方官话的王照以为是在骂自己 “王八蛋”。他从座位上跳起来要揪那人的领子,甚至追出了会议厅,“长长的走廊里逃跑者急促的脚步声淹没在王照的如雷咆哮声中”。吴地代表被吓得不敢回来开会。讨论最终,北方官话成为 “国音”。

  “国音” 的出现意味着中国有了标准的 “国语”,境内的交流障碍被打破。中华人民共和国成立后,在 “国语” 的基础上,才有了 “普通话”。

 在王照版官话合声字母基础上,发展出来的 “注音符号” 与 “汉语拼音” 发音的对应表。目前,中国台湾延用民国的注音符号,中国大陆采用 1950 年代发明的汉语拼音。图片来自:《汉字王国》。

  为了保持叙事简洁,石静远 “忍痛割爱” 了一些让自己兴奋的发现。比如她曾与两位顶级神经科学家交流。一位是她在 2015 年春天的洛杉矶见到的欧文·比德曼(Irving Biederman),现已离世。

  比德曼在 1983 年发表的一篇文章开启了人类 “识别” 的研究。他的实验发现,如果 A 画出一个咖啡杯的轮廓,然后擦掉几条线,B 仍然能认出是一个杯子,因为大脑会为 B 填补空白。但如果 A 擦掉轮廓的关键部分,比如线条相交的地方,那么 B 就无法识别出杯子。事实证明,在模式识别中,人类更喜欢相交的线条,而非连续的线条。

  另一位是她在 2015 年夏天的巴黎见到的斯坦尼斯拉斯·迪昂(Stanislas Dehaene)。她想证明或者推翻一个神话:相比字母文字,用中文学习、思考、阅读和书写真的对大脑的负担更大吗?因为 16 世纪以来,中西之间的许多争议都归咎于对这一差异的认知。当时她和迪昂还讨论了如何设计一个实验来探究答案。

  后来图书编辑觉得没有神经科学的内容,叙事会更连贯,所以最后她就没写。但前面问题的答案是:对,也不对。石静远解释,学习中文需要更多启动成本,但一旦学会,阅读速度就会更快。事实上,大脑能适应任何可用方法。阅读书面语言的能力建立在大脑中更深层次的结构之上,这些结构适用于识别模式。“仔细想想,汉字中充满了线条及其交叉点。” 她说。

  汉字与计算机的交流

  从发掘材料的角度看,《汉字王国》最为出色的是第六章(计算机怎么输出中文)和第七章(数字时代的汉文化圈),尤其第七章几乎全部基于作者的访谈和实地调查。它们也共同构成信息时代的汉字革命图景 [2]。

  1968 年,“牛棚” 里的支秉彝百无聊赖地生出念头:如何将汉字变成一种不需记忆,见到字就可按键输入计算机的代码语言?

  支秉彝意识到,要解决这个问题,需要开发一套为每个汉字编码的系统。在六平方米的囚室,他用一支偷来的笔在粗糙的陶制茶杯盖上,写下密密麻麻的几十个字,试着把每个字与一套可能采用的罗马字母相对应。然后他把杯盖擦净,每天靠脑子记录试验进展。

  24 年前,支秉彝在德国莱比锡大学获得物理学博士学位。为了报效祖国,他拒绝了美国的高薪工作和移民机会,选择回国效力。他先在浙江大学等高校任教,后进入实业界,参与制订了里程碑式的《1959—1967 年科学技术发展远景规划》。到 1964 年,支秉彝担任新成立的上海电工仪器研究所所长,负责推动中国电子通信技术的发展。但突如其来的 “文化大革命”,暂停了他的通信事业。

  1969 年 9 月,支秉彝离开 “牛棚”,被分配从事扫地、看守仓库、在工厂做模具等劳动改造工作。他把仓库当书房,存放捡来的外国报刊,继续埋头研究汉字编码。他从这些报刊了解到,日本、美国等都在推进汉字的计算机化。支秉彝大感振奋,觉得自己不是孤军奋战。

  最终,支秉彝决定结合 “偏旁”“笔顺”“拼音”“笔画” 来为汉字编码。他按照字的笔顺排列组成该字的各个偏旁的次序,使用每个偏旁的第一个拼音字母组成字的代码。比如 “路” 可分为 4 个偏旁:口(kou)、止(zhi)、攵(pu)和口(kou)。每个偏旁的首字母组合后就是 “路” 的代码 “KZPK”。

  代码限定为四个字母,所以如果拆字后只有三个偏旁,则第四个字母表示这个字的最后一笔,比如 “患” 拆分为口(kou)、中(zhong)、心(xin)三个偏旁,末笔为 “丶”(dian),代码则为 “KZXD”。如果拆字后是两个偏旁,除了末笔,再加一个本字表示代码。比如 “吴” 拆分为 “口”(kou)、“天”(tian),末笔为 “㇏”(na),本字为 “吴”(wu),所以代码是 “KTNW”。

  1978 年,支秉彝在中国的《自然杂志》上正式介绍了他的 “见字识码” 系统。除上述核心原则外,他还补充了一些规则,以保证编码的唯一性。这种使用 26 个字母、4 个字母一组的编码方式的最大字码容量约为数学公式: 26⁴≈ 46 万,远超中国人的常用汉字数量(3500 字)。

  在那篇文章结尾,支秉彝展望了 “见字识码” 的应用,并谦虚地表示:“‘信息化时代’ 的一个重要课题是 ‘汉字(语)信息化’。通向 ‘信息化时代’ 的殿堂,也许还有千门万户,‘见字识码’ 方法能不能为打开其中一扇门户贡献一把钥匙呢?”

  支秉彝的发明在 1978 年 7 月 19 日登上了《文汇报》头版——“汉字进入了计算机”。那年底,十一届三中全会召开,改革开放启动。也是在这一年,支秉彝回到了上海电工仪器研究所(新名为 “上海仪器仪表研究所”),两年后他当选中国科学院院士。

  “见字识码” 发明后,被上海电话局率先应用,并引发了汉字编码研究的高潮,1980 年代涌现了 400 多种汉字编码输入法。在这些方案中,中国的 “70 后” 和 “80 后” 最熟悉的可能是王永民在 1983 年发明的 “五笔字型输入法”,但对于 “90 后” 和 “00 后” 来说,“智能拼音输入法” 才是他们的集体记忆。

 解决了汉字输入计算机的难题,下一个问题则是如何将汉字变为数字输出信号。

  1972 年尼克松访华之后,中国的国际关系改善。新华社于次年访日,参观了共同社,目睹其如何印刷带有汉字的报纸。石静远叙述,新华社一行人看得满心羡慕,又备感难堪。他们看到日本的排字工人穿着白大褂,不慌不忙、轻松自如地敲击键盘。工作场所如同医院病房一样干净整齐。而中国国内,印刷和通信仍延续前几个世纪的工艺,主要用热排版术。印刷车间油污遍地,噪声震耳欲聋。

  1974 年 8 月,新华社和第四机械工业部联合第一机械工业部、中国科学院、国家出版局,一起向国家计划委员会和国务院发出呼吁,要求把汉语信息处理作为国家科技发展规划的优先事项。项目迅速得到批准,因批准日期是 1974 年 8 月,取名 “748 工程”。

  “748 工程” 的功勋人物是王选。他发明了第四代照相排版机,使用激光来编辑和排版汉字,被誉为 “当代毕昇”。王选的突破在于恰到好处地压缩字形——压缩太多可能会影响最终输出汉字形状的质量,压缩太少固然能够保证字的清晰,却解决不了记忆量过大的问题。

  他将汉字笔画分为直线(横、竖、折)和曲线,每种直线对应一个数字代码,曲线则用数学上的矢量表明一个字中每条线的起点、长度和方向。通过建立一个数学公式,汉字被数字化了,达到压缩目标。最终,王选的压缩方案可以让汉字按比例缩小到 1︰500。

  但他设计的汉字生成器需要高级计算机芯片承担中央控制的任务,中国生产不出这种芯片。早在 “文革” 前,中国的芯片产业就落后于美国等国。“文革” 期间,英特尔发明了微处理器,日本在全球存储芯片市场上占据很大份额。“文革” 结束后,中国的芯片产业百废待兴。

  1979 年,王选迎来了他的贵人李凡(Francis F. Lee)。李凡是麻省理工学院(MIT)电机工程学和计算机科学的教授。他来中国的官方使命是帮助清华大学成立第一个微信息处理实验室。这是石静远发现的被遗忘的贡献者之一。她找到了李凡的女儿访谈,并看了李凡的私人信件。

  李凡在南京长大,1948 年离开中国到 MIT 上学,两年后就获得电机工程学的学士学位,并开始攻读博士学位。出于养活妻儿的考虑,他没读完博士就去公司工作,参与计算机技术的前沿研究。他先在美国无线电公司(RCA)供职,后去了雷明顿兰德公司的 UNIVAC 超级计算机部门。1964 年,李凡回到 MIT,花了 16 个月拿到博士学位,并受聘为终身教授。

  王选向李凡介绍了自己的研究。李凡深表钦佩,说他已经指派自己在 MIT 的一个博士生研究汉字排版的课题,邀请王选去美国继续开展这个项目。王选认真思索了很久,最后婉拒了邀请。

  石静远介绍说,当时中国人才大量外流。“748 工程” 竭尽全力想留住工作人员。一次,一位项目管理人甚至下跪恳求各位工程师留下。尽管如此,不少顶尖的科学家和工程师还是离开了。有些人再也没有回来。

  离开中国前,李凡送给王选一件临别礼物。那是一本手册,介绍了用于高性能处理的最先进的 “Am2900” 模块半导体芯片。“Am2900” 仍在测试阶段,尚未定型。手册封面上印着 “研发中” 的字样。石静远称,“这本手册改变了一切”,帮助王选完成了技术发明的最后一步。

汉字光标准化和数字化就花了一百多年,它能在 AI 时代存续吗

  王选查看汉字激光照排系统排出的报纸胶片。图片来自:北京大学王选计算机研究所。

  1981 年,王选造出了计算机汉字激光照排系统的第一部国产原型机——华光一号,后正式投入商业市场,并数次改进、走出国门。1986 年,王选以他在北京大学的 “748 工程” 研究为基础,创立了方正集团。石静远觉得,方正集团是 “中国的传奇”,也是一个 “独特的混合体”——既有大学、政府参与,也有市场的力量加入,是 “社会主义与资本主义创业新实践的结合”。

  汉字文化圈的交流

  随着信息时代加速到来,互不相容的编码系统构成人们的交流障碍,催生了统一编码的需求。第一套得到广泛认可的编码标准是 1960 年代早期发展出来的美国信息交换标准码(ASCII),但 ASCII 是为字母文字系统设计,并未考虑汉字系统。到 1988 年,硅谷的工程师乔·贝克尔(Joe Becker)提出 “统一码”(Unicode)。

  贝克尔等人发起成立了非营利组织 “统一码联盟”。他们的理想振奋人心:统一码能起到总转换器的作用,涵盖各种语言所有现存的国家编码标准。它将把包括西方文字和汉字在内的所有人类文字系统归总到一套标准之下,给每个字分配一个标准码,可在任何机器之间流通。

  但石静远评论道,他们 “没有意识到语言文字的技术从来都是政治问题”。他们要统一亚洲的文字代码,殊不知牵涉的问题远比输入和输出方面的不兼容大得多。

  比如,日本人抱怨说,统一码联盟背后是美国计算机巨头的产业与商业利益,以美国大公司的利益为主来决定国际标准是不公平的。韩国人觉得,字符编码统一忽视了一个事实,那就是汉字书写传统在东亚实质上已经演变为不同的文化系统。

  一个基本问题是,应该把哪些字作为最常用的字纳入统一码的官方字符集?而且 “常用” 是对谁而言?统一码号称代表人类所有文字,但有些字在日本使用的频率比在中国或韩国高。还有,通用字符集应该以繁体字还是简体字为基础?

  为解决汉字文化圈内部的争端,中国、韩国、日本在 1993 年成立了表意文字工作组,次年越南也加入其中。表意文字工作组由统一码联盟和非营利组织 “国际标准化组织” 联合监管,每年开两三次会。会议内容是来自不同地区的工作组成员仔细审视成千上万个字符,代表们常常争吵不休。

  比如有些字历经好几个世纪后,形式发生了改变,却在日本和中国仍然具有同样的语义,那要统一吗?“読” 和 “读” 就是例子。再比如,“骨” 字在中国大陆、中国香港和中国台湾的写法不同,需要编三个码吗?还是统一为一个码?

石静远参加了表意文字工作组 2018 年的河内会议和 2020 年的深圳会议,观察并访谈了统一码联盟和表意文字工作组的成员。

  她向《晚点 LatePost》回忆,这些人来自不同地方,除了发起国,还有英国、美国等,将他们聚在一起的是对汉字的共同兴趣。接触真实的人,目睹他们的热情和承诺,一窥他们的生活、思想和世界,是一次令人激动鼓舞和心怀谦卑的经历。

  她记得,有一位瑞典血统、身材高大的编码员是个狂热的肉食动物,一口气喝下一瓶酒,但脸一点都不红。有一位为苹果工作的杰出语言学家拥有一座牧场,喜欢体力劳动。还有一位计算机科学家、统一码的创始人之一。1997 年江泽民访美时,他与江泽民即兴合唱了一首俄语歌。

  “我在书里写到的每一个人在我脑海中都历历在目。就好像我和他们一起生活,他们在我身上留下印记。你不会忘记那些邂逅。” 石静远说。

  中国香港的代表陆勤对她说,“一个表意文字能否在统一码中得到自己独一无二的代码,取决于它是被视为原字还是异体字”。异体字不会有自己的代码,而是会被归入子集,作为同一个字的另一个版本。石静远解释,这好比人脸 emoji 可以有不同肤色。问题是,在其他肤色出现之前,最先显示哪种肤色作为这一类 emoji 的代表。

  说到底,原字和异体字之争是文化正统性之争,所以各方才那么在意。石静远称,截至 2020 年,统一码中的汉字数目是 92856 个。表意文字工作组未来面临巨大的工作量,按照一种算法,仅仅是评议中国提议的字就需要花费两个多世纪。

  日本、朝鲜、越南引入汉字的历史至少有 1000 多年。在日本的韩国学者金文京曾在《汉文与东亚世界》一书中,以 “训读” 为切口,追溯了汉字在东亚世界的传播与演变,揭示了东亚各国不同的语言观、国家观乃至世界观。“训读” 指日文只借用汉字的形和义,不采用汉字的音。我们也能从中理解到汉字文化圈内部的复杂和争议的历史根源。

  统一码是汉字全球数字化的表现,但在不同国家内部,也在推动汉字的数字标准化。比如中国 2023 年实施新的《信息技术中文编码字符集》(GB 18030-2022)强制性国家标准。这一版本共收录 8.7 万多个汉字,比上一版增加 1.7 万多个字。更早的 2006 年,中国启动了世界上最大的文字数字化项目,宣称要增加录入 50 万个汉字。

  许多中国民众期待这样的变化。由于他们的姓名中有生僻字,无法进入信息系统,带来很多麻烦,比如上户口、办身份证和银行卡、在医院建档、移动支付等需要的实名认证。类似的还有含生僻字的地名,由于无法在信息系统中显示,就无法在地图上找到。

  石静远觉得,汉字不仅代表着文化和传统,还被磨利升级为一种技术,准备成为中国数字生态系统的第一步和基础。汉语的数字影响范围并不限于中国,或世界其他地区的汉语社群。中国的数字技术和基础设施欢迎更多人加入。

  “中国花了一个多世纪的时间学习如何实现自己语言的标准化并将其转变为现代技术,今天它终于走到了这个位置。中国正在成为从人工智能到量子自然语言处理,从自动化到机器翻译的各个领域的标准制定者。这条路才刚刚开始。” 她写道。

  美国人和中国人的交流

  《汉字王国》原版的预设读者是美国大众,所以在补充历史背景上费了不少笔墨,但对于熟悉这些历史的中国读者,恐怕会觉得啰嗦与多余。而且有评论者认为,这本书采用了和中国近代史教科书一样的屈辱史观叙事,即近代中国受到列强不公对待,有着屈辱感的国人奋发前进,最终实现了中国崛起。

  石静远不同意这个批评,觉得自己只是将屈辱史作为出发点,每一章讲述的是中国和中国人如何以一种持续、有效和出人意料的方式,积极参与并在现代世界中建立自己的影响力。在那个不利于汉字生存的世界里,他们逆潮而动,疯狂地争论、研究、测试自己的策略,为拯救汉字作出自己的贡献。

  “语言是身份认同的关键,民族主义只能建立在这一基础之上。” 她说。

 石静远的父母来自中国大陆,但她出生在中国台湾,在国民党 “戒严” 的环境下长大。1983 年,9 岁的石静远跟随母亲来到美国新墨西哥州的一个小镇定居。当时,母亲不会说英语,也没有多少钱,父亲则留在台湾。在母亲期盼的目光下,她像练习写汉字一样刻苦练习写英文字母,写字习惯也从自右向左竖着写改为自左向右横着写。

  石静远发现,学会写字母很容易,找到对字母这种形式的感觉却很难。她写下的英文不产生表意的联想,字母的发音似乎相当武断,没有汉语的抑扬顿挫,不能引起感情共鸣。这让她感觉奇怪。慢慢地,她在上了大学后,才真正学会用英语思考。

  “汉英两种语言的世界并不相合,而是相冲。在抒发胸臆、直觉反应、创造发挥的时候,我总是先用汉语思考。至于英语,我感觉它如同一种矫正器,把我掰来扭去塞入一个新模子。” 她在书中写道。

  身为移民的她明白两种语言背后的世界观及其冲突。在中美竞争的当下,她感觉华人被推到公众视野,处于风暴中心,比如被怀疑和指责不忠,甚至从事技术间谍活动。特朗普执政时发起的 “中国行动计划”,让她想到了冷战时的 “麦卡锡主义”。

  这些变化促使石静远有动力让美国人更多了解中国。她在生活中接触了太多偏见,例如她常被华盛顿的人要求解释像《孙子兵法》之类的古代中国思想。“你会用苏格拉底解释美国政治吗?当然不会。那为什么你会认为中国停滞不前呢?” 石静远抱怨道。

  她说,移民经历让自己深知,一个人为了生存愿意做出什么样的努力。这也是她对中国民族主义的理解。中国在 19 世纪和 20 世纪被西方列强分割,一直担心落后和灭亡。它现在将受害者经历和失败的观念融进激励人心的民族主义叙述中,称要 “伟大复兴”。某种程度上,这也是美国的故事,“再次伟大”。

  “两个世纪多以来,中国都是西方的学生,但西方对中国了解得远远不够。” 她希望增进两者之间的交流与理解,文化则是其中一把钥匙。有人觉得文化过于软性,但石静远认为,文化是一种非常灵活,但包罗万象的视野——它填补了经济或政治无法告诉我们的东西。

  “文化理解并非为了解决紧急时刻,而是为了缓解和预防危机时刻,就像我们现在所处的这种情况。如果你推迟这个需要长时间建立的文化理解过程,就会为下一次冲突做好完美的准备。” 她说 [3]。

  石静远的努力受到了肯定,《汉字王国》入围了 2023 年度普利策奖非虚构类决选名单。她称这本书在美国、英国、德国、荷兰都受到热烈欢迎。但另一方面,一些美国主流媒体批评这本书基本避开了政治问题。

  “没有哪位作家期望自己的书能取悦所有人”,她回应道,“如果你的目标是写一本取悦所有人的书,那么你就没有写出一本诚实的好书。正因为关于中国的话题可能引发激烈争论,所以我想提供一个平衡的视角——关注中国人及其文化”。

  虽然石静远在《汉字王国》想突出中国人的努力,但她也承认,尽管西方人和中国人有着不同的动机和目标,但中文革命为中国人和非中国人都提供了机会。他们走到一起,提出不同意见、展开竞争,将语言武器化,并在不知不觉中相互补充。通过这些或友好或敌对的努力,最终推动了汉字的现代化进程。

  例如,在法国人和丹麦人的努力下,才有了第一套中文电报码,并且长时间成为范本。再例如,1950 年代,MIT 教授塞缪尔·H. 考德威尔(Samuel H.Caldwell)负责了非营利机构 “图形艺术研究基金会” 的一个名为 “Sinotype” 研发项目。在林语堂的汉字索引和中文打字机的基础上,考德威尔发明了 “21 笔系统”。“Sinotype” 也被誉为第一台中文计算机。

  石静远发现,“中文计算机之父” 考德威尔一句汉语都不会说,一个汉字都不识。这一系统的 21 个汉字笔画是李凡和哈佛大学教授杨联陞两人帮助选择的。然而,这个事实从未公之于众,在图形艺术研究基金会的官方介绍册中也未提及。

 大约 1981 年,一位男士在苹果个人电脑上使用 Sinotype III 系统处理中文文本。图片来自:maoeraobjects.ac.uk。

  “Sinotype” 引起了美国政府的兴趣。五角大楼成立了一个小型工作组,由国防部、中情局和行动协调委员会的人员组成。这个小组认为,美国也许能够利用 “Sinotype” 在直接向汉语世界传播信息方面取得巨大优势。他们想请艾森豪威尔总统公开宣布 “Sinotype” 的发明。掌握第一台中文计算机有可能在冷战年代的反共意识形态斗争中起到决定性作用。

  然而,工作组经过进一步了解后决定,还需要更多证据来证明 “Sinotype” 真如图形艺术研究基金会所说是突破性技术。最终,五角大楼认为,作为宣传战的武器,“Sinotype” 的杀伤力还不够大。就美国的战略利益而言,用来破解俄语或汉语文件以及加密文件的机器翻译一类的技术更加有用。

  1960 年,考德威尔猝然离世,“Sinotype” 也没了负责人。按照墨磊宁的说法 [4],“Sinotype” 的生命仍在延续,几十年来在一个曲折的保管链上移动,其中的成员包括军事-工业-学界复合体中的各种机构:中情局、兰德公司、IBM、ITEK(一家美国安防承包商)、MIT、RCA,等等。到 1980 年代,该项目以 “Sinotype II” 的形式重生。考德威尔等人奠定的概念和技术框架成为中文计算机发展的基础。

  2023 年春,石静远应耶鲁大学校长之邀,开设了一门 “理解中国的六把钥匙”(China in Six Keys)的讲座课程。这是一项荣誉,上次这个系列开设关于中国的课程是在 1996 年,讲者是已故历史学家史景迁。

  她称,这六把钥匙或者六个关键,都会将历史与头条新闻或当前争议联系在一起,包括耶稣会士与中国宫廷的早期互动、中文及其政治化、科幻小说和科学技术的发展等。例如,1790 年代英国马戛尔尼使团访华时,中国人和英国人因世界观不同发生冲突。他们分析了这些世界观如何体现在仪式的微妙暗示,以及他们的着装和相互展示的方式之中。

  石静远觉得,与在美国研究中国的其他学者一样,她也关切并希望中美有一个更好的未来。但作为学者,她的工作很平凡,就想加深双方的文化理解,以历史眼光看待当前现实,提供一个更全面的视角。

  “文化高于纷争,是弥合冲突的桥梁。就像我在《汉字王国》中写到的行动者,在每一场社会或政治崩溃后,总会有一些人帮助收拾残局,让一切变得更好。作为一名学者和教师,我的任务就是将这种对未来的希望和开放延续下去。” 石静远说。

  人类与机器的交流

  “五笔” 好还是 “拼音” 好,曾是人们争执不休的话题。现在已无需争论,但问题背后的历史却能加深我们对汉字的理解。

  相比其他文字,汉字的三大要素是 “音”“形”“义”。以王照为代表的统一国语运动,利用注音符号解决了汉字 “音” 的问题,后来的各种方案都是在这基础上演进。即使汉语拼音全是字母,没有汉字的构件,但它本质上也被看作汉字的一种注音符号。中国台湾延续了民国的注音符号,所以它的主流计算机输入法也是 “注音输入法”。

  在新中国的汉字编码热潮前,民国曾有一场汉字索引竞赛。从 3000 年前的甲骨文开始,汉字就是一种象形文字,承担表 “义” 功能。长期以来,人们都是以整体视角看待汉字,觉得不可拆解。但为了分类和检索,东汉的许慎在《说文解字》中汇编确立了 540 个 “部首”。部首权威且神圣,一直延续到清朝,像《康熙字典》简化确立了 214 个部首。

  到了民国,人们发现部首制度已经无法适应现代检索的需求,所以汉字拉丁化的声音开始出现。那些不愿废汉字的人,则提出了各种索引方案拯救汉字,林语堂是其中的先驱。

 图 1 为林语堂在 1946 年发明的机械式中文打字机的键盘。“首钮” 有 36 个键,为一个字的 “上偏旁”(位于字的左上角),类似他最早提出的 “头两笔”;“末钮” 有 28 个键,为一个字的 “下偏旁”(位于字的右下角),也是一个字的末几笔。按下首钮和末钮后,机械滚筒转动,在显示窗会出现 8 个汉字。按下数字键选择后,字就打好了。理论上,这款打字机可以打约 9 万个汉字。图 2 为明快打字机的机械设计。图片来自:《中文打字机》。

  在 1917 年的《新青年》杂志上,林语堂写了一篇《汉字索引制说明》。他先确定了 5 类基本笔画(横、直、撇、点、勾),然后在这基础上,确定了 19 个首笔画,囊括了所有汉字书写的第一笔。接下来,林语堂把第一笔和第二笔放在一起,找出了 28 个头两笔的格式,几乎适用于所有汉字。

  不用任何数字、字母或者代码,林语堂仅靠汉字特有的笔画和笔顺就建立了一套以头两笔分类的 28 种组合。石静远称,“在林语堂之前,没有一个中国人提出过他这样完整的替代部首制度的方法”。相比几百种的部首分类,28 种的 “头两笔” 分类明显简洁,与英文字母 26 种分类的数量也差别不大。

  林语堂启发了后来者重视汉字的 “形”,通过拆分汉字、笔画笔顺和位置分析,建立不同的索引方法,比如王云五的四角号码法、杜定友的形位分析法,都是这个思路下的产物。到了林语堂 1946 年发明中文打字机,分类汉字的方法是 “上偏旁” 和 “下偏旁”,同样如此。

  汉字的计算机输入法继承了汉字注音和索引的思路。一类是 “音码”,即利用汉字的注音符号来编码,代表是拼音输入法;另一类是 “形码”,通过拆分汉字、笔画笔顺和位置分析来编码,五笔输入法就是代表;最后一类是 “音形码”,即结合汉字的 “音” 和 “形” 编码,支秉彝的 “见字识码” 是典型。

  从记忆简便角度,只侧重 “音” 或者 “形” 要比 “音形” 结合来得快。在没有解决同音字问题之前,虽然难记,但形码的准确度胜于音码。不过随着预测文本、自动补全、云输入技术的发展,智能拼音输入法不但基本解决了同音字的问题,还可以体现用户的个性化色彩,提升了打字速度,自然取代了形码。当然,随之而来的担忧是监控和隐私泄露。

  还有一种担忧是长期使用音码,会造成忽视汉字的 “形”,“提笔忘字” 的现象增多。类似的,长期使用形码,会造成忽视汉字的 “音”,说好标准语言的能力下降。

  墨磊宁没有这种担忧。他觉得,这些现象并不代表中国存在大量文盲、失忆或者书写障碍的人群,不然中国经济和教育早就崩溃。相反,在信息时代,所谓的 “书写” 正在发生变化,而用来理解 “语言” 的理论框架和术语却没有随之改变 [5]。

  他提倡关注 “技术语言”,即汉字除 “音”“形”“义” 以外的所有内涵,比如汉字的分类、检索、传输、物化、本体化,甚至概念化的方式。这些是语言的基础设施,让语言能够开始运作。

  按照这个思路,计算机的 “中文输入” 可以看作一种 “技术语言”。随着语音识别、眼球追踪、脑机接口、AI 技术的发展,也许不久键盘就不复存在,诞生新的 “技术语言”。

  石静远觉得,中文现在面临的问题是所有语言都面临的问题:当 ChatGPT 和 AI 能接管人类的思维过程,并替人类 “思考” 时,人类该怎么办?如果现在每种语言都能被拆解成一串串代码,那么人类是否最终只能被导向一种语言——数字语言?正如沃尔特·翁在 1982 年的著作《口语文化与书面文化:语词的技术化》(Orality and Literacy)提醒我们的那样,书写是人类发明的第一项技术。它使我们的思想成形,否则它们就像一团缠绕的碎片。

  她接着说,由于有了书写,人类能将自己的思想外化,跨越时空传递,并对其反思,形成更深层次的思想,从而发展出一种传统、共享的历史和文明。未来可能有其他技术出现,让人类能以现在我们无法想象的规模来完成上述所有事情。至少现在,人类已经在考虑下载和保存自己的思想,通过脑电波感应交流。过去我们觉得脑电波感应这种无语言交流是天方夜谭,但如今已在科技中体现。

  “有时对变化产生一种走向末日的衰退感是自然的反应。事实上,我们不知道通信技术的未来会发生什么,就像我们的前辈可能无法想象我们当前的发展状况一样。他们可能梦到了,但不知道具体的形态和形式。” 她透露,自己的下一本书其实就是有关汉语信息技术的未来。

 图 1 为一台 1970 年代的双鸽牌机械式中文打字机。新中国普遍使用的正是这种活字的打字机。如果遇到没有的字,一般是手写补充。图 2 为一种 “预测文本” 编排形式。整个字盘一般有 2450 个字,都以类似关联方式编排,也可以根据个人习惯和打字需求随时调整。图 3 为两张字盘的热图对比,一张来自民国时期(左),一张来自自然语言编排运动之后(右)。每个方格颜色越深,表示该汉字与毗邻汉字组词的数量越多(从 0 到 8 )。图 1 来自 wikiwand,图 2 和图 3 来自《中文打字机》。

  相比《汉字王国》,墨磊宁的《中文打字机》有些地方写得更有创造性。比如,他将林语堂的中文打字机看作最早的中文输入系统。英文输入是 “所打即所得”,中文输入则将打字过程转化为搜索过程,是一种 “人机交互” 模式。

  再比如,他称自己写作《中文打字机》一书最大的发现是 1950 年代中国打字员和排版员的故事。这些大多无名的劳动者通过日常的经验和努力,创造了个性化的自然语言汉字编排方式,包括常见的 “词”,以及专有名词和用语,例如 “革命”“政治”“社会主义” 等。随着成组出现的汉字之间的关联得到加强,同时也由于共产主义语言的重复性特征,利用这种实验性编排方式,打字员每分钟最高可以打 70 个字。

  墨磊宁认为,这就是已知最早实验和运用 “预测文本” 的技术。这种技术形式如今已成为中文搜索和输入法的普遍特征。实际上,如果说 “输入法” 已成为现代中文信息技术的一大支柱,那么第二大支柱无疑就是预测文本。

  与《汉字王国》的民族主义叙事不同,《中文打字机》和墨磊宁今年将出版的续集《中文计算机》(The Chinese Computer: A Global History of the Information Age)都是全球史著作。他希望反思信息技术在现代社会不平等的发展结构。

  稍微展开来说,现代的信息技术是为字母世界的人所设计,并不存在所谓的普适主义。全球有 50% 以上的人口使用非字母语言,为了融入信息技术,他们想出了各种具有创造性的解决方案。中文只是一个代表,其他还有阿拉伯文、希伯来文、东南亚和南亚的文字等。

  发源于西方的全球史想祛除西方中心主义,所以墨磊宁其实是在批评西方人技术想象力的贫乏,固守 “QWERTY” 键盘,远没有中文输入创造的 “人机交互” 和 “预测文本” 来得先进。这也是 AI 的一个基础和发展方向。一些学者觉得 AI 本质上就是预测机器 [6]。

四通打字机是中国大陆较早使用的电子中文打字机。它使用输入法(一般是拼音或五笔)打字,结束了机械中文打字机的历史,但后来被个人电脑取代。图为四通 MS-2403 打字机,展于中关村创业博物馆。图片来自:Wikipedia。

  经典的技术史叙事是连续不断的技术创新,书写成功者的传奇。但墨磊宁、石静远等学者却将目光投向了许多当时失败但从后视镜角度,具有奠基性意义的技术创新者,甚至还有无名的共和国打字员。这些人早已被淹没在历史的尘埃之中。毕竟,一项技术的成功并不只取决于技术本身的优劣,资本、政治和偶然等因素都可能发挥作用。

  另外,西方的工业、军事及其他设备和操作方式传播到非西方地区的传统叙事是 “技术转化” 和 “技术扩散”,比如新式火炮、矿井钻机。但因为中文的电报、打字机和计算机是一种根植于语言且以语言为中介的技术类型,超出了 “技术转化” 和 “技术扩散” 的维度,不能拿来就用。

  这再次提醒我们语言和文化的密切关系。在这个意义上,鲁迅的名言应该更正,如果承载中国文化的汉字已经消失,文化必将走向衰亡——皮之不存,毛将焉附?珍视汉字,也就是珍视中国文化,百年来保全汉字的种种努力应该被书写、被看见。

上一篇:

相关新闻