信息时代的汉文字优化与汉字书同文[1]
陈 明 然
一
汉字书同文,是汉文字学界近年来比较关注的课题。
在当今信息时代,讨论汉字书同文问题,必然要和汉文字的信息处理紧密地联系在一起。书同文研究中的一个重要课题——非对称简繁字问题,就是在计算机汉字处理领域的简繁转换中被提出来的。
统一两岸四地的汉字,以什么作为标准?詹鄞鑫教授提出:“评判汉字改革的过去和放眼汉字整理的未来,都必须以计算机汉字信息处理和交流的效率作为最首要的标准。” [2] 本文无保留地支持詹教授的这一观点,认为统一两岸四地的汉字,应以是否有利于汉文字的计算机处理为标准;也就是说,应以是否有利于解决信息时代汉语言记录符号和记录工具的矛盾 [3] 为标准。任文先生也曾讲到:“信息时代,文字不能脱离电脑和汉字编码而存在,书同文应与‘字同码’相结合,‘文字规范’应与‘编码规范’相促进。” [4] 所以,同一汉语语素的记录符号,目前的大陆规范字形和台湾标准字形,哪一个附合“有利于解决信息时代汉语言记录符号和记录工具的矛盾”这个标准,就应以哪一个作为“统一标准字形”。
比如“众(衆)”字,大陆的规范字形“众”,三个字元“人”之间界线清楚,很容易分解,字元的读音信息明确,可以很方便地对其实施键盘编码输入,而且字理明白,笔画少,手写也很方便;而台湾目前的标准字形“衆”,相比之下就不如大陆字形好。又如“丝(絲)”字,大陆简化后的字形“丝”,是一个连体字元[5],虽然可以也还可以方便地对其分解后应用于键盘编码输入,但按照这个字形进行的分解不符合“十忽为絲,糸五忽也” [6] 这个字理,不利于识字教学;而台湾现行字形“絲”,就符合这个字理,有利于识字教学,同时也可以方便地分解后应用于键盘编码输入。从计算机信息处理的角度出发对二者进行比较,“絲”要优于“丝”。
在对异体字的处理上,两岸四地哪一方规定的“正体”字更附合信息处理的要求,就应以这个字形为“统一标准字形”;如果某一个原已作为“异体字”淘汰的字形比之选为“正体字”的字形更附合信息处理的要求,就应该把二者换位;即把原“异体字形”扶正,把原“正体字形”淘汰 [7] 。如“籴(糴)”字,大陆把“糴”简化为“籴”,即取“籴”为规范字;台湾则取“糴”为正体字,把“籴”定为“糴”的异体字。应该说,“籴”的两个字元“入”和“米”界线分明,各个字元的读音明确,整字的字理也很清楚,书写又方便,比“糴”要好;但是“籴”只有两个字元,码元数偏少,产生编码冲突 [8] 的可能性比较大。如果采用“籴”为正体字会引起编码冲突的话,那就需要考虑采用“糴”为正体了。因为“糴”有“入、米、羽、隹”4个字元,比“籴”多了2 个字元,相应码元也就多了2个,发生编码冲突的可能性要比用“籴”作正体字小。
对于双方的等同异体字,本文认为也应该按“有利于解决信息时代汉语言记录符号和记录工具的矛盾”这一原则重新调整。如“蠹(螙)”,目前双方都把“蠹”作为正体字。笔者则赞同林夫先生用“螙”作正体字的主张 [9] 。对比“螙”和“蠹”两个字形,很显然,“螙”非常容易分解,而且字理清楚,笔画也少,好记好写,不仅方便计算机键盘输入编码,也有利于识字教学和手工书写 [10] 。相比之下,“蠹”的缺点是显而易见的。
同一汉语语素的现行字形和历史字形二者,也应该按上述原则处理。如果历史字形比之现实字形更附合于信息处理的要求,那就应该取历史字形为“统一标准字形”。许多专家学者提出的“非对称简繁字”[11]和本文作者提出的“连体字元” [12] 等就都属于这种情况。对于大陆来说,“非对称简繁字”中的繁体字即是其所对应简体字的历史字形。为了实现简繁之间的正确转换,就需要恢复这些繁体字的使用,将其归入“统一标准字形”之列。又例如“曹”字,现在使用的这个字形,上方的“”是一个连体字元,是把两个“東”简省后又连体而成。这就模糊了字元之间的界线,在计算机键盘输入编码中不易分解;而其历史字形之一“”,其三个字元相互之间径渭分明,很容易分解,而且对它的分解不会破坏字理 [13] 。
需要说明的是:前面所举的几个字例,只是为了帮助说明笔者汉字书同文应以是否有利于解决信息时代汉语言记录符号和记录工具的矛盾,即是否有利于汉文字的计算机处理为标准这一主张,并不是笔者对相关单字调整的最后学术建议。
[1] 本文是笔者为在七研会上宣读的论文《论信息时代的汉文字改革》加写的一章。《论信息时代的汉文字改革》全文,可以登录《语言文字网》(www.yywzw.com/cmr)阅览。
在《论信息时代的汉文字改革》一文中,笔者主要是论述了以下几个问题:
一、汉语言记录符号和记录工具的矛盾运动,是汉文字形体演变的直接动因,每一种新的记录工具的普及使用,都必然会促使汉文字形体发生新的演变;
二、信息时代,汉语言记录符号和汉字信息处理新工具——电子计算机的矛盾是主要矛盾;
三、信息时代汉文字改革的主要任务,不是拉丁化;也不是单纯的继续简化,而是要在原表意文字大框架内对当代通行的汉文字进行适度改革使之适应计算机处理的需要。
上述文章发表三年来,通过与网友的讨论,以及与书同文沙龙同仁的交流,对一些问题有了一些新的思考:如原来的文题《论信息时代的汉文字改革》中的“汉文字改革”这一提法,习惯上一般是和汉字的拉丁化联系在一起的。拙文既然是主张在“表意文字大框架”内对汉字进行调整,就不宜用“改革”这一提法,所以现在改为“汉文字优化”;再有就是,《信息时代的汉文字优化》和汉字书同文到底有什么联系?这种联系又有什么具体内容?于是就有了今天要提出来和各位讨论并向各位请教的这篇短文。
[2] 詹鄞鑫在《简化字问题学术研讨会》上提交的论文,李禄兴主编《汉字书同文研究》第4辑,香港鹭达文化出版公司2003年7月第1版或,载史定国主编《简化字研究》,商务印书馆2004年版。
[3] 有关“信息时代汉语言记录符号和记录工具的矛盾”,请参阅陈明然《论信息时代的汉文字改革》,载www.yywzw.com/cmr 。
[4] 见任文《汉字“书同文字之大思考”》,载冯寿忠主编《汉字书同文研究》第3辑,香港华夏文化出版有限公司2002年8月第1版。
[5] 关于“连体字元”,请参阅陈明然《连体字元小议》,载蔡新中、何华珍主编《汉字书同文研究》第5辑,香港文化教育出版社2004年6月第1版。
[6] 徐锴繋传:“一蚕所吐为忽,十忽为絲,糸五忽也。”
[7] 参阅陈明然《从汉文字的信息处理看异体字整理》,载www.yywzw.com/cmr。
[8] “编码冲突”是指2个或2个以上汉字的编码相同。编码冲突会使输入速度降低,在汉字的计算机键盘输入中应该尽量避免。
[9] 参见林夫《从汉字简化说到“蠹”字》,载沈克成主编《汉字书同文研究》第1辑,气象出版社2001年9月第1版。
[10] 《第一批异体字整理表》中没有这一组字,但《辞海》和《现代汉语词典》都把“螙”作为“蠹”的异体字;1990年重排的《新华字典》也把“螙”作为“蠹”的异体字。《汉语大字典》四卷2908页,“蠹”条:《说文》:“蠹,木中虫,从(音kūn,作者注),橐声。螙,蠹或从木,象虫在木中形。”2877页“螙”条:同“蠹”。并引梁启超《节省经费问题》:“螙日蛀木,木腐而螙安栖?”
[11] 关于“非对称简繁字”,请参阅陈明然主编《民间汉字书同文研究十周年纪念文集》中的《非对称简繁字研究》部分。香港鹭达文化出版公司2007年8月第1版。
[12] 参见陈明然《连体部件小议》,载《汉字书同文研究》第5辑,香港文化出版有限公司2004年6月出版。实际上前面论及的“丝”也是连体字。
[13] 《汉语大字典》卷二第1289页“”条:“”,音(一)cáo,义为“周匝,一周天”。《字彙补·木部》:“,《说文先训》:一周天也。”明代杨慎《丹铅续录·字义》:“,周帀也,自東而复于東,故从两東” 。《说文·東部》“”条:“,二東。曹从此阙。”徐灏注笺,灏按:“‘’、‘’相承,增‘曰’字,隶作‘曹’”