汉字规範和汉字信息处理技術
陈明然
(此文载香港《语文建设通讯》第105期)
笔者曾在拙作《汉字定量之我见》[1]中说过:“根據按‘现代通用’原则测定的字量所编制的字表,属于‘汉字规範’的範畴;而汉字信息处理方面的相关字符集,属于‘汉字信息处理技術标準’的範畴。”当时,这句话主要是从汉字定量这个角度来讲的。本文拟从汉字字形的角度,讲讲汉字规範和汉字信息处理技術的关係问题。
1.汉字规範和汉字信息处理编码标準
汉字规範和汉字信息处理编码标準,是两个不同的範畴。汉字规範规定了当代通用汉字字形,也为通用汉字之外的罕用字字形提供了参照;汉字信息处理编码标準,规定了收入标準的每个汉字在信息处理中所使用的代码,保证了汉字在信息处理中的有序使用。二者既有区别又有联繫。汉字信息处理编码标準在字形上服从于汉字规範,但在收字範围上又不完全局限于汉字规範,更不等同于汉字规範。gb2312-80、gbk、gb18030[2]等汉字信息处理编码标準中包含汉字之外的拉丁字母、俄文字母、日文平假名,片假名字符、希腊字母、阿位伯数字符號等等;gbk、gb18030还包含并不是规範汉字的繁体汉字。这些都已经明确地给予了證明。如果把二者相混淆,会引起在相关问题上的模糊认识甚至是文字使用上的混乱。
有一位海外华人朋友,就向笔者表达过他的困惑:既然gbk和gb18030是国家标準,为什么它所包含的繁体汉字不能算作规範汉字?我按本文第二自然段所述向他解释,却不能让他信服。这位朋友的论據是:有关部门早先印发的《中华人民共和国国家通用语言文字法学习读本》[3],把《信息交换用汉字编码字符集》纳入了汉字规範[4]。
2.规範字形和计算机字体
大家知道,规範(标準)汉字,在字形上一般都採用楷书和宋体。我国大陆的《通用规範汉字表》使用宋体,小学课本使用楷体;我国香港特别行政区政府教育局制定的《小学学习字词表》使用楷体;我国台湾地区的《国字标準字体》[5]使用楷体和宋体两种字体;各地的报刊杂志一般都使用宋体(标题除外)。
美国微软公司于2005年起推出vista视窗系统。该系统的中文版採用微软雅黑作为默认汉字字体。由于微软视窗系统极高的普及率,一时在社会上流行一种“微软雅黑将取代宋体”的说法。这是在字体上把计算机技术和国家汉字规范相混淆的表现。
计算机软件使用的字体,是软件设计者按照自己的审美观选定的。任何一种计算机软件,包括系统软件和应用软件,它所使用的字体都不能也不可能取代规范汉字字体——楷书和宋体。
首先,字形和字体是两个不同的概念。
字形,是指每一个字的构成成分以及各构成成分之间的位置关系。如“字”由“宀”和“子”构成;构成“字”的这两个部分在位置上是上下关系;又如“形”由“开”和“彡”构成,构成“形”的这两个部分在位置上是左右关系。表达不同意义的字,其字形必定互不相同。
字体,又称书体,是指文字的风格式样。常见的字体有宋、楷、隶、草、行、仿宋、魏碑等。同一种笔画,不同字体的表现形式各不相同。比如横笔,楷书表现为“一”;宋体表现为“一”;隶书表现为“一”;等等。对于整字来说也是这样。同一个规范字,不管用哪一种字体,其字形都必定相同;而采用同一种字体的不同的字,虽然字体相同,字形却互不相同。字体还有另外一种涵义,就是在书法上用于指具有代表性的著名书法家所形成的独特书写风格。如楷书中的欧(欧阳询)体、颜(真卿)体、柳(公权)体等等。
一般计算机汉字处理软件都提供宋、楷、隶、黑等字体由用户选择使用,此外,用户也可以自行安装自己需要的其它字体,如草书、行书等等。除此之外,在计算机字体市场上,还有五花八门的各种艺术字体,俗称“美术字”,如姚体、舒体、幼圆、彩云体、琥珀体、综艺体、嘟嘟体、橄榄体、黑棋体、白棋体、火柴体、卡通体、萝卜体、漫步体、咪咪体、黛玉体、……,不一而足。如下图所示:
可见,虽然vista视窗系统默认的字体是微软雅黑,但用户在使用文字处理软件如word时,完全可以使用宋体、楷体等标準字体。事实也证明,雅黑并没有能够替代宋体成为计算机汉字处理中的默认字体。
3.计算机不能处理的字和简繁转换出现的错误
早年的一些中文计算机应用软件,由于只支持gb2312—80,使得某些汉字不能输入计算机进行处理。有些人士认为这是因为体现国家汉字规范的相关字表中没有收入这些字的缘故。其实这又是没有搞清楚汉字规范和信息处理技術二者关系的一种表现。
这次国家新公布的《通用规範汉字表》(以下简称“《字表》”),把原来《第一批异体字整理表》中的6个“异体字”恢复为完全规範字;在特定用法上把39个“异体字”恢复为规範字。这45个字,在《字表》公布之前没有被承认为规範字,但是都可以在计算机上进行处理。反倒是《字表》新增的226个简化(规範)字中,起码有105个字目前尚无法在计算机上进行处理;因为这105个字在iso/iec10646以及国家相关信息处理编码标準中尚无相应的码位。
可见,汉字规范未收的字,在计算机上不一定不能使用;汉字规范已收的字,在计算机上不一定就可以使用。一个汉字是否可以在计算机上使用,其直接的决定的因素是在汉字信息处理的编码标準中是否已经被赋于了编码;还有一个因素是,有关应用软件是否支持大字符集信息处理编码标準。这就是说,要想让一个字能进入计算机进行处理,应该着眼于汉字信息处理编码标準和相关的应用软件。
由此想到在非一一对应简繁字的问题上,一些人士总是认为可以通过改善应用软件的功能即通过汉字信息处理技術来解决。这是行不通的。
汉字在计算机上的简繁转换,实质上就是同一个字的简化字形的代码和繁体字形的代码的转换。当二者之间为一对一关係的时候,简繁之间的相互转换必定準确无误;当二者之间是一对多的关係的时候,计算机就无法确定要把一个简化字形的代码转换成多个对应繁体字形代码中的哪一个。诚然,可以给软件设置一定的“智能识别”功能,来解决部分问题;但是用这个思路解决不了所有问题。所谓“智能识别”,就是事先在软件中设置好何词中用何字。例如“干涉”中用“干”;“乾净”中用“乾”;“主幹”中用“幹”等等。可是语言是活的,是极其豐富生动的。软件的“智能”,只能估计到常用词的用字,而无法预知活的语言的无穷变化。依靠软件“智能”,是无法完全解决非一一对应简繁字问题的。
把本应由计算机技術解决的某些字在目前尚不能进入计算机的问题归结于汉字规范收入与否;而把本应由汉字规范解决的问题寄托于计算机技術,真正是张冠李戴,南辕北辙了。[1] 载周胜鸿、陈明然主编《汉字书同文研究》第6辑,香港鹭达文化出版公司,2005年5月。
[2] gb2312-80的中文全称是《信息交换用汉字编码字符集——基本集》,收6763个汉字和682个非汉字符号;gbk的中文全称是《汉字内码扩展规范》,收21003个汉字(包括繁体字和日、韩汉字)和883个非汉字符号;gb18030的中文全称是《信息交换用汉字编码字符集基本集的扩充》,收70244个汉字(包括繁体字和日、韩汉字),以及我国部分少数民族文字和其它非汉字符号。
[3] 语文出版社; 2001年1月第一版。
[4] 该读本所列的是不包含繁体汉字的基本集和第二、第四辅助集;但由于和包含繁体字的gbk等同属于汉字信息处理标準,所以引起了这位朋友认识上的混乱。
[5] 按照本文的论点,这裡的“字体”,似乎以改用“字形”为宜。