汉语在计算机领域的前途

本文抄于因特网,作者不详。这里向对应的作者和网站致谢!2003.12  

汉语文字精炼,言简意赅,冗余度低,以最少的符号表达最丰富的含义,下面从信息学的角度予以阐述。  
  汉字、西文字母作为语言文字的最基本单位,用以构成词汇、句子,传达一定的信息,是信息的载体,如何对每一个汉字、字母所负载的信息进行度量?  
  现代信息学用熵来衡量平均信息量 , 熵表示指定符号出现的不肯定性。 西文字母采用的拼音文字字母有30个左右, 汉语以方块字为书写单位,数目成千上万,显然其随机出现的不肯定程度比西文字母的不肯定程度要大得多,从这一角度讲每个汉字载荷的信息量远远大于一个字母的信息载荷量。  
  但考虑到各个汉字出现的概率相差很大,生僻字出现的机率非常小,而各个西文字母出现的概率相差不大,因此用一种语言中各字符的出现概率为权数,求得所有字符的熵的加权平均值来表示该种语言各个字符的平均信息载荷量,这个加权平均值称为零阶熵值。  
  香农等人经过统计计算,得出法语字母的零阶熵值为3.98比特,意大利字母零阶熵值为4.00比特,西班牙字母零阶熵值为4.01比特,英语字母的零阶熵值为4.03比特,德语4.10比特,罗马尼亚语为4.12比特,俄语为4.35比特 。 八十年代后期北京航空航天大学对汉语进行大规模的统计计算,得出汉字的零阶熵值为9.71比特。  
  同理以词为单位,可以计算词的零阶熵值,经计算英语词的零阶熵为10.0比特,汉语词的零阶熵为11.46 比特。这表明汉语的词义也比英语丰富。  
  语言文字的另一个综合特征统计参数的是冗余度,用它可以反映由于语言结构的原因造成的句子中冗余符号的所占比例。  
  如“近代史上的民族英雄林则徐,因为他的事迹拍摄过电影,几乎家喻户晓了。”这一句子中包括标点符号共有33个符号。有人做过试验,删去其中的17个字符,仍能表达原意,也就是说这17个字符是冗余的,这17个字符所载荷的信息已包含在或通过语法、语义隐含在另外的16个字符中了。现代汉语中的量词就是冗余的汉字。  
  但冗余的字符并非毫无用处,去掉它们后句子就不符合语法规范,或者影响到语义的精确性,就像电报用语冗余度低,却容易产生歧义。  
  一种语言的冗余度难以精确统计,经专家测算,英语冗余度的上限为80%,下限为67%,平均值为73%;俄语的冗余度平均值约为70%;现代汉语冗余度的上限为73%,下限为55%,平均值为 63%,文言文的冗余度就更低了。  
  冗余度高的语言结构性好,语言信息精确,纠错能力强;冗余度低的语言则因为精炼原因有利于编码,易于信息传输,口头和文字表达都比较灵活。  
  联合国使用的几种语言,同一份文件,需要几种版本的材料,结果中文版的材料比其他语言版本的材料薄得多,这一点从事实上证明了汉语的精炼性。  
  一般英美大学毕业生的英语词汇量在八千左右,考“托福”所需的词汇量为五千至六千,考“ GRE”需要的词汇量是八千至一万。英文中的词语义项具有名词、形容词、动词、副词多种词类形式,也就是说几个词语表达的是同一义项,只是语法功能不同而已,因而英文中常用的义项就更少了。  
  而现代汉语的词汇就相当丰富了,仅常用词汇就有四、五万,这只是一般中学毕业生的词汇水平,且这些词语所表达的义项各不相同,不存在同一义项因词类不同有几种词语形式的情况。汉语中光成语就有几千个,且无一不是典故,个个都有完整的故事情节,这其中所蕴含的文化内涵可谓博大精深。  
  汉语组词方便,用字与字的组合来造词十分方便,如电电灯、电话、电视、电线、电扇、电脑、电池、电影、电流、电车、电报、电梯,易学易懂,就是生词,一见便能知其大意,也非常便于记忆,丰富的词汇量丝毫没有让我们感觉到记忆的困难。用英文表达上述各词,则互不相关,难以记忆。  
  利用计算机键盘进行编码输入时,词语可以作为一个整体进行编码,只取词语所包含的部分汉字的部分编码特征组成词语编码。大部分的编码输入方案中,词汇的编码长度为四键。两字词中平均每字负担的码长为两键;三字词中每字1.33键;四字词中每字一键……在现代汉语中,两字词在所有词语中的比重最大,达91.57%,三字词占5.10%,四字词占 2.75%,五字及五字以上的词语比例为0.58%。因此可以计算出,进行词语输入时,平均每个字只须1.93键。  
  现代汉语的词汇丰富,而词语可以进行整体输入,这就大大加快了输入速度。对词语进行整体输入是汉语计算机键盘输入的一个巨大优势。在汉字键盘输入的初期,确实是以单字形式逐一输入的;而现在各种输入方法,大部分的文字内容是以词语形式输入的,以单个汉字形式输入的只是其中的一小部分,从这个角度来考虑,“汉字输入”这一概念已经不准确了,应该用“汉语输入”、“中文输入”来替代。  
  至于那些单个的字,常用输入编码方案所定义的码长为三键或四键。设计编码时可以为那些使用频度高的汉字设置简码,码长为一键或两键。只要编码设计得当,现代汉语中的大量常用字均可用一、两键外加一空格键(结束简码的标志)输入。因此能够做到输入单个字时平均击键次数不超过三次。  
  利用词语、简码输入方式,减少击键次数,另外汉语的字之间没有空格,也减少了击键次数,这些都提高了汉语键盘输入速度。西文计算机键盘输入虽学习简便,但其在输入时词语的每一个字母、符号及词之间的空格都需要逐一录入,速度就慢得多了。汉语的精炼特点也是其输入速度快于西文的一个原因,可以说,面对计算机,汉语毫不逊色于其他语言。  
  当然,汉语输入须利用编码, 要学习编码规则, 学习起来有较大难度,但只要我们现在能够规范、优化目前的各种编码行为,让汉字编码进入一个有序的状态,再经过一段时间优胜劣汰的竞争,选择一两科学合理的汉语编码方案,并将这一方案贯穿于小学识字教育之中,也能让绝大部分人熟练地掌握。  
  经过二十多年的努力,汉字进入计算机早已不成问题,各种输入法层出不穷,数以千计。现在的问题在于如何选择最优秀的方案,使之更臻完善,更加优化,如何规范出最科学的的编码体系,使之成为全能化、固定化和国际化的通用文字处理系统,如同西方早期所作的优化、甄选最合理的字母键盘分布方案一样。当然汉语的这一过程要艰难的多,但只要完成了这一步,西方语言将难以望其项背。  
 
 
                 〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓 
                   为什么我的眼中含满了泪水  █▇▆▅▄▃ 
                   ▃▄▅▆▇█  因为我对这片土地爱的深沉 
                 〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓 
 
※ 来源:·日月光华站 bbs.fudan.edu.cn·[FROM: 210.74.230.71]