义项语汇典例(SVDE)的总量控制模型

——人机协作对采用汉语注释的语义词汇典例进行计量分析


邹晓辉
qhkjy@yahoo.com.cn 

2004,7公布于潜科学网站

关键词语:字组细分、总量控制、人机协作、单语义项字典、双语用例词典

摘要

    语义词汇典例(SVDE)的总量控制模型,既是一种新理论,又是一种新方法,还是一种新工具。在人机协作网络(融智系统)中有两种总量控制模型,即:关于自然语言理解的文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。 GTCM表示在GLPS中的文本分为0~16个进阶。GSCM表示在SVDE中的音节分为1~n个进阶。SVDE的义项由成对的编号序列控制。字与解释字的义项的字组之间遵循1n的法则构成母语的SVDE(单语义项字典)。无论基于并列性还是基于合成性双语的观点,解释字的义项的汉语字组与解释词的义项的英语词语之间遵循11的法则构成双语的SVDE(双语用例词典)。

一、绪言

在人机协作网络(融智[1]系统)中有两种总量控制模型,即:关于自然语言理解的文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。本文探讨词汇一级的模型GSCM,属于计算语言学分支汉语词汇语义学的课题,位于全球语言定位系统(GLPS)与全球知识定位系统(GKPS)的结合部 [2]SVDE处理一字多义的方式,与学科内流行的“贴标签[3]”的方式不同,算得上是一种高效处理词汇语义的简便方法。为进一步寻找消除自然语言理解的语义障碍[4]的新途径,本研究的侧重点,不是“埋头拉车”,如:“贴标签”或分析“素、类、槽、格[5][6]”,而是“抬头看路”,如:把握形式化的方向、辨别可否计算、考虑知识表达以及关注各种本位说[7][8]。为了让读者以小见大、窥斑知豹,本文从理论回顾、模型发展、个案分析三个方面进行综述,然后,介绍方法、结果和结论。VSDE涉及两个假设:1、“单独存储(并列性双语者)与共同存储(合成性双语者)”[9]可由融智系统整合为典与例。2、汉语的混音节线串型字组(词语)是单音节层面型字组(汉字)与英语的混音节词语之间无歧义连接(同意并列)的纽带 (旨在保证双语的义项对译)。本课题的贡献在于:1、提出了字组细分的观点和GSCM2、提出了对语言和知识进行直接表达和间接计算的策略(区别于间接表达和直接计算的策略);3、为推行“产、学、研、用、算”一体化的人机协作实施语文系统工程和知识系统工程提供了SVDE体系,对消除词汇一级的形式歧义和内容歧义十分有益。

二、综述

    对语义问题的认识有一个由简单到复杂再由复杂到简单的过程。下面,分三个方面进行综述。

理论回顾

    1、在语言哲学方面,与本研究密切相关的是“意义”问题。“意义、词语、事物”这个“语义三角”一直是有争议的。以往理论主张“意义”作为词语或概念是不可分的。本研究认为可分。

    2、在语言理论方面,与本研究密切相关的是“本位”问题,各种本位说,首先反映不同的汉语语言观, 其次必然带来相应的各种理论,最后也必然影响汉语理论实践的各个方面。本研究的语言观:1、就古代汉语和现代汉语中与传统一脉相承的语言现象而言,认同字本位。2、就现代汉语中吸收西方语言而发生显著改变的语言现象而言,主张字组细分。这样,不仅能较好地与英语等西方语言的词、词组和短语对译,而且也能与其他本位观之间建立相互兼容的实用接口。本研究认为:汉语是拼字音节,汉语的混音节线串型字组是单音节汉字与英语的混音节词语之间无歧义连接的纽带。本研究为研究双语或多语和一文双语(涉及拼音)[10]以及一文多语(涉及方言)提供了参照模型。

3、在逻辑理论方面,与本研究密切相关的是“消歧”的问题。本研究认为:逻辑学实质上是一门研究消歧的学问。例如:二值逻辑和三值逻辑,就是处理二歧性与三歧性的问题。

    4、在数学理论方面,与本研究密切相关的是“多元数”问题。本研究认为,“多元数”不仅是数学与逻辑学之间的一个结合点(属下一步的研究课题),而且对复杂性系统的表达特别有用。

    5、在认知理论方面,与本研究密切相关的是“双语存储”问题。本研究认为:双语的单独存储模型与共同存储模型各持一端,故提出融智系统的整合协同存储模型(属下一步的研究课题)。

    6、在计算语言方面,与本研究密切相关的是“语言的计算与表达”问题。本研究认为:基于规则、统计、实例的处理既可以有直接计算(属性值)和间接表达(属性标注),也可以有间接计算(数字)和直接表达(直接呈现母语表达的知识)。词网(wordnet)与SVDE可以兼容。

7、在知识工程方面,与本研究密切相关的是“知识的计算与表达”问题。基于数据库及数据仓库,SVDE可以有效地处理常识性知识,在一定数量或规模的范围以内很有效。

    8、在信息理论方面,与本研究密切相关的是“信息的本质”问题。本研究对这个问题的探讨,是与前面的“义”的义项的研究联系在一起的,涉及一般科学的信息定义。

    9、在软件理论方面,与本研究密切相关的是“软件的计算与表达”问题。可用程序语言的冗余度很大。这增加了人们对软件编程的神秘感。本研究的方法有利于软件开发以简驾繁、去冗存要。

10、在人工智能方面,与本研究密切相关的是“智能的本质”问题。从时间顺序看,人类智能、人工智能、协同智能,前两者是后者的基础,“理解”属于“智能”体现的一种具体类型。

由此可见,要思考解决语义问题的方案,必然涉及很宽的领域。某个学科认为非常难的问题,在多个学科的角度看来,也许只是“小菜一碟”!

模型发展

    本文所述自然语言理解的总量控制模型(GCM)分为文本总量控制模型(GTCM)和音节总量控制模型(GSCM)。其中,在词汇一级,GTCM1~7七个进阶(即0~6七个表),GSCM有拼音文字(如英语)与非拼音文字(如汉语)的区别,以音节为单位,考虑语义,英语涉及六个进阶,词素是单音节,词、词组和短语都是混音节;汉语涉及三个进阶,字是单音节,字辞语统称字组(其中字视为独字组)是混音节。从字组细分的观点看拼字就是拼音节。上述分析与下表的思想一致。 

进阶

机码

表号

汉语

拼音

英语

1

 

0

基本笔画

字母表

26个字母

2

 

1

不成字偏旁部首

 

词头和词尾

3

 

2

变形字偏旁部首

 

前缀和后缀

4

 

3

字中字偏旁部首

 

词根

5

 

4

单音节字(独字组)是汉语的基本语言单位基本语

单音节

单音节的词

6

 

5

双音节字组(双字组)可区分:离心与向心

双音节

双音节的词或语

7

 

6

多音节字组(多字组)含45两种基本成份

多音节

多音节的词或语

个案分析

    汉语词义消歧的文献[11]谈如何标注“看”的词条。转述与分析:1、把“看”视为词,2、对多义的处理(有几个义项就列几行),3、分列标上“词类、义项、主体、客体、英语单词”等属性,4、汉译英时,根据搭配特征,选择与相应词条对应的英语单词,即:“see watch read”。显然,“看”与“see watch read”之间是“13”的关系。从“1”到“3”的转换靠“属性标签”间接实现的。识别或计算的也是“属性标签”或其搭配“特征集”。于是,存在几个问题:a、对汉语义项形式的表达是间接的。b、对汉语义项知识的计算是直接的。c、汉字与英词的对译出现脱节(绕了一个大弯)。当然,补上相应的汉语字组(义项用例)对译脱节的问题也就迎刃而解了。单从“拉车”的角度看,这个问题似乎很容易解决。遗憾的是,由于“埋头拉车”而没有“抬头看路”,所以,发现不了这个问题的存在(视而不见)。“看路”的人关注的方向不同。思路受制于观点——不同的语言观(大前提 )导向不同的方向。加上“拉车和看路”的人被习惯所左右——不同策略(小前提)制约选取知识表达和计算的方式。这就失去了改变的可能。本来看似简单的问题也就变得复杂了。就本例而言,就是在“看”(汉字)与“see watch read”(英词)之间增加“看见、观看、阅读”(汉语字组)。这样,“13”就直接转化为3个“11”(SVDE把这个转化一般化,GSCM使其总量可控——注:由于CLSW5对论文页数的限制,显而易见的对照表在此省略),汉译英的歧义自然消除。补上“看”字义项的字组用例并不难。但要改变语言观就非常困难,要改变习惯也不容易。

三、方法

汉语语义词汇典例(VSDE)的总量控制模型(GCM),是根据字组细分的观点和拼字音节的分划方法,把所有的汉语字组(词语)以单音节的字作为汉语的基本语言单位进行计量和排序(1~n)。其中,n表示自然数。也就是说,GSCM表示在VSDE中的音节分为1~n个进阶(由n个表记录)。SVDE的义项由成对的编号序列控制。字与解释字的义项的字组之间遵循1n的法则构成单语义项字典。无论是基于并列性还是基于合成性双语的观点,解释字的义项的汉语字组与解释词的义项的英语词语之间都遵循11的法则构成双语用例词典。GTCM表示在GLPS中的文本分为0~16个进阶。

    1、制作SVDE的定性方法——义项字典与双语用例的相互关系a、单语义项字典(参考认知理论的独立存储学说,以汉释汉为例)汉语:从单音节的汉字到混音节的汉语字组,一字多义的义项表述形式为“1n”;b、双语用例对译(参考认知理论的共同存储学说,以汉译英为例)双语:从汉语的混音节字组到英语的混音节词语,对译的双语用例的表述形式为“11”。

    2、制作SVDE的定量模型——汉语词汇与英语词汇的进阶层式a、文献《协同智能计算语言数据库的设计方法》曾经把汉语的“字、辞、语”分别排在GTCM的“第4、第5、第6”三个发展进阶层式的位置。b、对词汇一级而言,上述安排过于粗放,故进一步提出从单音节的汉字到混音节的汉语字组的细分方案,并且按照“单字、双字、三字、四字 ...多字”(具有可计算性)的表述形式,抽象地采用自然数进行表示,由于考虑到“单音节的汉字”位于GTCM的“第4”这个特定的发展进阶层式的位置,把“字、辞、语”即“第4、第5、第6”三个进阶以内的所有词语合并到一起,再另行按照“单字、双字、三字、四字 ...多字”(具有可计算性)的顺序,细分为“0~n”个进阶,并以此命名为:GSCMc、即:进阶层式数据库的“第4”表或字组细分数据库的第“1”表——单音节的汉字总表,字组细分数据库的第“0~n”表——混音节的汉语字组总表。d、词汇义项典例,即:“1n”单语解释字典和“11”双语对译词语(用例),是前述定性部分的内容。

    综上所述,词汇义项典例的总量控制模型(GSCM),由定性和定量两部分构成。

四、结论

词汇义项典例的总量控制模型(GSCM),既是一种新理论,又是一种新方法,还是一种新工具。

    1、字组细分的基本观点(GSCM体现的科学原理之一) 

    在词汇一级,主张对汉语词汇从单音节的字到混音节的字组进行细分的观点。字组细分可使汉语中蕴藏的通用原理更容易显现出来,例如:a、从音节与汉字一一对应的关系来看,汉语是最规范的(如:英语的词的音节就不规范,表现为混音节)。b、字组中字数的增加与语义中项数的减少之间表现出反变关系。c、可按音节数估算汉语使用过程中概念的个数与被重用次数。d、汉语词汇的基本数量,从一字到二字区别大呈上升趋势,再从二字到多字区别大呈下降趋势,例如:字(只有几万个)、二字组(已有人从语料中采集统计出几十万个)、三字组(例如三字经等常用三字词语的数量也不过几万个)、四字组(例如成语只有二万多个)...多字组(如歇后语等常用多字词语的数量则更少)。

    2、词汇语义的处理法则(GSCM体现的科学原理之二)

    基于字组细分的观点可归纳出自然语言(词汇一级)处理的基本法则。a、词汇义项的定性分析与重用法则(1)单语解释,遵循:“1n”法则。例如:单音节汉字总表中的汉字编号与义项编号之间,就遵循“1n”法则。(2)双语对译,遵循:“11”法则。例如:混音节字组总表中的字组编号与双语用例编号之间,就遵循“11”法则。采用混音节汉语字组表达的义项解释用例的编号与采用其它自然语言语种的词语表示的同一义项解释用例的编号是一致的和通用的。也就是说,尽管计算机前台展示的界面是多样化的,但后台数据库中存储的同一义项解释双语(多语)用例的编号是一致的。b、词汇义项的定量分析与重用法则(1)单音节的汉字总表,包含的汉字编号与义项编号两组数据是不对称的。混音节的汉语字组总表的义项编号与用例编号两组数据(“+”)是一致的,对译的混音节词语总表的义项编号与用例编号两组数据(“-”)也是一致的,而且“+”与“-”是对称的。(2)对符号的计量与重用以字的编号为基准;对语义的计量与重用以义项编号为基准。

五、评论

    1、实践意义 为人们汇编义项字典和用例大全,提供了简明的基本操作规范。不仅方便专家而且也方便大众(可共同参与),从而能够汇编一部有史以来规模最大、质量最高、通用性最强或适用面最广的网络版(汉释汉)义项字典与(汉译英)用例大全(其它语种可以此为样板)。在这个基础之上可以很方便地定制各种具体的有明确针对性的出版物(包括:印刷版、电子版、数字版)。

    2、理论意义 基于本研究提出的汉语字组细分的观点,不仅发展了汉语字本位的传统,同时也兼容了受外语影响而产生的词语观,而且还可使各种本位说从中找准自己的位置——既不夸大也不缩小,这样,既有利于汉语体系的建立,又便于与世界其它语言体系之间达成较好的交流、沟通与融合。

六、总结

    综上所述,GSCM是可计算、可操作、完全数字化的。VSDE,规则简明,提供了大众(广大师生)参与的条件(简单可行有法可依——便于“学法、立法、守法、执法、司法、监督”)。其他任何一种(太复杂、小作坊、各自为政)方法都做不到。本方法充分考虑到了“产、学、研、用、算”一体化的人机协作,不仅为大规模开发各种典与例提供了捷径,也为一个民族或一个国家极大地开发现有的智力资源提供了基础。以往的作法,要么过于依靠机器(“算”),要么过于依靠专家(“研”)。

参考文献

1、邹晓辉《融智学纲要》2004 http://culturegene.icpcn.com

2、邹晓辉《协同智能计算语言数据库的设计方法》2002 http://culturegene.icpcn.com

3、詹卫东《80年代以来汉语信息处理研究述评》见俞士汶等编《计算语言学文集》(第四集)

4、俞士汶《汉字和汉语民族语言进入信息系统》见俞士汶等编《计算语言学文集》(第四集)

5、林杏光《词汇语言学和计算语言学》1999语文出版社年

6、鲁川《汉语语法的意合网络》2001商务印书馆

7、徐通锵《语言论》1997东北师范大学出版社《基础语言学教程》2000北京大学出版社

8、陆俭明、郭锐《汉语语法研究面临的挑战》见俞士汶等编《计算语言学文集》(第四集)

9、汪安圣等《认知心理学》1996北京大学出版社

10、王开杨《“一语双文”的理论基础和面临的困难》见苏培成等编《语文现代化论文集》2002商务印书馆

11、王惠《汉英机器翻译中基于大型语义词典的汉语词义消歧》见黄河燕主编《机器翻译研究进展》2002电子工业出版社

12、俞士汶等编《计算语言学文集》(第四集)见http://icl.pku.edu.cn

The Gross Control Model of Semantic Vocabulary as Dictionary with Examples》Zou Xiao Hui

Abstract

The Gross Control Model [GCM] of Semantic Vocabulary as Dictionary with Examples [SVDE] is a new theory or method or tool. There are tow kinds of GCM in man-com-net including the Gross Text Control Model [GTCM] and the Gross Syllable Control Model [GSCM] on Language Understanding. GTCM means 0~16 levels with all kinds of texts in GLPS. GSCM means 1~n levels with all kinds of syllables in SVDE. The meanings of SVDE controlled by geminate numbered list("1...n" to "1...n"). SVDE with mother tongue is made by the way of that the meanings of words are paraphrased by phrases in the same language such as Chinese according to the law of "1" to "n" as "word" to "its paraphrased phrases". Bilingual SVDE is based on Co-ordinate Bilingual or Compound Bilingual according to the law of "1" to "1"("1...n" to "1...n") as "the numbered list of all meanings "to" the numbered list of all the paraphrased phrases both in Chinese and in English"

  义项语汇典例(SVDE)的总量控制模型,把中文信息处理“字处理平台、词处理平台和句处理平台这3个层次”有机地联系在一起,从而,为“中文自动分词和词性自动标注系统”与“其他深层次的语言处理技术,如名词短语捆绑、句法分析、语义分析等”奠定了坚实的基础它对“面向Internet的文本信息检索、过滤、分类、摘要”,“Internet环境下的机器翻译”,“语音识别”和“大规模的文本挖掘等领域,都具有非常实用的价值。

    “目前最具现实性和可能性的语言处理技术或者说本身研究相对成熟、潜在应用最广泛的技术,非中文自动分词和词性自动标注系统莫属。——孙茂松教授谈中文信息处理领域面临的机遇和挑战