自然语言处理的总量控制模型——形式化标准平台

邹晓辉

广东珠海井岸桥东恒美花园15-2201号  519125

e-mailqhkjy@yahoo.com.cn

摘要  除生物基因外,美国标准信息交换码ASCII是最成功的代码。如改进中文处理基本单元,国际统一代码Unicode将会更好。本文试图提供一个逻辑和数学上相对完备而堪称终极标准信息交换码Z-ASCII的基因文本数据库。那时就能更好地分析和解释各个中文处理单元的含义,同时,也不仅限于支持输入、输出、交换等固有的用法。基于Z-ASCII的中文处理单元的新用法是最简单且最有效的。中文与英文的区别相当大,对英文信息处理系统足够的ASCII,对中文信息处理系统却远远不够,因为,音节总量控制模型GSCM和文本总量控制模型GTCM在前者是一致的可在后者却不一致而需采用与GTCM相应的GBUnicode——因其太粗放而没充分顾及汉语特点,要提高中文信息处理智能化水平还需基于Z-ASCII

关键词  美国标准信息交换码  国际统一代码  音节总量控制模型  文本总量控制模型  终极标准信息交换码  间接形式化 

GCM FOR NATURE LANGUAGE PROCESSING

—— FORMALIZED STANDARD FORMAT

ZOU XIAO HUI

BEAUTIFUL-GARDEN BUILDING 15-2 ROOM 201 IN ZHU-HAI 519125

e-mailqhkjy@yahoo.com.cn

Abstract: Other than DNA, ASCII is the most successful code on this planet. The Unicode would even be betterSaid by Prof.Bergerhausen, if we improve on Chinese  processing unit in it. I will try in this paper as a logical and mathematical designer for the Data-Base as DNA of text processing unit which is called in Z-ASCII. Then it is the right time to analyze and explain the meaning of Chinese processing unit and it is not the old way just for input, output or typographic, exchange using of each Unicode-Carrier. That means we should use the new way of each Z-ASCII -Carrier of Chinese processing unit which is the simplest and the best resultful. It is well-known that Chinese processing units are quite different from English words and letters. It is enough for English information processing systems that we only use GSCM based on ASCII, but it is not enough for Chinese information processing systems, because we should use both GSCM and GTCM based on GBK or Unicode. So we should use Z-ASCII instead of unimproving GBK or Unicode with Chinese processing units to improve intelligentized Chinese information processing for that GBK or Unicode is too coarse to consider the characteristic of Chinese. .

    Keyword:  ASCII  Unicode  GSCM  GTCM  Z-ASCII  Indirect Formalization

1.引言

在过去几年,人工智能的研究取得了长足的进展[以中文信息处理为例:1,基于微型中文造字产生器的汉字基因芯片的产品化;2,电子辞典和计算机辅助翻译系统的产品越做越好,已有完全支持中文的计算机汇编语言(如:O语言)]。然而也还有很多重要的问题没有得到满意的解决[3,中文信息处理的基础研究薄弱(如:汉语语言学领域“各种本位说之争”和计算语言学领域“各种资源库之战”);4GBASCII之间在信息处理效率上的巨大差距仍然存在,而Unicode汉字处理部分几乎仍沿用GB的作法;5, 汉语形式化困难重重,机器翻译的消歧难题依然存在]。有鉴于此[1][2][3][4],本文提出了一种形式化标准平台——自然语言处理(含;中文信息处理)的总量控制模型,即:音节总量控制模型GSCM和文本总量控制模型GTCM及其底层技术规范——终极标准信息交换码Z-ASCII[5][6][7][8]

概述:本文属于自然语言处理与理解领域,涉及:机器翻译,复杂性,信息化与智能化。其应用,一方面,涉及:计算机辅助教育,如:计算机辅助汉语(英语、双语乃至多语)教学;另一方面,涉及:中文信息处理产品标准与产业发展,如:改进GBUnicode中文信息处理基本结构单元的部分。特殊性:直接采用工程融智学8大系统工程实验的前沿科技成果[9][10],探讨长期困扰自然语言处理与理解和机器翻译,复杂性,信息化与智能化等领域的消歧难题[11][12]重要性:为解决消岐[涉及:模式识别、语言理解、知识表达(典型实例:机器翻译)]的技术瓶颈提供理论模型、计算和操作的系统工程技术方法及底层技术规范。研究途径1、梳理工程融智学前期研究的有关成果,2、明确语言符号形式体系两种增长方式在计算方法上不同的技术处理特点,3、突出中文信息处理的双层结构(即:“层面型结构”与“线串型结构”)4、正式提出并强调自然语言处理(如;中文信息处理)的总量控制模型GCM——间接形式化(区别于直接形式化或间接而又间接的所谓直接形式化)标准平台。局限性:本文仅限于介绍GSCMGTCMZ-ASCII中文信息处理基本结构单元改进部分的构想或做法。其它相关内容及细节和应用实例需阅读参考文献。基本假设:自然语言处理的总量控制模型GCM——形式化标准平台,作为建立协同智能计算系统(如:融智计算机和协同智能计算网及其各种智能计算艾真体及专业化智能计算终端)的基础,其底层技术规范是Z-ASCII,结合其基础层和中、上层技术规范一道构成间接形式化数字代码阵列m n贡献:明确强调这种形式化标准平台——自然语言处理(如;中文信息处理)的总量控制模型GSCMGTCMZ-ASCII可把人助人的小范围默契交流推广到机助人的大范围默契通信(高效消歧)

2.综述

21.对待复杂问题与几何增长乃至指数爆炸问题的策略和技术路线

中文信息处理是自然语言处理的难中之难——(对中国而言)也是重中之重。从标准信息交换码的国家标准GB和国际标准Unicode看中文信息处理存在的一个根本问题。

211.由ASCIIZ-ASCII(本文仅涉及其中文信息处理部分)的标准竞争

信息产业ITWintel(微软视窗-因特尔芯片)垄断格局形成的根基,是作为文本基因的ASCII(美国标准信息交换码)。就目前情况看,它不仅是英语这一自然语言处理过程中识别、理解、表达的基础,而且,也是其他民族语和程序语言乃至各种专业术语处理的基础与解释或翻译的中介。可以说,它几乎已成计算机辅助人类进行知识信息数据处理的垄断文本基因。不仅GBUnicode都必须要与之兼容,而且基于GBUnicode的一切软硬件也都必须要与之兼容,否则,就没有产业出路。为什么会造成今天这样(英语民族主动而非英语民族被动)的局面呢?非英语民族(如:汉语民族)有必要改变它吗?能改变它吗?如果能,那么,必须怎样做呢?

朱邦复先生提出的汉字基因和中文语言开发小组提出的0语言从各自角度做了有益尝试,并取得了相应产品的一定市场地位。但因涉及语义信息处理这样非常复杂且常会遭遇指数爆炸而必须却又难以消歧的问题,故仅靠技术发明的浅层突破,而不从基础理论上取得实质性科学发现的深层突破,难从根上改变中文信息处理的被动局面。我们知道:朱先生所谓汉字基因实际是说概念基因(涉及:语义信息处理)。中文语言开发小组所谓0语言实际是基于汉语的汇编语言——程序语言汉语化、翻译或解释(涉及:语义信息处理)。由此可见,如果语义与信息的关系这一基本理论问题得不到较为满意的解决,那么,所谓汉字基因和0语言的技术突破也只能是散点式的阶段性突破。何况GBASCII之间在信息处理效率上的巨大差距仍然存在,而Unicode汉字处理部分几乎仍沿用GB的作法。显然,还须寻求理论及工程上的根本性突破。本文指出:创立Z-ASCII(这里仅探讨中文信息处理部分)是可取之路。这是一种适应当中求变革的创新做法。

212.中文信息处理的困难——既有非常复杂的一面又有指数爆炸的一面

我们知道:就质的方面而论,语义与信息的关系以及信息、理解、智能的本质探讨,是非常复杂的问题。如:汉语语言学领域各种本位说之争,说明问题已复杂到语言学专家也都难以就一个字(如:汉语“字本位”理论所强调的“字”)的含义达成共识[13]。试问这种消歧难题如何让计算机去自动处理呢?就量的方面而论,当n大到计算2n次方成为不可接受或代价不可容忍时,会出现指数爆炸问题。如:计算语言学领域各种资源库之战,说明各个研究小组之间实际上主要是在时间、精力、人力、物力、财力上拼消耗——因为各方都还没有对付指数爆炸问题的系统工程方案。上述两种情况是中文信息处理时常会遭遇而往往又捉襟见肘的。如:汉语形式化难题,特别是机器翻译的消歧难题依然存在,说明中文信息处理领域仍然沿用旧方法或继续走在以往的所谓直接而实际上是间接又间接的汉语形式化道路上[14]。显然,学界和业界都还没有找到高效解决非常复杂问题的良策和直接应用好算法的基本技术路线。近期,已有证据显示:旧观念不改变,即使再好的新理论、新方法或新途径出现,再聪明的人也会视而不见。

由于以往的对策,主要是各自为政寻求具体的形式化方法、各种程序语言和具体算法。这使学界和业界的精英们时常疲于应付。超子域进阶层式成员的特点是交叉、重叠、嵌套、复杂、非线性、几何增长。这凸显了直接处理这类问题的困难(即:自然语言处理的所谓直接形式化计算途径是死胡同!)——要么非常复杂,无从入手;要么指数爆炸,无法完成。须从根上改变被动格局。

213.我们为什么要提出间接形式化对策及方法

工程融智学和理论融智学的研究发现:实际上GTCM超子域进阶层式成员的问题解决,至少涉及两种等价的形式化计算途径,即:几何增长与算术增长、非线性与线性、复杂与简单。而以往的信息计算理论几乎都采用直接与前者挂钩的做法[如:哈特莱-申农的信息论,其后续者的各种计算路线也都没有走出指数-对数(仍是指数增长)模式]。本文的信息计算理论通过转换而采用后者。

根据工程融智学8大系统工程实验的初步结果,我们发现:GSCMGTCMZ-ASCII借助数据库及数据仓库的系列电子表格及其自动编号数字代码阵列,可系统全面地实现汉语(中文信息处理)间接形式化。即:一方面,系列电子表格的自动编号可视为基于算术的自然数数字代码;另一方面,多个双列表的自动编号构成的数字代码阵列又有系统而完整且现成的数学模型支持——非常利于做进一步的自动化处理。该方法也适用于英语及其它语种乃至多媒体数据的信息处理 [ 前提条件是工程融智学所述“字(含:数字与文字及特殊字符)、式、图、表、音、像、立体(静态虚拟)、活体(动态虚拟)”八大形式体系的广义文本基因皆可依据子全域平行层式元素异义排列序趣简美法则及超子域进阶层式成员总量控制相对完全归纳原则和同义并列对应转换法则纳入终极标准信息交换码(Z-ASCII)文本基因构造的基准参照系和GSCMGTCM文本进化发展的应对参照系的文化基因系统工程框架]

研究中,我们还发现:借助GSCMGTCMZ-ASCII容易构造基于母语(如;汉语或其它语种)和算数(如; 原先不可直接计算的对象,通过双列表的系列转换,可简化为算术问题而实现间接计算)的表格化(如;由数字化阵列与对象化字组一一对应同义并列的双列表可作为中文信息处理的间接形式化标准)编程辅助语言(无论是自然语言还是人工语言乃至图形图像语言几乎都可与之建立同义并列对应转换关系)GTCM支持的底层技术规范Z-ASCII既兼容ASCII又兼容GBUnicode并可使后两者得以优化。

众所周知,中文与英文的区别相当大。对英文信息处理系统足够的ASCII,对中文信息处理系统却远远不够,因为,GSCMGTCM在前者是一致的(即:对英文信息处理系统而言GSCMGTCM之间完全同义并列)而在后者却不一致(即:对中文信息处理系统而言GSCMGTCM之间只有局部同义并列关系)而需采用GTCM01234进阶层式(等价于GBUnicode中文信息单元)——GSCM起始于GTCM的第4进阶层式。由于GB(如:GBKUnicode中文信息单元的处理方式太粗放而没充分顾及汉语特点,因此,要提高中文信息处理智能化水平还需基于Z-ASCII

3.方法

首先,选域[设定:子全域、超子域、(有限)目标域、已知域、未知域,作为数据、知识、信息处理的限制范围(即:自然语言处理的前提条件)]定向。然后,测序(计算m n定位(即:进行自然语言处理)

31.选域定向——明确五域及其相互关系

子全域、超子域、(有限)目标域、已知域、未知域,简称:五域。已知:元素个数为n集合(如:子全域)子集(如:超子域)个数为2n次方。可知:子全域Z-ASCII元素(其对应的编号数字n是算术增长)超子域(其对应的编号数字2n次方是几何增长),是计算类型不同的两种形式体系。以下是化繁为简的具体转换步骤:

1)子全域1-m平行层式,其中,每一平行层式有1-n元素,其特点是:平行层式可列举,元素可穷举。平行层式的实例,如ASCII中的)大写和小写的英语字母;二进制与十进制的基本数字符号;标点符号;运算符号;特殊符号;(在Z-ASCII中增加的)汉字基本笔画;汉语拼音符号;…[字、式、图、表、音、像、立体(静图)、活体(动像)等广义文本基因均可由此间接形式化]

2)超子域1-m进阶层式,其中,每一进阶层式有1-n成员,其特点是:进阶层式可穷举,成员可列举。两个极端情况:子全域可视为0进阶层式;所有进阶层式集合可视为最大的超子域。进阶层式的实例,如:在汉语的0基本笔画、1不成字偏旁部首、2变形字偏旁部首、3字中字偏旁部首、4字、5(无虚字的)辞、6(有虚字的)块、7(标逗号的)读、8句、粗放进阶层式中,0-4粗放进阶层式是层面型结构——涉及字内信息处理,属计算文字学研究范围,4-8粗放进阶层式是线串型结构——涉及字间信息处理,属计算语言学研究范围。其中,0-6粗放进阶层式属计算语汇学研究范围。以上是GTCM的实例1。以下是GSCM的实例2:在汉语中,由字的笔画构成的层面型结构按照123m笔画数组成1-m精细进阶层式(在总量上等价于GTCM0-4粗放进阶层式);由字与字组构成的线串型结构按照123m(音节)数组成1-m精细进阶层式(在总量上等价于GTCM4-8粗放进阶层式)GTCMGSCM一致的实例3:在英语的0字母、1词头和词尾、2词缀、3词根、4词、5(无虚词的)词组、6(有虚词的)短语、7意群、8句、粗放与精细一体化进阶层式中由字母构成的线串型结构按照123m字母数组成1-m粗放与精细一体化进阶层式。其中,Z-ASCII(完整)子全域

3)中文信息处理的间接形式化,即:(所有)进阶层式表格化双列表左列数字化、右列字组化。简称:三化。(为便于有针对性地计算或查询——如:处理数据、获取信息、重用知识,依据异义排列序趣简美法则及相对完全归纳原则和同义并列对应转换法则)设定GSCMGTCMZ-ASCII(有限)目标域(如:汉语“字与字组细分”或英语“词与词组细分”)系列电子表格数字代码m n阵列。

4)其中,(有限)目标域 = (目标域内的所有用户的)未知域 + 已知域。已知与未知,相对于具体用户而言;系统(有限)目标域的设定,原则上涵盖具体用户的未知域与未知域。子全域是用户和系统共同遵守的基准参照系——基准元素是相对完全的;超子域是系统定制的应对参照系——应对成员也是相对完全的。这是协同智能计算系统的标准平台——(有限)目标域——也是多艾真体设计的基准元素和应对成员的取材来源。用户及用户群的定制基准参照系和定制应对参照系,由其已知域及(用户可推测的)未知域构成的(非常有限)目标域,可在使用之前预定并在使用过程中通过人机交互而逐步优化并拓展[其上限是(有限)目标域]

5(有限)目标域,由基准参照系(即:Z-ASCII和应对参照系(即:GSCMGTCMZ-ASCII构成,其中,已知域,是(有限)目标域中(用户)已知部分(涉及:用户或用户群的特征信息及其使用记录)未知域,是(有限)目标域中(用户)未知部分。GCMGSCMGTCMZ-ASCII的总称。

32.测序定位——明确数据、信息、知识之间的数量关系,即: D = I + K

工程融智学研究证明:GCM数据结构是确定的,已知或未知的超子域进阶层式成员一定是GCM的成员。只要(有限)目标域的数据确定,就能通过间接形式化的方式,计算或查询已知域的知识或搜寻未知域的信息。在间接形式化的前提条件下,数据、信息、知识之间的数量关系:

(有限)目标域(全部数据) = 未知域(未知部分的数据) + 已知域(已知部分的数据)

(有限)目标域(全部数据) = 未知域(信息或未知数据) + 已知域(知识或已知数据)

(数据Data的映射集) D = (信息Information的映射集) I + (知识Knowledge的映射集) K

公式中D表示GCM数据库1-m进阶层式双列表自动编号数字代码构成的m n数字阵列,DIK两映射集之和,即:D = m n = I + K 。这是体现间接形式化的基本计算公式。

4.结果

公式D = m n D = I + K反映了间接形式化约束条件抽象映射集之间的基本关系,其中,抽象的依据是1-m进阶层式双列表的左列数字和右列字组完全符合同义并列对应转换法则。也就是说,(有限)目标域D(可计算的数字代码——指代与之同义并列语言文字),是计算机处理的对象;其中,未知域I(将获取的信息)和已知域K(可重用的知识),如:遵循相对完全归纳原则采集的(汉语的)字或字组或(英语的)词或词组,是自然人理解的对象。理解对象的形式[即: IK(内容,钱币的一面)的间接记录m nD (形式,钱币的另一面)]与理解对象的内容(即:间接记录D与直接呈现IK恰似钱币两面的关系。

41.自然语言处理的间接形式化——三化

自然语言处理的总量控制模型——形式化标准平台,由计算机数据库的一系列双列表表格的序列号m n阵列组成,其特征在于:间接形式化,(1)进阶层式表格化——记录自然语言文字的基础表格采用双列表,即:各进阶层式的多个双列表序号m异义排列,各双列表行序号n异义排列;(2)左列数字化、右列字组化——所有双列表的左列数字和右列字组(相对完全归纳,如:汉语的“层面型结构”和“线串型结构”;英语的“线串型结构”)之间逐行同义并列。简称:三化。

42.中文信息处理实施例

以中文信息处理为例,“三化”的特点是:GTCM0进阶层式(子全域平行层式)的一个双列表是基准参照系(含ASCIIZ-ASCIIGTCM0-4进阶层式的五个双列表(成员是“层面型结构”)是字内信息处理的应对参照系(与GBUnicode兼容)GTCM4-6进阶层式的三个双列表(成员是“线串型结构”)是字间信息处理的应对参照系(等价于GSCM1-m个双列表)

形式化标准平台,即:计算机辅助选域定向测序定位的计算模型,由m个双列表构成自然语言处理的总量控制模型——数据库,其中,列表号m与行号n组成格号m n的数字代码阵列,非常便于自动化计算和查询;双列表的左列是数字代码、右列是图形符号;其特征在于:(1)间接形式化基于多个双列表的数字代码m n阵列,区别于所谓直接形式化的图形符号,双列表的数字代码行与图形符号行同义并列是转换的基础;(2)对汉语而言,图形符号的层解或串解形式,记录在进阶层式数据库的m个双列表的右列;(3)具体的层解信息和串解信息,通过建立一系列标注列与查询表而实现,并可同步建立用户查询记录表和索引表;(4)图形符号依据同义并列对应转换法则在八大形式体系之间相互替代(如:汉语字符与汉语音节的相互替代)

43.英文信息处理实施例

以英文信息处理为例,“三化”的特点是:GTCM0-m进阶层式GSCM1-m个双列表(成员是“线串型结构”)总量相等且形式一致。

44.子全域平行层式的间接形式化计算模型(工程化方法的基础)

子全域Z-ASCII是由m个双列表构成的平行层式数据库。其中,每一个双列表的图形符号列,由n个可枚举元素构成。GCM0进阶层式数据库中元素排列成m n阵列,选域定向:子全域平行层式的模式识别1(形式消歧)——有直接与间接两种基本类型,前者比对双列表的符号图形列;后者比对双列表的数字代码列。测序定位:子全域平行层式的元素计量。

45.超子域进阶层式的间接形式化计算模型(工程化方法的基础)

超子域GCM是由m个双列表构成的进阶层式数据库。其中,每一个双列表的图形符号列,由n个可列举成员构成,目标域成员排列成m n阵列。选域定向:超子域进阶层式的模式识别[1(形式消歧)和2(内容消歧——另文详解)]。测序定位:超子域进阶层式的成员计量。

5.结论

自然语言处理的总量控制模型——形式化标准平台的特征及优点结构上,区分子全域的平行层式和超子域的进阶层式;性质上,先区分直接形式化与间接形式化——化复杂为简单,再区分算术级数(即:Z-ASCII间接形式化)与几何级数(即: GSCMGTCM通过超子域进阶层式的一组双列表的数字代码“阵列m n”间接形式化——化几何增长为算数增长性能上,区分选域定向测序定位,其中,前者(即:区分平行层式和进阶层式的表号m把握方向——宏观处理,后者(即:区分平行层式元素和进阶层式成员所在的格号m n深入到位——微观处理。

在标准平台的底层Z-ASCIIGTCM0进阶层式和基础层GTCM1-4进阶层式优于ASCIIGBUnicode中文信息处理。比较:在GBUnicode汉语字符集中,因中文特有的字内信息(如:“层面型结构”信息)没有形式化,故无法计算或查询。在GTCM01-44-6进阶层式中,因中文特有的信息(如:“层面型结构”与“线串型结构”及其关系的信息)间接形式化(有GTCM4-6GSCM1-mGTCM1-4Z-ASCII——GTCM0的支持),故间接计算及直接呈现和查询都很方便。加之,兼容ASCII且改进并优化了GBUnicode的汉语字符集,其产业化途径通畅。

在标准平台的底层、基础层和中层GTCM0-6进阶层式,汉语的层面型结构与线串型结构的关系,即:中文特有的层解字内信息与串解字间信息,可在进阶层式数据库的多个双列表中得到完整记录或体现。具体的计算和重用,可通过设计多列查询界面而有针对性地实现。

在标准平台的上层和外围GTCM7-12进阶层式,可通过记录和查询用户重用日志及其调用底层、基础层和中层的信息索引,实现计算机辅助研究。进而有针对性地调用记录和查询,获取相应的过程信息或应用信息。提取可重用的语言知识和领域知识以及常识也很方便。从而,为计算机辅助学习或进一步的研究,建立重用知识索引和获取信息索引及素材库。

Z-ASCIIASCII的关系:(1)后台切换的理想对接方式和前台切换的现实对接方式;(2)内外码统一;(3)软件切换和硬件切换。具体方式,须视具体需要而选用(技术细节省略)

综上所述,我们认为:直接形式化有其特定领域或限制条件。在有限目标域确定[即:m n阵列(与之对应的汉语“字与字组的细分”或英语“词与词组的细分”到位)数据明确]的情况下,(借助:标准平台)间接形式化不仅可使自然语言处理效率显著提高,而且,形式化难题也将迎刃而解。

参考文献

[1] 徐通锵:语言论--语义型语言的结构原理和研究方法[M]东北师范大学出版社1997

[2] 邹晓辉:优化“语义信息处理”的新方法与实施例[A]CLSW-6[C]厦门大学2005

[3] 陆俭明、郭锐:汉语语法研究面临的挑战[J]世界汉语教学19984

[4] 俞士汶:关于汉语信息处理的认识及其研究方略[J]语言文字应用(总第42期)20022

[5] 邹晓辉:协同智能计算语言数据库的设计方法[J]潜科学(第32期)2004

[6] Zou Xiao Hui(邹晓辉):THE GROSS CONTROL MODEL OF SEMANTIC VOCABULARY AS DICTIONARY WITH EXAMPLES [A] RECENT ADVANCEMENT IN CHINESE LEXICAL SEMANTICS [C](CLSW-5)Singapore 2004

[7] 邹晓辉:字与字组的关系——试论字本位理论的发展[J]潜科学(第39期)20051

[8] 邹晓辉:默契通信与间接计算对自然语言处理的重要性[J]潜科学(第42期)20054

[9] 邹晓辉:语义信息新论[J]潜科学(第43期)20055

[10] 邹晓辉:一种知识信息数据处理方法及产品[J]发明专利公报G06F163知识产权出版社200011

[11] 陈肇雄主编:机器翻译研究进展[C] 1-564页,电子工业出版社1992

[12] 黄河燕主编:机器翻译研究进展[C] 1-282页,电子工业出版社2002

[13] 邹晓辉:字的形式化定义——试论字本位理论的根基[J]潜科学(第28期)200412

[14] 邹晓辉:中文信息处理的新方法[J]潜科学(第42期)20054

------------------------------------

尾注

本文写作的过程中还有针对性地系统地参阅了以下网络文献:

AI in the news ©2000 - 2005http://www.aaai.org)  http://scii.nl/  www.unicode.org

R.V.L.Hartley哈特莱.1928,Transmission of Information,BSTJ,Vol.7,p.535-536.

C.E.Shannon申农.1948, Mathematical Theory of Communication,BSTJ,Vol.27,p.379-423,632-656.

中国人工智能学会:中国人工智能进展2003[C]http://caai.cn/documents/caai-10.exe

WordNetILDLongman Lexicon of Contemporary EnglishCYConline version  树结构