协同智能计算语言数据库的设计方法


发明人:邹晓辉

qhkjy@yahoo.com.cn 

2004,7公布于潜科学网站

  技术领域   

本发明属于语言信息处理技术领域,进一步是协同智能计算语言数据库的设计方法。

背景技术   

2000年5月31日申报的“一种知识信息数据处理方法与产品(发明专利申请号001093800公开号1274895A)”和稍微晚些时候发表的“融智学(新范式)”(系统科学之窗论文专区),虽然定义并列举了文化基因的子全域与超子域及其进化阶梯的各个层次形式(以下简称:进阶层式),但是,却没有具体展示并详细分析基因文本元素及其组合形式,例如,没有说明汉语与英语在这方面是怎样区分的。

后来,我发现北京大学中文系教授徐通锵先生提出的“字本位”观点很符合汉语文化基因进化发展的特点。于是,我与徐教授约定:2000年6月3日,在纪念《马氏文通》发表100周年学术交流会上见面。这之后,从他给我的《语言论——语义型语言的结构原理和研究方法》(东北师范大学出版社)一书中,我了解到徐先生的“字、辞、块、读、句”可明确地区分汉语的文化基因文本元素组合——超子域的几个进阶层式。遗憾的是:那一段时间,徐教授虽然认为我的文章“提出了一些重大的问题”,但是,“因为我们研究的领域不同  ”,故无法直接给予支持。后来,我又认真读了徐通锵教授给我的《语言学基础理论》(北京大学出版社)、俞士汶教授给我的《计算语言学论文集(4)》(北京大学计算语言研究所)和张全教授给我的《概念层次网络(HNC)》(清华大学出版社)等书和有关论文,对比徐通锵、陆俭明和黄曾阳三位学者的观点,还特别调查了近期国际国内自然语言理解及中文信息处理领域的有关情况,因此,我认为有必要具体地公开我所考虑的如何确立在文化基因工程中对语言发展进阶层式进行划分的标准以及与之相应的协同智能计算语言数据库的构造。

众所周知,由于目前通用计算机中采用的二进制数表示字母、数字、符号以及控制符的美国标准信息交换码,即ASCII,可以说根本不可能直接构造出基于汉语文化的计算机芯片、操作系统和编程语言。同时,由于美国标准信息交换码不表示汉字,所以,建立在ASCII基础之上的汉字信息交换码(GB2312)、中文内码扩展标准(GBK)和基于多八位编码字符集标准(ISO10646)的国家标准(GB13000.1)的中文信息处理的效率,都远不如直接采用英语处理知识信息数据的效率高。

由此可见,现有技术,对计算机处理汉语而言,不仅不是最佳的,而且,还存在根本缺陷或不足。

发明内容   

本发明的目的在于提供协同智能计算语言数据库的设计方法,以便于自然语言理解及中文信息处理领域的开发人员设计出效率更高的标准化共享语言知识数据库,也便于用户借助它定制适合自己的个性化独享语言知识数据库,同时,还为设计中的基于文化基因的协同智能计算系统提供便于处理多学科知识信息数据的基础加工平台。

本发明的目的是通过下述技术方案实现的,即:

协同智能计算语言数据库的设计方法,是对“一种知识信息数据处理方法及产品”发明专利说明书和其中公开不充分的一项具体技术的改进措施,即:通过建立语言文字的子全域和超子域进阶层式的一系列基础表,构成人机协同对自然语言进行定性分析和定量分析的高效工具平台,它涉及现行的数据库和数据仓库技术以及相应的计算机软、硬件技术产品的直接应用,其特征在于:

首先,把由汉语基本笔画或英语基本字母构成的基础表中的这种元素集合,明确地定义为子全域,分表序号为0,以此作为计量语言文字的基准参照系,同时,因其中的笔画或字母的个数可穷举或实现完全归纳,故在此被明确地定义为基因文本元素,以便计算机复用时进行自动计量;

其次,把语言发展进阶层式各一览表构成的各相应基础表中组合部件的集合,明确地定义为超子域,分表序号为:1、2、3、4、5、6、7、8、9、10、11、12,以此作为计量语言文字的应对参照系,同时,因其中的具体组合部件的个数不可穷举或只能实现相对完全归纳,故在此被明确地定义为基因文本元素组合部件,以便计算机复用时进行自动计量;

最后,在全域数码(a+bi&…)构成的总参照系中,明确地给出各个子全域和超子域各进阶层式一览表的总的统一的通用语言的基础表的id(特征识别及自动编号)的特定存放序位——由国际及国家的标准化组织认同,在此之前先由用户通过定制各分表的形式由使用单位或有关机构协商选定。

本发明的有益效果在于:既能帮助自然语言理解及中文信息处理领域的开发人员设计出更高效率的标准化共享语言知识数据库,又能帮助普通的广大用户更容易地定制适合自己的个性化独享语言知识数据库,还能为设计中基于文化基因的协同智能计算系统提供一种高效处理多学科知识信息数据的基础加工平台,并且能显著地提高人机协同对语言文字进行定性分析和定量分析的工作效率。

协同智能计算语言数据库的设计方案一览表

编号

机器序号

分表序号

汉语

拼音

英语

其它

1

 

0

基本笔画

字母表

26个字母

 

2

 

1

不成字偏旁部首

 

词头和词尾

 

3

 

2

变形字偏旁部首

 

前缀和后缀

 

4

 

3

字中字偏旁部首

 

词根

 

5

 

4

单音节的“字”(独字组)可标:顿号

单音节

单音节的单词

 

6

 

5

复音节的“辞”(复字组)分:离心与向心

复音节

复音节的单词

 

7

 

6

多音节的“语”(多字组)含:两种成份

多音节

多音节的单词

 

8

 

7

逗号“读”(表示:语气上的停顿)

标逗号的多音节

词组或短语

 

9

 

8

句号“句”(表示:语义上的停顿)

 

 

 

10

 

9

提行“段”(表示:逻辑上的转换)

 

 

 

11

 

10

题名“篇”(表示:主题上的区别)

 

 

 

12

 

11

分节编目“章”(表示:层次的转换)

 

 

 

13

 

12

分类编册“书”(涉及书库或图书馆)

 

 

 

 

计算语言

自然语言

            (形义结合)        汉

(拼音形式)

英语

 

附图说明   

图是协同智能计算语言数据库的设计方案一览表。它以一览表的形式对汉语和英语的子全域和超子域各进阶层式做总说明,其中的内容一目了然,是建立各个具体的基础表的操作指南。

具体实施方式   

实施例1是采用微软Office(办公系统软件)的access(存取)数据库的基础表制作的汉语和英语的子全域与超子域进阶层式各基础表的设计说明。由基因文本元素及其组合构件集合成某一语种具体的协同智能计算语言数据库的0、1、2、3、4、5、6、7、8、9、10、11、12个基础表,在各语种中的各个表中的具体成员数目均采用各自相应的的基础表的id形式进行自动计量,汉语、英语和其它语言的各级基础表均如此。

以下结合图与实施例1对本发明的技术实施方案作进一步说明:

实施例1通过图的一览表形式把汉语和英语的区别与联系一目了然地呈现在读者面前,以此指导开发者或普通用户进行有针对性的选择,使生成方式与采集方式相结合,从而,高效率地建立语言知识数据库。 

开发者或普通用户根据本发明方案仅仅使用access,就很容易有针对性地选择基本笔画、三种偏旁部首、字、辞、语、读、句、段、篇、章、书的相关部份,建立合乎标准的汉语语言知识数据库或数据仓库。

 

背景知识

学术交流
     1、牛刀小试
    1997年我设计的“多语翻译系统(同义句词及音形转换)”获中国专利技术博览会金奖,当时主要采用的是语法分析和基于规则的方法,辅之以一定规模的熟语料和实例,思路简单清晰、目标具体直接,在受限范围的机译(实质上是有针对性的重用与用户界面优良的机助人译)效果相当好。扩大到非受限范围,由于普通流行文本往往不规范,必须强化语义分析,可是,意义理论至今也都还不成熟,故消歧难题始终存在。这之后,我与陈肇雄(中国电子集团副总裁,南方软件园董事长,华建集团原董事长)、黄河燕(华建集团总裁)和关培忠(译星公司总工程师)有一些交流。
     2、再次攀登
     2000年5月我设计了“一种知识信息数据处理方法与产品” 2001年6月获中国专利技术博览会金奖。这之后,我与张普(北京语言文化大学计算语言学研究所原所长)和林杏光(中国人民大学教授,对外语言文化学院学术委员会副主任,中国中文信息学会理事和学术委员,中国计算语言学专委会专委)进行了一些交流。张普教授认为:该设计是一个大项目,须等待机会展示其实力。林杏光教授认为:融智学理论和设计方法有原创性,建议:1、出版融智学专著,2、开发融智系列产品,3、组织融智团队。这一段时间,我还与北京大学的徐通锵(中文系语言学教研室原主任)、王洪君(中文系语言学教研室主任)、陆俭明(世界汉语教学学会会长,中国语言学会副会长,北京大学人文学部学术/学位委员会委员,北京大学汉语语言学研究中心主任,北京大学计算语言学研究所学术顾问)和俞士汶(北京大学信息科学技术学院教授,计算语言学研究所学术指导委员会主席。兼任中国计算机学会理事和学术委员会副主任、新加坡《汉语语言与计算学报》联合主编等职)以及郭雷(中国科学院院士、中国科学院统科学研究所所长)等有了一些接触和交流。其中,徐教授的字本位汉语理论(见其专著《语言论》1997《基础语言学教程》2000北京大学出版社),给我印象很深。我认为他对汉语与西方语言的比较是很到位的。四川大学陈雨思副教授从系统科学的角度对该设计作了高度评价。中国人民解放军洛阳外国语学院计算语言学研究室主任易绵竹教授(国际信息化科学院院士,中国中文信息学会理事)来信说“当前语义研究的理论方法还需融合统一,您创立的融智学新范式提炼出协同智能主体的概念体系具有原创性,想必对自然语言语义信息的处理将引发一场革命。”上述交流使我很受鼓舞,我开始更多地关注计算语言学和基础语言学的发展,同时,公开了融智学的部分理论。
    3、展示模型
    2002年11月我设计了一个可计算、可操作、完全数字化的自然语言理解的总量控制模型(GTCM)--《协同智能计算语言数据库的设计方法(发明专利申请号02153511.6》。这之后,我应邀到北京,参加了几次重要的学术交流(包括在北大、清华、中科院等好几个单位)。其中,在北大计算语言学研究所的交流会使我认识到,在各种汉语语言观之间,没有中间道路可走。随后,在清华大学国家智能实验室(中国科学院院士张拔、孙茂松、苑春法、陈群秀、周强)、中国科学院国家智能实验室(中国科学院院士陆汝黔、曹存根)、微软亚洲研究院自然语言理解组(中国计算语言学专委会主任黄昌宁、周明)、华建集团(中国科学院计算机语言研究中心主任黄河燕、知网创办人董振东)和中软译星(关培忠和他领导的开发团队)交流(重点谈模型的13张表)。陆俭明与胡俊锋明确肯定了我提出的融智这一概念。俞士汶等表示对融智学(支持该模型的理论体系)精髓很感兴趣。鲁川(语言文字应用研究所研究员、北京大学计算语言学研究所兼职教授、中国计算语言学专委会首届主任)对模型的13张表给予了肯定的评价并认为:“这个模型太好了!我遇到了知音。因为,邹晓辉你今天做的事(指由这13张表展示的文化基因工程)就是我鲁川明天和后天想做的事(指汉语基因工程)”。黄昌宁教授与我探讨了这13张表与大脑结构的关系。苑春法教授仔细思考后认为:该模型的13张表具有原创性,能对汉语实现消歧,同时,也认为:工作量很大。黄河燕教授与我也谈到了消歧和13张表的关系。董振东研究员与我谈了如何实现的事宜。其他各位教授也都表示出了浓厚的兴趣。
http://www.systemscience.org/non/Forum2/HTML/000758-7.html 第9、10两帖

专家评语

    “协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作。但是同时我也认为这13张表的构建是一件消耗大量人力物力的工作。”——苑春法教授

    “协同智能计算语言数据库的设计方案中的13张表格富有新意。按照这13张表所建立的系统,对于汉语分析中的各种歧义就有可能得到初步的解决。这是一件既有创新意识又极为艰巨的系统工程。这13张表的构建充分体现出你能站在一个较高的起点上善于集中现有各家学派的优点,但是也要看到各家学派所存在的分歧颇似“冰炭”难以共存,所以还是应以一个学派的理论为主,适当吸收各家之长。因而必须建立一个具有汉语特色的符合知识经济时代需求的新学派、新理论。”——鲁川教授

正是由于“当务之急是系统地建设针对大规模真实文本的语言资源库,即经过多级深层次加工的语料库以及语法库、语义库等。这些基础的东西做得不扎实,中文信息处理就很难上一个大台阶。(清华大学孙茂松教授谈中文信息处理领域面临的机遇和挑战)”所以,“这是一件既有创新意识又极为艰巨的系统工程。这13张表的构建充分体现出你(发明人:邹晓辉)能站在一个较高的起点上善于集中现有各家学派的优点,(教育部语言文字应用研究所鲁川教授)”“协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作。(清华大学苑春法教授)”