协同智能计算知识数据库的设计方法

发明人:邹晓辉

2004,7(张学文任主编时)公布于潜科学第32期  http://potentialscience.org 

 

技术领域

   

本发明属于计算语言和知识工程领域,涉及中文信息处理、自然语言理解、机器翻译、知识获取与重用,进一步是协同智能计算知识数据库的设计方法。

 

背景技术

 

    “融智学(新范式)”(见系统科学之窗论文专区)、“一种知识信息数据处理方法与产品(00109380.0)”和“协同智能计算语言数据库的设计方法”(02153511.6),虽然公开了子全域与超子域各进阶层式的语言形式化技术方案,但并没有公开已知域和目标域的知识形式化技术方案,特别是协同智能计算知识数据库的设计方法。它们是关于协同智能计算系统如何消歧的科学理论(涉及:信息、智能和理解等基本概念的本质与知识的计量或测度的理论探讨或讨论)与技术实践方案(涉及:中文信息处理、自然语言理解、机器翻译、知识获取与重用等具体领域的技术实践或探索)。

正如清华大学智能技术与系统国家重点实验室苑春法教授所说:“邹晓辉先生:你好!谢谢你在清华的讲座。由于时间关系,不能长谈。仅仅从几个小时的讨论交流中对你理论全貌尚未能得到一个清晰的了解。从交谈中,我认识到你的协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作。但是同时我也认为这13张表的构建是一件消耗大量人力物力的工作。因为仅仅一个汉语的树库的建立就是一件浩繁的工作,至今尚未完成;而它仅仅是你的数据库中的一部分。所以我建议在经过充分酝酿和充分的人力财力准备的基础上再启动这件事。祝你工作顺利!苑春法2003.1.3
众所周知,计算机如何消歧至今仍是制约中文信息处理、自然语言理解、机器翻译、知识获取与重用等具体技术领域的发展瓶颈。对可扩展标记语言(Extensible Markup LanguageXML)也不例外。
目前,其它相关的现有技术方法及产品,至多涉及图1语言文字表所述序号为0123456789101112 进阶的某些部份。
例如:普林斯顿大学的词网(WordNet)、中科院计算机语言信息工程研究中心研究室(董振东和董强等)的中英文双语词网(HowNet)、北京大学计算语言学研究所(于江生等)的中文概念辞书Chinese Concept DictionaryCCD清华大学智能技术与系统国家重点实验室(周强等)的汉语树库都是语汇层面的网络电子版概念词典。
电子图书浏览和联机帮助虽是篇章层面的网络电子版图书,例如:IBM(国际商业机器)公司的数字化图书馆和Microsoft(微软)公司的数字化百科全书以及企业级的知识管理,尽管它们在后台数据库或数据仓库与前台交互界面以及计算机网络构成的软硬件支持环境的共享或重用(特别是检索查询)方面的效率很高,但是,就语言文字和学科知识的处理而言,在实质性理论和相应的工程化技术方面,仍然面临计算机如何消歧的难题,可以说它们只初步解决了知识文本的粗加工问题,而对学科知识本身怎样有效地进行深入处理(在内容方面)或精加工(在形式方面)的问题还处于探讨阶段,因为,不仅计算机如何消歧的难题至今仍未解决,而且,自然人如何消歧的难题至今也仍未彻底解决,否则,科学家们就不会继续在科学理论方面进行对信息、智能和理解等基本概念的本质与知识的计量或测度的理论探讨或讨论,也没有必要继续在技术实践方面进行对中文信息处理、自然语言理解、机器翻译、知识获取与重用等具体领域的技术实践或探索。
 
发明内容
   

本发明的目的是提供协同智能计算知识数据库的设计方法,既便于开发人员设计效率更高的标准化共享知识数据库,又便于用户借助它定制适合自己的个性化独享知识数据库,更便于协同智能计算系统用它做多学科知识信息数据处理的专业基础加工平台。

 

本发明的目的是通过下述技术方案具体实现的,即:

协同智能计算知识数据库的设计方法,是协同智能计算语言数据库的设计方法(02153511.6)进一步发展或应用的产物,即:在语言文字表(图1)的基础之上建立学科知识表(图2)、规范知识表(图3)和直观知识表(图4),其特征是:从子全域与超子域各进阶层式中选出已知域和目标域,构成人机协同对学科知识进行定性分析和定量分析的专业基础加工平台,其中,

已知域,是关于学科分支及课题的知识点的集合;

目标域,是关于“问”与“答”的知识点的集合。

知识点是以下分类的规范化知识表达(语言文字或符号的基本组合):

1、事实,着重客观的记录与真实的再现;

2、规律,强调语言的准确与数学的精练含公式的简明和图表的直观以及限制条件的清楚明白;

3、原理,强调对客观机理的系统说明和对其必然性与重要性及现实性或可行性的完整论述;

4、例题,着重方法的理性步骤与示例的感性操作;

5、习题,强调必要的重复与形式的变换;

6、试题,突出灵活的应用与积极的应对;

7、简纲,要求简明扼要;

8、详纲,要求系统周全;

9、反例,突出有理有据的经典实例。

相对完全归纳的已知域是识别、理解和表达的基础,具有明确针对性的目标域是识别、理解和表达的重点或焦点。

 

本发明的作用是:

提高人机协同对学科知识进行定性分析和定量分析的工作效率,

为推广符合终身教育观念的产、学、研、用、算一体化的生产式教学法提供协同智能化的专业基础加工平台。

其有益效果还在于:

它不仅能帮助开发人员设计出更高效率的标准化共享协同智能计算知识数据库,也便于用户借助它定制适合自己的个性化独享协同智能计算知识数据库。

一旦基于服务器的共享协同智能计算知识数据库和基于终端的独享协同智能计算知识数据库与相应的软硬件有机地组合在一起,就可十分方便地构建出基于文化基因或全域数码的高效的协同智能计算系统(包括协同智能计算机和协同智能计算网)。

 

附图说明 

 

1是协同智能计算语言数据库的设计方案一览表(语言文字表)。

2是协同智能计算知识数据库的设计方案一览表(学科知识表)。

3是协同智能计算知识数据库的设计方案一览表(规范知识表)。

4是协同智能计算知识数据库的设计方案一览表(直观知识表)。

 
具体实施方式
 

实施例1与图1、图2、图3和图4的一览表是采用微软Office(办公系统软件)的access(存取)数据库的基础表制作的汉语和英语的子全域与超子域进阶层式以及从中筛选收敛集合而成的已知域和目标域的一系列基础表的设计说明。本发明的技术方案就是:在语言文字表(图1)的基础之上建立的学科知识表(图2)、规范知识表(图3)和直观知识表(图4)。

协同智能计算知识数据库中学科知识表(图2)、规范知识表(图3)和直观知识表(图4等一览表的各科各级的基础表,都是由基因文本元素及其组合构件集合而成的某语种的协同智能计算语言数据库的0123456789101112进阶的基础表的子集,各分科知识表的具体成员数目也都采用各基础表的自动编号(id)形式进行自动计量,不仅汉语、英语和其它语言的各级基础表均如此,而且,各科知识的基础表也如此。

以下结合附图与实施例1对本发明技术方案作进一步说明:

本发明及其实施例通过图1、图2、图3和图4的一览表形式把汉语和英语的区别与联系一目了然地呈现在读者面前,以此指导开发者或普通用户进行有针对性的筛选收敛集合——知识获取。

首先,根据基因文本的进阶层式,语言文字知识获取的基本方式有:

a、生成法,由低到高,逐级合成;

b、采集法,由高到低,逐级分解;

c、混合法,针对需要,跨级插入。

其中获取的语言文字知识,既含离散的普通常识,也含系统的学科知识。

接着,对具体的常识与学科知识进行科学划分和属性标注,为去冗存要奠定自动化处理的基础。

然后,应用access(存取)数据库的选定内容筛选功能,相对完全地有针对性地筛选收敛集合0123456789101112进阶的相关部份,建立相对完全归纳的已知域标准化共享知识数据库和具有明确针对性的目标域个性化独享知识数据库,其中,各终端的access表与服务器中立方体(cub in SQL server)的access表的自动编号(id)在相应的数据库或数据仓库中的全域数码(a + bi &…)都有其具体的惟一的序位。

实施例1通过图2、图3和图4的一览表把离散的知识点和系统的知识框架以语言文字和多媒体形式一目了然地呈现在读者面前,以便于指导开发者或普通用户通过相对完全地有针对性地筛选收敛集合建立分科知识表。

具体地说,本发明及其实施例1的具体实施方法可以详述如下:

一、基本步骤:

1、设置知识表的记录与属性——定义数据结构和分配文件空间,以文化(符号)和物化(物理)的形式构造各种各样的表和立方体,

具体由语言表标注、知识表规范和物象表链接三个环节组成,

2、导入和使用知识信息数据——填充知识点的形式化数据——规范化知识表达的语言文字或符号的基本组合,并以此为基础制作相应的查询、窗体、报表、页、宏、模块,

其特征在于:

根据从子全域与超子域各进阶层式中选出的已知域或目标域,设置知识表的属性——列,即:在语言文字表的分表序号为0123456789101112 进阶的十三类子表中,设置学科属性——列,选定内容筛选记录——行,筛选收敛集合构成一系列分科知识表。

二、产品形式:

1、基础表类型,采用分离形式的学科知识表、规范知识表和直观知识表三种形式,其整合形式构成协同智能计算知识数据库,

 2、产品的功能形式,采用教具、学具、玩具、用具、工具五种形式,

3、产品的载体形式,采用电子数字出版物(如:芯片、光磁盘、终端、服务器、网络等形式)与传统印刷出版物及其协同互补的各种形式,

其中,电子数字出版物是标准化与个性化统一的高效工具,而传统印刷出版物的产品形式的形成,则有赖于从电子数字出版物的学科知识表、规范知识表和直观知识表中选择最适合采用传统印刷出版物的活页卡、活动表、书本、书刊和手册的部份。

三、使用方式:

设计者或普通用户与计算机及其网络之间的人机协同,涉及:

1、语言文字、学科知识和直观物象等处理对象,

2、事实、规律、原理、例题、习题、试题、简纲、详纲、反例等形式,

3、听、说、唱、读、写、译等交互方式,

4、数、字、图、表、音、像、立体、活体八大形式体系,

5、产、学、研、用、算五大功能系列,

6、定性分析、定量分析、结构分析、程序分析、定向分析、定位分析等六大分析方法,

7、自然物和人工物在虚(着重感觉方面)与实(着重行为方面)两方面的知行关系,

8、语言文字数据库和分科知识数据库的使用与生产,

9、围绕各表的属性和记录的自动编号(id)的整合,构成在相应的数据库或数据仓库中的全域数码(a + bi &…)的序位关系,涉及知识表达或形式化知识的供、产、消关系。

四、语言表标注,学科知识表(图2)的构成方法:

1、在语言文字表的十三类分表的具体语种表中,设置一系列用于标识学科的属性——列,选定内容筛选记录——行,筛选收敛集合构成一系列学科知识子表,

2、在具体的学科知识子表中,设置一系列用于标识学科分支的属性——列,选定内容筛选记录——行,进一步筛选收敛集合构成一系列学科分支知识孙表,

3、构成已知域学科知识表——学科知识子表和学科分支知识孙表,

4、设置一系列用于标识课题的属性——列,选定内容筛选记录——行,再进一步筛选收敛集合构成目标域学科知识表。

五、知识表规范,规范知识表(图3)的构成方法:

1、在学科知识表中,设置对应序号的属性——列,

2、同时,设置事实、规律、原理、例题、习题、试题、简纲、详纲、反例等规范化知识表达的属性——列,

3、选定内容筛选记录——行,筛选收敛集合构成规范知识表,包括各学科规范化知识表达的事实表、规律表、原理表、例题表、习题表、试题表、简纲表、详纲表、反例表。

六、物象表链接,直观知识表(图4)的构成方法:

在学科知识表或规范知识表中,设置数、字、图、表、音、像、立体、活体的属性——列,选定内容筛选记录——行,筛选收敛集合构成相应的数、字、图、表、音、像、立体、活体等一系列超级链接的直观知识表。

总之,图2、图3和图4等一览表是建立分科知识表的操作指南。

 

 

协同智能计算语言数据库的设计方案(语言文字表

编号

进阶

汉语

拼音

英语

法语

德语

俄语

日语

西班牙语

葡萄牙语

等等

其它语种

1

0

基本笔画

字母表

字母表

1

1

1

音图

1

1

1

1

2

1

不成字组合

 

词头和词尾

2

2

2

2

2

2

2

2

3

2

变形字组合

 

前缀和后缀

3

3

3

3

3

3

3

3

4

3

字中字组合

 

词根

4

4

4

4

4

4

4

4

5

4

单音节的字

单音节

单音节词

5

5

5

5

5

5

5

5

6

5

复音节的辞

复音节

复音节词

6

6

6

6

6

6

6

6

7

6

多音节的语

多音节

多音节词

7

7

7

7

7

7

7

7

8

7

标逗号的读

标逗号

词组或短语

8

8

8

8

8

8

8

8

9

8

标句号的句

 

标句号的句

9

9

9

9

9

9

9

9

10

9

须提行的段

 

须提行的段

10

10

10

10

10

10

10

10

11

10

须题名的篇

 

须题名的篇

11

11

11

11

11

11

11

11

12

11

须分节的章

 

须分节的章

12

12

12

12

12

12

12

12

13

12

须分册的书

 

须分册的书

13

13

13

13

13

13

13

13

 

1

 

 

协同智能计算知识数据库的设计方案(1学科知识表

编号

进阶

汉语

拼音

英语

序号

符号

语言

数学

物理

化学

生物

等等

其它学科

1

0

基本笔画

字母表

字母表

0-0

1

1

1

 

 

 

 

 

2

1

不成字组合

 

词头和词尾

1-1

2

2

2

 

 

 

 

 

3

2

变形字组合

 

前缀和后缀

2-2

3

3

3

 

 

 

 

 

4

3

字中字组合

 

词根

3-3

4

4

4

 

 

 

 

 

5

4

单音节的字

单音节

单音节词

4-4

5

5

5

5

5

5

5

5

6

5

复音节的辞

复音节

复音节词

5-5

6

6

6

6

6

6

6

6

7

6

多音节的语

多音节

多音节词

6-6

7

7

7

7

7

7

7

7

8

7

标逗号的读

标逗号

词组或短语

7-7

8

8

8

8

8

8

8

8

9

8

标句号的句

 

标句号的句

8-8

9

9

9

9

9

9

9

9

10

9

须提行的段

 

须提行的段

9-9

10

10

10

10

10

10

10

10

11

10

须题名的篇

 

须题名的篇

10-10

11

11

11

11

11

11

11

11

12

11

须分节的章

 

须分节的章

11-11

12

12

12

12

12

12

12

12

13

12

须分册的书

 

须分册的书

12-12

13

13

13

13

13

13

13

13

 

2

 

 

 

协同智能计算知识数据库的设计方案(2规范知识表

编号

进阶

汉语

拼音

英语

序号

事实

规律

原理

例题

习题

试题

简纲

详纲

反例

1

0

基本笔画

字母表

字母表

0-0

 

 

 

 

 

 

 

 

 

2

1

不成字组合

 

词头和词尾

1-1

 

 

 

 

 

 

 

 

 

3

2

变形字组合

 

前缀和后缀

2-2

 

 

 

 

 

 

 

 

 

4

3

字中字组合

 

词根

3-3

 

 

 

 

 

 

 

 

 

5

4

单音节的字

单音节

单音节词

4-4

 

 

 

 

 

 

4

 

4

6

5

复音节的辞

复音节

复音节词

5-5

 

 

 

 

 

 

5

 

5

7

6

多音节的语

多音节

多音节词

6-6

 

 

 

 

 

 

6

 

6

8

7

标逗号的读

标逗号

词组或短语

7-7

 

 

 

 

 

 

 

7

7

9

8

标句号的句

 

标句号的句

8-8

8

8

8

8

8

8

 

8

8

10

9

须提行的段

 

须提行的段

9-9

9

9

9

9

9

9

 

9

9

11

10

须题名的篇

 

须题名的篇

10-10

10

10

10

10

10

10

 

 

10

12

11

须分节的章

 

须分节的章

11-11

 

 

 

 

 

 

 

 

 

13

12

须分册的书

 

须分册的书

12-12

 

 

 

 

 

 

 

 

 

 

3

 

 

协同智能计算知识数据库的设计方案(3直观知识表

编号

进阶

汉语

拼音

英语

序号

立体

活体

1

0

基本笔画

字母表

字母表

0-0

1

1

1

1

1

1

1

1

2

1

不成字组合

 

词头和词尾

1-1

2

2

2

2

2

2

2

2

3

2

变形字组合

 

前缀和后缀

2-2

3

3

3

3

3

3

3

3

4

3

字中字组合

 

词根

3-3

4

4

4

4

4

4

4

4

5

4

单音节的字

单音节

单音节词

4-4

5

5

5

5

5

5

5

5

6

5

复音节的辞

复音节

复音节词

5-5

6

6

6

6

6

6

6

6

7

6

多音节的语

多音节

多音节词

6-6

7

7

7

7

7

7

7

7

8

7

标逗号的读

标逗号

词组或短语

7-7

8

8

8

8

8

8

8

8

9

8

标句号的句

 

标句号的句

8-8

9

9

9

9

9

9

9

9

10

9

须提行的段

 

须提行的段

9-9

10

10

10

10

10

10

10

10

11

10

须题名的篇

 

须题名的篇

10-10

11

11

11

11

11

11

11

11

12

11

须分节的章

 

须分节的章

11-11

12

12

12

12

12

12

12

12

13

12

须分册的书

 

须分册的书

12-12

13

13

13

13

13

13

13

13

 

4

10004     2002.