中文信息处理的新方法

邹晓辉

0756-5505041  qhkjy@yahoo.com.cn  519125 广东省珠海市井岸桥东恒美花园15-2栋201号

摘要:实现自然人与计算机的优势互补,通过人机分工协作,我们提供了中文信息处理的新方法。主要涉及“文本总量控制模型”、“中国标准信息交换码”和“音节总量控制模型”。

关键词:语言数据库、知识数据库、间接形式化、中文信息处理

NEW METHOD OF CHINESE INFORMATION PROCESSING

ZOU XIAO HUI

0756-5505041 qhkjy@yahoo.com.cn BEAUTIFUL-GARDEN BUILDING 15-2 NUMBER 201 IN ZHU-HAI IN CHINA 519125

AbstractWe offer the new method of Chinese Information Processing that user cooperates with computer for interpenetration. It mainly relates to GTCM, Z-ASCII and GSCM.

    KeywordsLanguage Database, Knowledge Database, Indirect Formalization, Chinese Information Processing

绪言

本文涉及:知识表示、语料库语言学、记忆模型、机器学习、知识获取和推理技术等,属于计算语言学基础研究领域。其特点是:采用“间接形式化”方法,直接进行“中文信息处理。其重点是:通过自然人与计算机之间的分工协作而实现优势互补。研究途径:借助“关系数据库”的形式(涉及:前台界面、后台程序以及前后台语言转换)实现“(整型)数字”与“(字符串)文字”的“同义并列”达到“人机协作且优势互补”的目的。其局限是:人机协作必须依据共同的“参照系”。基本假设:基于“关系数据库”而实现的“数字”与“文字”的“同义并列”为人机协作提供的数理“参照系”,是实现由非线性的中文信息处理转化为线性的数字信息处理的依据。知识贡献:不仅给自然语言处理找到了一条基于母语的“间接形式化”方法——如:使非线性的中文信息处理转化为线性的数字信息处理,而且,为“人类智能”与“人工智能”之后提出的“协同智能”提供了一个典型实例——即:汉语的“间接形式化”示例(既区别于又兼容于通行的“形式化”——基于英语的“间接又间接的形式化”)。希望本文介绍的“中文信息处理的新方法”能给学界同仁有所助益或启示!

综述

众所周知,通行的汉语“形式化”探索一直以来没有突破这样一种格局:

一方面,汉语至今没有自己独立的“形式化”方法,而不得不建立在基于英语的“形式化”基础之上。这就必然带来以下几个问题:1、两种“自然语言”之间的“不可翻译”部分,必然造成一系列隐含的问题。2、两种“思维方式”之间的“根本区别”部分,难以通过“翻译”消解分歧。习惯“汉语思维”的人,即使英语掌握得较好,也会面临:“双语”冲突问题。3、“英语处理”仍存在“形式化”问题。目前,所谓基于英语的“形式化”,实质上是基于英语字母的各种人工语言的“形式化”。“英文信息处理”仍需“程序语言”为“中介”才能进行。4、目前,通用计算机中借助“汉化”、“翻译”或“解释”而进行的所谓汉语的“形式化”探索,从来就没有离开过上述123条限制,其困难和受制约程度是不言而喻的。

另一方面,汉语基础理论,长期没有一个可有效解释各种语言事实的完整理论或总体框架,特别是:汉语语法的问题长期争论不休而得不到满意的解决方案。这又进一步增加了以下问题:5、作为自然人的汉语专家都分辨不清的“语法语义分歧”又如何让计算机重用。6、即使作为自然人的汉语专家已分清的“语法语义分歧”至今也未全部实现计算机重用。

事实证明:无论是基于现代逻辑的“符号集”,还是基于“美国标准信息交换码”的“字符集”,甚至是在其基础上形成的各种“计算机程序语言”,都与“汉语体系”、“汉语思维方式”和“汉语字符集”无直接渊源关系。现在学界进行的所谓汉语的“形式化”探索,实际上,不仅隔着英语,而且还隔着一系列“中介语言”(如:基于英语的各种程序语言——人工语言)及其“符号法则”(如:基于程序语言的形式语法)。真可谓:间接又间接的“间接又间接的形式化”。其困难程度由此也可见一斑。

从发现这个根本问题至今,笔者做了一系列的尝试。先后提出了以下设计方案:一种智能通信子母机,一种知识信息数据处理方法及产品,协同智能计算语言数据库的设计方法,协同智能计算知识数据库的设计方法,义项语汇典例SVDE的总量控制模型,优化“语义信息处理”的新方法与实施例,解析“字与字组的关系”探索“汉语形式化”新路。实践证明:基于母语的“间接形式化”方法是切实可行的。现以“中文信息处理”为例“汇总、提炼、概括”如下:

方法

本文介绍的中文信息处理新方法,涉及以下几个基本步骤:

1、划分“子全域”、“超子域”和“进阶层式”;

2、借助“关系数据库”构建“总量控制模型”;

3、区分“文本”和“音节”两类“汉语模型”;

4、借助该模型实现汉语的“三化”及“三注”,

其特征在于:

1、“进阶层式”各表的“文字”与“数字”是“同义并列、一一对应的关系”;

2、“进阶层式”的各个“一览表”都有各自“唯一的表号mi作为:序列代码”;

3、“进阶层式”的各个“一览表”中的“文字与数字”的“序位均同义并列”;

4、无论“文本”还是“音节”的汉语模型“序位代码(mi ,nj)都是唯一的”;

5、(mi ,nj)构成的“矩阵”涉及“线性方程组”和各种各样已知的“好算法”;

6、基于上述数学模型及关系数据库容易实现基于母语的程序设计和自动重用;

7、体现“字与字组的关系”的“组字公式和字组阵列”便于“人机协作消歧”。

上述方法涉及的概念或术语,见:注释

结果

上述中文信息处理新方法,是直接基于算术“数字”和汉语“文字”之间显性分工协作的“(汉语)间接形式化”方法,不仅区别而且兼容于:直接基于算术“数字”和英语“字母”的各种程序语言之间隐性分工协作的“(英语)间接又间接的形式化”方法,同时,也不仅区别而且兼容于:(汉语)间接又间接的“间接又间接的形式化”方法。

实施中文信息处理新方法,则产生以下结果:

1、语言总量控制模型——“A库”(本文仅仅介绍其汉语部分)

GTCM(“文本总量控制模型”,见:图1) 是“超子域”及其各“进阶层式”的汉语“间接形式化”体系,其中,涉及两个特殊的部分,一个是“子全域”——“Z-ASCII(“中国标准信息交换码”)(见:图2);另一个是词汇一级“粗分子模型”的并列“细分子模型”——“GSCM(“音节总量控制模型”,见:图3)。对“中文信息处理”而言,根据“字内信息”、“字间信息”或“字外信息”,“GTCM”可分为以下三组“一览表”,即“m i”分别取值为:0-44-65-12。由“GTCM”的“4-6” 三个“一览表”合并之后,再按“字本位”重组成为GSCM1- m”个“一览表”,着重分析“字间信息”。在此,“GTCM”是广义的“汉语形式化”模型;“GSCM”是狭义的“汉语形式化”模型。

2、知识总量控制模型——“B库”(本文仅仅涉及其概念部分)

基于“A库”的“B库”是按“三注”的方式,分三级扩展为多组信息标注“列”而构成的“知识信息查询”数据库。基于标准化的“A库”和“B库”(见:图4),用户可建构个性化“N库”(“软件总量控制模型”)

1是文本总量控制模型(涉及GTCM0-12个表)示意图。图2是中国标准信息交换码Z-ASCII涉及GTCM0-4个表中的第一个表)示意图。图3是音节总量控制模型(涉及GSCM1- m个表)示意图。图4是基于“A库”的GSCM经“三注”后成为“B库”示意图。见:附图

结论

1Z-ASCII可带来计算机底层技术的原创性实质突破

通过GTCM可构建基于汉语且兼容英语的“中国标准信息交换码”——Z-ASCII。如:把Unicode中汉字的“单面型固定结构”改为“层面型活动结构”,实现“子全域”与“超子域”及其各“进阶层式”一览表之间清晰的形式划分,完成汉字的“模糊信息处理”向“清晰信息处理”的转化。

2GTCMGSCM可带来汉语(文字、语音、语义、语法、语用)信息处理的原创性实质突破

以汉语的“GTCM”即“超子域”第4“进阶层式”单音节的“字”为“基本结构单位”构建后续第5-8“进阶层式”多音节的“字组”。其中,第4-6段,涉及:GSCM,属于:词汇及词法一级的“信息处理”;第7-8段,属于:句子及句法一级的“信息处理”。也就是说,第4-8段的词语搭配的“约束条件”的“形式集合”就构成了“汉语(文字、语音、语义、语法、语用)信息系统”。

3GTCMGSCM的“表格化”形式体系的优点:人机交互的“母语化”

就可使用母语编程而言,优于:各种程序语言。如:普通用户也可直接使用汉语编程(“人助机”的过程),相当于“母语化”的SQL(结构化查询语言)XML(可扩展标记语言)以及其它各种常用的程序语言,歧义则由“母语化”的数学语言直接排除(“机助人”的过程)

议论

    1具体构建Z-ASCII的几个可选方案

    a采用四个“理想笔画”直接与ASCII(美国标准信息交换码)兼容的方案。b采用二十七个“基本笔画”间接与ASCII兼容的方案。c“笔画”选定后,还要选择“软、硬、软硬结合”组件的具体转换方式。

    2具体构成“汉语(文字、语音、语义、语法、语用)信息处理系统”的几个可选方案

    aGTCM的“0-4”表中分解的“字内信息”是否要利用?笔者认为应该利用,而且,GTCMZ-ASCII有条件利用。然而,现在通行的“字处理标准(如:基于ASCIIGBKUnicode字处理方式(如:FONTS字库)”没有也无法利用。bGTCM的“4-6”表中分述的“字间信息”是否“可相对完全归纳”?实验证明:可以。c总量上等于GTCM的“4-6”表的“GSCM”的“1-m”表的“字-字组”以及“字间信息”是否“可穷举”?实验证明:在“相对完全归纳”的条件下“可穷举”——可做到“集大成”。dGTCM的“5-12”表中分述的“字外信息”是否“可穷举”?实验证明:“5-8” 表中分述的“词法句法信息”、“9-10”表中分述的“章法信息”与“11-12”表中分述的“分类编目信息”在“相对完全归纳”的条件下“可穷举”——可做到“集大成”。eGTCM的“0-12”表中分述的“中文信息”以及“GSCM”的“1-m” 表中分述的“汉语信息”是否“可穷举、可贯通”?实验证明:在“相对完全归纳”的条件下,借助“三化”和“三注”的条理化信息处理方式,“可穷举、可贯通”。现在通行的做法是分离的——各自为政、一盘散沙,如:基于GBKUnicodeFONTS中的汉字的“单面型固定结构”,与“4-6”表对应的“电子词典”以及“分词与标注”或“词法分析”,与“7-8”表对应的“句法分析”,与“9-10”表对应的“章法分析”,与“11-12”表对应的“分类编目”——即使采用现行的“数字图书馆”方案,也因为没有涉及解决本文所述的“汉语形式化”的基础性问题而难以“条理化地穷举、贯通”。

综上所述,组织巨型的“汉语信息处理”或“中文信息处理”系统工程,有一系列具体工作要做。而目前最重要的应是“间接形式化”与“间接又间接的形式化”两种标准或道路的选择问题。

注释:

1“子全域”,指:基于汉语且兼容英语的“中国标准信息交换码”Z-ASCII,是“协同智能计算语言数据库”即“文本总量控制模型GTCM”第一个基础表的“基准符号集”。2“超子域”,指:基于Z-ASCII的后续“组合符号集”,涉及“协同智能计算语言数据库”即“文本总量控制模型GTCM”第二至十二个基础表,其中,第五至七个基础表经“字本位”重组可对应地转换为“音节总量控制模型GSCM”第1m个基础表。3“进阶层式”,对汉语而言,有两组,即:GTCM第零至十二共13个基础表,其中,第五至七个基础表等价于GSCM1m个基础表。4自然语言处理的“总量控制模型”,对汉语而言,就是:GTCM第零至十二共13个基础表与GSCM1m个基础表。5汉语的“文本总量控制模型”,即:GTCM第零至十二共13个基础表。6汉语的“音节总量控制模型”,即:GSCM1m个基础表。7“三化”,字的定义表格化,字组划分数字化,义项呈现字组化。8“三注”,语言文字信息标注,通用常识信息标注,专用知识信息标注。9“双语”,有广义与狭义之分。狭义的“双语”,如:以“字母”为“子全域”的“英语”与以“笔画”为“子全域”的“汉语”。广义的“双语”,如:以“数字”为“子全域”的“算术语言”与以“字符”为“子全域”的“自然语言”。10m i”表示:表号;“n j”表示:格号。都取“自然数”的“值”。11“好算法”是纯数学术语,区别于“坏算法”——导致“指数爆炸”的算法。12“字与字组的关系”,涉及:形式与内容两方面,其中,基础是:字与二字组的关系。13“组字公式和字组阵列”,汉语“字本位”理论,把语汇分为“字、辞、块”三种基本类型。这里把“辞”与“块”统称为“语”。这样,“组字成语”的逆过程就是“分语为字”,其中,涉及:切“辞”、分“块”两个步骤——从“语”中切分出“辞”与“块”。鉴于“字与字组的关系”中“字与二字组的关系”是基础,在此主要给出“二字组”类型的“辞”与“块”的“组字公式和字组阵列”。如果把需解释其义项的“字”命名为“解字”,把限定“解字”义项范围的“字”命名为“用字”,那么,限于“二字组”的“释义字组”就只有“释辞”与“释块”两种类型。

组字公式1.“释辞”=“实字”+“实字”=“用字”+“解字”。

组字公式2.“释块”=“虚字”+“实字”=“用字”+“解字”;

组字公式3.“释块”=“实字”+“虚字”=“用字”+“解字”;

组字公式4.“释块”=“虚字”+“虚字”=“用字”+“解字”。

上述1.- 4.四个公式中实字与虚字的关系,恰似一个阵列。故简称:字组阵列。后续“三字组”、“四字组”、…、“多字组”的“组字公式和字组阵列”都可基于上述“二字组”的基本“组字公式和字组阵列”的原理推衍出来,故不再做具体介绍。

14“人机协作”,有隐性与显性两种分工协作形式,无论是“实时、分时和批处理”还是“计算机集中处理与网络分布处理”均可采用。

当前通行的那种借助“关系数据库”的形式对“(字符串)文字”的“同义并列”的“人与机之间分工协作”方式是“隐性的”,即:前台界面、后台程序以及前后台转换的“中介语言”及其“法则”是多样化的,如:各种“程序语言”及“形式文法”——因此从事汉语信息处理的专家至少必须熟悉“汉语、英语、程序语言、数学”四方面的多种知识技能,这恰似“旧式的全能裁缝”,因此,也难以组织巨型的“中文信息处理”系统工程;

本文所述的这种借助“关系数据库”的形式对“(字符串)文字”与“(整型)数字”的“同义并列”的“人与机之间分工协作”方式是“显性的”,即:前台界面、后台程序以及前后台转换的“中介语言”及其“法则”是唯一的,因此,从事汉语信息处理的专家通常只须熟悉“汉语”知识技能的一个方面,这恰似“新式的流水作业”,便于组织巨型的“中文信息处理”系统工程。

附图: 

1

2

 

 

 

3

4

参考文献:

熊全淹:近世代数[M] 15-120页,上海科学技术出版社,1978

中国人民大学数学教研室:线性代数[M]85-138页,1983

陈肇雄主编:机器翻译研究进展[C] 1-564页,电子工业出版社,1992

  立:美国理论语言学研究[M]1-240页,北京语言学院出版社,1993

喻云根:英汉对比语言学[M] 69-99页,北京工业大学出版社,1994

朱志凯:逻辑与方法[M]3-32225-287229-304页,人民出版社,1995 

  锋:汉语研究在海外[M]123-188页,北京语言学院出版社,1995

  甦、汪安圣:认知心理学[M] 344-367页,北京大学出版社1996

张志公:汉语简论[A]汉语辞章学论集[C]人民教育出版社,1996

刘叔新:词语强制搭配的语义关系类别及其性质[A]语言学论辑[C] 1-17页,北京语言学院出版社,1996

徐通锵:语言论--语义型语言的结构原理和研究方法[M] 295-442页,东北师范大学出版社, 1997

陆俭明、郭锐:汉语语法研究面临的挑战[J世界汉语教学,1998,(4

詹卫东,常宝宝,俞士汶:基于词组本位语法的语义模型[J]中文与东方语言信息处理学会学报19981

黄增阳:HNC(概念层次网络)理论——计算机理解自然语言的新思路[M] 1-516页,清华大学出版社,1998

林杏光:词汇语言学和计算语言学[M60-118140-376,语文出版社年,1999

俞士汶、朱学锋:计算语言学文集[C] 1-254页,北京大学计算语言学研究所,2000

施伯乐等译:数据库处理——基础、设计与实现[M] 170-246334-489页,电子工业出版社,2001

康博创作室:SQL Server 2000 数据仓库设计和使用指南[M] 14-69113-230页,清华大学出版社2001

徐通锵:基础语言学教程[M] 19-36页,178-237页,北京大学出版社, 2001

  川:汉语语法的意合网络[M]1-277页,商务印书馆,2001

邹晓辉:一种知识信息数据处理方法及产品[J]发明专利公报G06F163知识产权出版社,2000,(11

冯志伟:发挥汉语拼音在信息时代的作用[A] 语文现代化论文集[C]41-44页,商务印书馆2002

俞士汶:关于汉语信息处理的认识及其研究方略[J]语言文字应用(总第42期)2002,(2

王开杨:“一语双文”的理论基础和面临的困难[A]见苏培成等编:语文现代化论文集[C] 商务印书馆,2002

黄河燕主编:机器翻译研究进展[C] 1-282页,电子工业出版社,2002

邹晓辉:语言及语义信息的统一参照系[J]潜科学2002.05

张学文:组成论[M] 44-56页,246-252页,中国科学技术大学出版社,2003

郑锦全:词语管窥与宏图[A]第五届汉语词汇语义学研讨会论论文集[C] 2004

苏新春:论汉语释义元语言的特征[A]第五届汉语词汇语义学研讨会论论文集[C] 2004

邹晓辉:义项语汇典例(SVDE)的总量控制模型[A]第五届(国际)汉语词汇语义学研讨会论论文集[C] 2004

邹晓辉:协同智能计算语言数据库的设计方法[J]潜科学(第32期)20047

邹晓辉:论汉语字组的细分[J]潜科学(第32期)20047

邹晓辉:汉语“字本位”理论研讨会论论文:字的形式化定义[J]潜科学(第38期)2004,(12

邹晓辉:汉语“字本位”理论研讨会论论文:字组划分数字化[J]潜科学(第38期)2004,(12

邹晓辉:汉语“字本位”理论研讨会论论文:字与字组的关系[J]潜科学(第39期)2005,(1

张学文:“字符多项式与表格数学”[J]《潜科学》第392005,(1

邹晓辉:协同智能计算知识数据库的设计方法[J]潜科学(第39期)20051 

邹晓辉:重构“概念分类体系”的新思路与新方法——从“语义三角”到“语法关系”再到“语义三棱”[A]第六届(国际)汉语词汇语义学研讨会论文集[C]

邹晓辉:优化“语义信息处理”的新方法与实施例——从“一词泛读”到“释义字组”再到“一字精读”[A]第六届(国际)汉语词汇语义学研讨会论文集[C]

邹晓辉:解析“字与字组的关系”探索“汉语形式化”新路[J]潜科学(第41期)2005,(3