字与字组的关系
——试论汉语“字本位”[1]理论的发展

邹晓辉

0756-5505041  qhkjy@yahoo.com.cn 

519125 广东珠海井岸桥东恒美花园15-2栋201号

 


摘要: 本文旨在:用字组显示字的具体意思。“字的形式化定义”、“字组的划分方法”、“字与字组的关系”“三部曲”[后者是“姊妹篇”(前两者)的进一步提炼或升华],用以表达:定义形式化、字组数字化和义项字组化。根据“音节总量控制模型”(语汇数据库),每个字与字组,不仅在表中的id都是唯一的,而且,每个表的序号也是唯一的。汉语“字本位”理论与汉语(语汇)的形式化由此得以(间接)实现。

关键词:字本位、义项字典、字组用例

一、绪言
1、领域

本课题是“协同智能计算语言(理论模型)数据库(实现技术)设计方法[涉及:文本总量控制模型(GTCM)][2]”与“义项语汇典例(SVDE)的总量控制模型[GCM,涉及:GTCM和GSCM(音节总量控制模型)][3]”的直接应用,即:以逻辑、数学和计算机工程的方法[4][5][6][7][8][9],尝试对汉语“字本位”理论做一些改进或优化,从而,更好地指导“汉语(语汇)形式化”实践,属于:基础语言学与计算语言学(特别是计算语义学和语汇学部分)的交叉研究领域,进一步还会涉及:模式识别、自然语言理解和知识表达等具体研究领域[10][11][12][13][14]。
2、特殊性
在“字的形式化定义[15]、字组的划分方法[16]、字与字组的关系”构成的“三部曲”中,最后一篇是本研究的汇总报告,前两篇(姊妹篇)是基础,各篇分工是这样:“字的形式化定义”给出汉语形式消歧方法,即:定义形式化;“字组的划分方法”明确汉语形式划分标准,即:字组数字化;“字与字组的关系”给出汉语内容消歧方法,即:义项字组化。
3、重要性
“三部曲”有机结合一致论述的“汉语形式化”新观点,旨在:探索“巩固字本位理论的根基、明确字本位理论的功用、促进字本位理论的发展”的可能性,同时:验证“汉语形式化”的可行性,从而,在理论上,可为“汉语形式化”,找到一条切实可行的新路;在实践上,可为“义项字典与字组用例”(即:义项大典和用例大全)的设计优化,提供一套新颖完善的方法和工具。
4、研究途径
首先,借助“文本总量控制模型(GTCM)”序位的唯一性,从逻辑、数学和计算机科学的角度,论述:形式化定义的唯一性,从而,奠定“汉语‘字本位’理论”体系形式化的基础;
接着,借助“音节总量控制模型(GSCM)”序位的唯一性,从逻辑、数学和计算机科学的角度,论述:数字化标准的唯一性,从而,奠定“汉语‘字本位’理论”应用工程化的基础;
然后,在前两项工作研究成果(即:形式化与数字化)的基础上,论述:义项字组化的科学性。
5、限制方式
本研究采取:分步论证的策略,即:构成“三部曲”的一、二、三项研究,主要限制在:“定义形式化、字组数字化、义项字组化”的论证规范以内,旨在:分步考察“汉语形式化”的可行性。
6、基本假设
    a、如果“文本总量控制模型(GTCM)”序位(如:第4进阶层式)具有唯一性,那么,被称为字的汉语结构(形式)类,也就必然被唯一地限定在位于GTCM第4进阶层式这个特定论域(或:集合)之中。至于具体的“(字的形式)例”则出现在GTCM第4进阶层式的字表的1...n格的某个具体位置。
GTCM第4进阶层式这个特定论域(或:集合)与GSCM第1表这个特定论域(或:集合)一致。
    b、如果“音节总量控制模型(GSCM)”序位[如:“2,3,...,m”(狭义)字组表的序号]具有唯一性,那么,被称为(狭义)字组的汉语结构(形式)类,也就必然被限定在位于GSCM“2,3,...,m”表中。至于具体的“(字组的形式)例”则出现在GSCM“2,3,...,m”系列字组表的“1...n”格的某个具体位置。
    c、如果一个“字”有多个“义项”,那么,“这个字”与“其多个义项”之间则必然是“一与多”的关系。如果给每个义项设置一个唯一的序位标识号码(id)并与其在“音节总量控制模型(GSCM)” 2,3,...,m一览表的(狭义)字组之间建立一一对应关系,那么,展示该义项的(狭义)字组,就可被视为“(与之一一对应的)义项本身”或“其显现”。
与这个(狭义)字组一一对应的序位标识号码(id)就是该义项的“全权代表”,因为,该义项、该字组、该序位标识号码(id)是等价的。其中,义项隐而不见(即:抽象的);字组对识汉语的人传情达意;序位标识号码(id)对计算机传递信息。
    d、如果“字本位、词本位、短语本位、...等各个(形式)本位”相互之间的区别主要表现在“结构形式”方面,那么,其联系则主要表现在“概念内容”方面。也就是说,“字本位、词本位、短语本位、...等各个(形式)本位”都只是“内容本位”的某个则面或特例——表现为:某个具体的形式本位。
7、可能的贡献
    本研究发现并指出:汉语学界的(形式)“本位”之争,实质上涉及:形式本位与内容本位的关系。内容本位与形式本位通过“(字的)义项(解释)字组化”而实现融合。具体实现步骤如下:
a、字的形式化定义,通过定义形式化(形式消歧)而巩固汉语“字本位”理论的根基;
b、字组的划分方法,通过字组数字化(建立标准)而明确汉语“字本位”理论的功用;
c、字与字组的关系,通过义项字组化(内容消歧)而促进汉语“字本位”理论的发展。
    上述三个步骤的实现,不仅可为“汉语形式化”奠定(理论与实践两方面的)坚实基础,而且,也可为“自然语言形式化”提供了可行的实施例。一句话:证明了“汉语形式化”具有可能性和可行性。
    由此可见,下述说法也是成立的。
    如果限定在形式范围,那么,不仅可从定性方面有效地排除“字与字组(形式化)定义”的概念歧义,而且,还可从定量方面唯一地确立“字组划分的标准”,这就论证了:汉语“字本位”观点(在汉语结构形式上)的合理性和重要性。
    从内容与形式统一的角度,还进一步论证了:“字本位、词本位、短语本位、...等各个(形式)本位”,其实就是“(内容)本位”的某个则面或特例的形式化表现。
    总之,通过“字与字组的关系”的研究,把“本位问题”由“理论概念的抽象描述”推进到了“工程实践的具体操作”的地步,进而,推进了:对“形式本位与内容本位的关系”的认识——由“含混的合”到“清晰的分”再到“清晰的合”,从而,开辟了“义项字组化”的“汉语语汇形式化”的新路,为最终解决“汉语形式化”难题做了有益的探索。其“优越性”在于:为“汉语形式化”找到了一条“标准化与个性化”结合的新原理、新方法和新工具。

二、综述
    汉语学界和中文信息处理技术领域的专家们,仍在被学界公认的“语义泥潭”所困扰。虽然以往和现行的汉语理论和中文信息处理原理及方法等研究,仍然远离“汉语形式化”的康庄大道,但是,其中也不乏少数很有希望的研究,主要涉及:基础语言学和计算语言学以及人工智能等领域。
    本研究比较关注:汉语“字本位”理论的“根基、功效、发展”与“汉语形式化”,尤其是字与字组的关系这一直接涉及“汉语语汇形式化”的课题。
在汉语“字本位”理论中,字与字组的关系,有两种表述形式:
    1、“字”与“辞”或“块”之间的关系。
    严格地说,无论是汉语“字本位”理论的“辞”与“块”这两种基本类型的(狭义的)字组,还是汉语“词本位”或“短语本位”理论的“词”、“词组”与“短语”,都存在一系列模糊区域或区分难题。试问:即使作为自然人中的语言专家都难以区分的语言结构,如何让语言知识信息数据库都还很不健全的计算机系统来区分它们呢?看来,采用仅仅自然语言描述的汉语理论的各种“本位”学说,都没有提出有效办法来很好地解决“分词”难题。
    2、“字”与“(二、三、四、…多)字组”之间的关系。
    严格地说,这种划分(对中文信息处理而言)如果仅仅限于形式方面,那是相当科学而高效的。可是,一旦牵涉到内容或语义方面,这个看似简单清楚的问题,立即变得复杂起来。为什么会这样呢?
    我们认为:上述两个问题与学界公认的“语义泥潭”的问题,有一个共同的本质——自然语言的多义性。可以说,这是造成自然语言理解的歧义性难题的根源。
因此,如果我们仅仅使用自然语言来论述这个课题,那么,字与字组(包括:核心字)的定义必然出现:内容的歧义性与形式的多样性,更不用说无歧义地论述“字与字组的关系”这样的复杂问题了。
    首先,不同知识背景的人即使面对同一个对象或问题也都会有不同的认识(这是屡见不鲜的事情!),其次,自然语言本身及时对待同一个对象或问题也都会有不同的表述(这也是家常便饭!),最后,暂且不说“质疑者”提出的“挑战”一文是否找准了:汉语“字本位”理论的“七寸”或“短板”,仅仅从汉语“字本位”理论自身建设的角度考虑,也有必要采用“形式化”的方法,即:从“(现代)逻辑、数学和计算机工程”方法和工具及实施例等一系列有效手段方面寻找:实实在在的有力支撑!。
    本研究正是在这方面做出的一个大胆而有益的尝试。到目前为止,已经初步完成了三项专题研究而且写出了专题论文(初稿和修订稿)。现在,该是对整个研究进行归纳总结的时候了。
“词性划分”与“分词”的一系列难点,一直是汉语语法与中文信息处理的老大难问题。如果基于“字本位”观点,把形式上的“(狭义的)字组的划分方法”发展成为“(次广义的)字组的划分方法”,乃至“(广义的)字组的划分方法”,而且,最好能从“(现代)逻辑、数学和计算机工程”方法和工具及实施例等一系列有效手段方面得到实实在在的有力支撑,那么,不仅可继续利用汉语“字本位”理论的知识积累与实践积累的现有成果及素材,而且,还可继续利用其他各种汉语理论的知识积累与实践积累的现有成果及素材(如,利用:基于“词本位”和“短语本位”的“词组的划分方法”的知识积累),更重要的是:可利用形式化以后的汉语“字本位”理论在形式上显著优于其它各种汉语理论与实践的高效率,首先,集中必要的人力、物力和财力,全面地实现“汉语语汇形式化”(如,克服:基于“词本位”和“短语本位”的“词组的划分方法”的不足或缺陷——在解决上述“老大难问题”上面向前迈进一大步,让优化之后的汉语“字本位”理论的巨大作用,实实在在的体现出来!),进而,再合理布局、分工合作,进一步全面推进“汉语形式化”。
    从“字与字组的关系”的角度来看,各种“本位”观点或学说,在“汉语形式体系”中,是如何定位的呢?以往的汉语理论与中文信息处理方法,在“老大难问题”面前,为什么就显得那么乏力呢?
    其中的原因当然很多。但是,我们认为:
    1、局部的成功与全局的迷惑,是主要原因。
    以下例1-6涉及的“字、辞、块”或“词、词组、短语”等粗分形式,可视为:(次广义的)字组。
    (一)局部的成功
    例1,汉语“字组”的两种组合方式[17]的探讨:
    直接组合,以语序为主要手段,把两个或两个以上的语言单位直接组合成一个较大的语言单位。如:组字成语、组语成句、组字成句。涉及“联合、修饰、陈述、动宾、补充”等组合关系。
    关联组合,以起关联作用的虚字为主要手段,把两个或两个以上的语言单位连接起来组成一个较大的语言单位。如:组字成语,涉及“并列、承接、递进、选择、转折、因果、假设、条件”等组合关系。
    例2,汉语“字组”的强制搭配[18]的研究:涉及对固定搭配和特定搭配(包括:控制性搭配与呼应性搭配)的语义关系类别及其性质的探讨。
    例3,英汉词汇对比[19]研究:涉及“广义词汇学(包括:语义学、词源学、词典学、修辞学)”与“狭义词汇学(词的性质、构成、意义及发展、词汇的构成及发展等规律)”的探讨。
    例4,在计算机上实行汉语的双轨制[20]的探讨:汉语“字组”及拼音形式与英语词语及音标形式之间,如何建立对应关系,是一个典型的人机协同研究或实验。
    (二)全局的迷惑
    例5,语言理论探讨:对“(语音、语义、语汇、语法)四大要素”、“(语义、语法、语用)三个平面”乃至“(语音、语义、语法)三个方面、两层结构(即:表层结构与深层结构)”的研究。
    最典型的就是面对语法与语义的相互缠绕的关系不知如何解决,从而,导致了形形色色的各种各样的汉语语言观和方法论及其具体的理论和方法。
    例6,语言结构研究:“字本位”、“词本位”、“短语本位”等形式本位,其具体语言结构形式,虽可称谓不同数量的概念或对象,但是,就“本位”学说的发展而论,均止步于:内容本位。
    即使是汉语“字本位”理论,一旦深入到内容范畴,其问题或局限性也就立即暴露了出来。其它“本位说”也不例外。
    2、本研究根据“文本总量控制模型(GTCM)”和 “音节总量控制模型(GSCM)”,以逻辑、数学和计算机工程的方法,确定“字与字组的关系”。
    “字的形式化定义”已给出汉语形式消歧方法,即:定义形式化;“字组的划分方法(注:该文已从汉语形式化的角度提出把字组粗分水平(局部的成功)发展到字组细分的水平的建议!)”也已明确汉语形式划分标准,即:字组数字化;“字与字组的关系”将给出汉语内容消歧方法,即:义项字组化。
    如果只考虑结构形式,那么,字与字组的关系是很清楚的。首先,只要能给出:字的形式化定义,进而,再明确:字组的划分方法,包括给出:字组的形式化定义和字组分类的统一标准,接着,自然能说清楚:
    a、字本位,即:字,作为汉语的基本结构(形式)单位的合理性,事实上,字在汉语形式化体系中具有不可动摇的根基地位;
    b、基于字本位的汉语字组细分方法及标准,对汉语的形式化构造与解构的功用非常具体而直接。
    c、在上面a和b所述的前两个专题研究的基础之上,本专题(即:本文)将进一步尝试消除上述“全局的迷惑”。
    随着本研究a、b、c三个专题完成并全面实施,不仅有利于:汉语的计算机辅助(CA)研究、教学、应用乃至“汉语形式化”产品的生产和自动计算,而且,还将特别有利于:电子词典(ED),百科全书和海量常识知识库(CYC),数字图书馆(DL),专家系统(ES)等知识系统工程的改进或优化。

三、方法
    本研究的目的是:探索“巩固‘字本位’理论的根基、明确‘字本位’理论的功用、促进‘字本位’理论的发展”的可能性,同时,探索“汉语形式化”的可行性。
    本研究的方法是:直接应用“自然语言形式化”的实用模型(如:GTCM和GSCM)探索“汉语形式化”的可能性和可行性,即:应用“逻辑、数学和计算机工程”方法,研究“字与字组的关系”,寻找:汉语“字本位”理论与实践的优化方法,其特征在于:定义形式化、字组数字化、义项字组化。
    具体实现步骤如下:
    在理论上,由“Ⅰ.字的形式化定义、Ⅱ.字组的划分方法(含:字组的形式化定义与字组划分的标准)、Ⅲ.字与字组的关系”三个专题组成。如果说Ⅰ和Ⅱ两个专题着重研究汉语语汇的结构形式,那么,Ⅲ这个专题就将重点研究字的义项内容与(狭义的)字组的结构形式之间的关系。从而为“义项大典和用例大全”的设计优化,提供一套新颖完善的理论、方法和计算机工程模型。
    在实践中,直接应用“自然语言形式化”的实用模型(如:GTCM和GSCM)探索“汉语形式化”的切实可行的道路,如:优化“义项字典与字组用例”(即:“义项大典和用例大全”的中试产品)的设计,同时,优化“汉语的计算机辅助(CA)研究、教学、应用乃至‘汉语形式化’产品的生产和自动计算”的人机协作方案(注:这是“生产式教学法及其系统工程方案”课题的任务!)。
    1、Ⅰ和Ⅱ两个专题仅仅从形式方面确定字与字组的关系
    (一)字的形式化定义(Ⅰ的回顾与提炼)
    在形式参照系(即:GTCM和GSCM)中,规定具有序位唯一性(即:位于GTCM第4进阶层式同时也位于GSCM第1进阶层式)的形式类(即:方块形与单音节的字)为汉语的基本结构(形式)。见:图1和图2。
    图1是以“类”与“例”展示:字的形式化定义。

    图2是在“形式化体系”之中揭示:字的形式类。

    以下结合图1和图2做详细说明
    (一)字的形式化定义(Ⅰ的回顾与提炼)
    形式化定义的“字”,特指:位于GTCM第0-4进阶层式的“层面型结构”与位于GTCM第4-6进阶层式的“线串型结构”迭交处的第4进阶层式的汉语结构形式。
    作为汉语“字本位”理论的“字”的“(形式)类”(定义)与“例”(字典中的字)应该限定在“形式体系”的范围以内(见:图1和图2)。这样的“形式类”如:“方块形”与“单音节”。至于,“字”的(内容)“多义项”特性,也将通过“(字的)义项(解释)字组化”的方法而“形式化”[这将在第(三)部分阐述,见:图4、图5和图6]。
   “形式体系”即“(纯)符号体系”,如:Unicode [统一的字符编码(标准)]和ASCII(美国标准信息交换码)以及拟制中的CSCII(中文标准信息交换码)乃至理论上的ZSCII(终极标准信息交换码)[21][22]。
    GTCM是采用计算机表达与处理自然语言的一种理想“形式体系”。ZSCII的语言文字部分,如:ASCII与CSCII(或Unicode中汉字的基本笔画以及标点符号、数字、外语字母、特殊符号等),位于GTCM第0进阶层式,作为“基准参照系”,对“GTCM第1,2,…,m进阶层式”的所有“组合结构”具有“测序定位”的作用(注:这是“文化基因工程”课题的探讨范围)。
    基于GTCM,图1和图2给出了“(字和字组)定义形式化”图解。
    在图1和图2中,一方面,可从文字的角度,说明GTCM第4进阶层式的“字”与第0-3进阶层式的“基本笔画、(三级)偏旁部首”等“层面型结构”;另一方面,可从语言的角度,说明GTCM第4进阶层式的“字”与第5-6进阶层式的“辞、块”等“线串型结构”。
    图1着重指出:“字”和(粗分)“字组”的“类”以及“字”的“例”的直观序位。
    图2着重指出:“字”和(粗分)“字组”在“形式体系”中的抽象序位。
   (二)字组的划分方法(Ⅱ的回顾)
    在形式参照系(即:GTCM和GSCM)中,规定具有特定序位(即:位于GTCM第5、6进阶层式或位于GSCM第2、3、4、…m进阶层式)的一系列形式类(即:线串型字组或多音节字组)均为汉语的(狭义)字组(即:语汇层面除字以外的其它汉语结构形式)。见:图3。
图3是以“字组数字化”展示:字与字组(在形式上)的关系。

    以下结合图3做详细说明
   (二)字组的划分方法(Ⅱ的回顾与提炼)
    在形式上限于语汇层面或GSCM范围的细分字组——次广义的,一方面,与GTCM第4-6进阶层式(这一部分是粗分字组——次广义的)是同义并列的等价关系;另一方面,GSCM的细分字组又是GTCM的粗分字组的数字化,“GTCM第4-6进阶层式”与“GSCM第1,2,…,m进阶层式”之间,在语汇总量的可能性上是一致的。
    图3就是这种一致关系的示意图。其中,GTCM第“5、6”进阶层式,对应于:汉语“字本位”理论所述的“辞、块”——粗分字组。GSCM第“2,3,4,…,m”进阶层式,对应于:汉语“字本位”理论所述的“二、三、四、…、多”字组——细分字组。
    GSCM的第“1,2,…,m”进阶层式,体现了:“字组数字化”或“(形式化)字组划分方法的标准化”,揭示了:字与字组(在形式上)的关系,从而,反映了:汉语“字本位”理论的“形式化”功用,即:基于“字本位”的“字组细分”完全可以借助计算机实施“数字化”自动分析或处理。
    基于“(字与字组)定义形式化”的汉语结构描述的形式化处理和“字组数字化”的汉语语汇的形式化处理,原来仅仅采用自然语言(汉语)描述的“粗放型”汉语“字本位”理论与实践,就可以借助GSCM与GTCM进一步发展成为“精准型”汉语“字本位”模型,从而,为“(数理)逻辑、数学(计算)和计算机工程”方法的导入,奠定汉语“字本位”理论与实践在语汇层面实际应用的基础(注:图4用简洁的图形介绍了这种“实际应用”的概况)。
    图3着重指出:(狭义)字组的划分方法,即:(狭义)字组数字化,包括:(狭义)字组的定义形式化和划分方法的标准化。十分明确地指出:(狭义的)字组,就是:位于GSCM第2,3,…,m进阶层式的“线串型结构”,其形式计量单位,就是:“字”——位于GTCM第4进阶层式,同时,也位于GSCM第1进阶层式。GSCM第“2,3,…,m”进阶层式的“2,3,…,m”指称的“字组”都包含对GSCM第“1”进阶层式的“1”指称的“字”的重用。
    2、Ⅲ这个专题同时从内容方面确定字与字组的关系
   (三)字与字组的关系(Ⅰ和Ⅱ专题的简单回顾以及Ⅲ专题的进一步探讨)
    在形式方面,字与字组的关系,在形式参照系的特定序位中,由于明确定义了字和字组的形式类,其作为汉语结构形式的具体含义与划分类型都非常清楚。
    在内容方面,由于Ⅰ和Ⅱ专题在给出字与字组的形式化定义以及字组的形式划分方法的时候,回避了对字的义项与字组的关系的问题,所以,字与字组的关系,还有待Ⅲ专题对之做进一步的探讨。
    本文采用:(字的)义项(解释)字组化的方法,进一步探讨:字与字组的关系。这实质上是:以“长字组(形式)”解释“短字组的义项(内容)”(转换或替代)方法的特例!。
该方法,一方面,在逻辑上遵循“外延扩大内涵缩小”的法则;另一方面,在信息处理上遵循“同义并列对应转换(或替代)”的法则。
    简单地说,就是:义项字组化,即:采用具体的字组作为解释字的具体义项的实际用例。这实际上就是;把“内容转述的过程”转换成为“形式替代(即:形式化)的过程”。
    具体地说,是:在形式参照系中,既要对具体的字或字组所在进阶层式一览表的序号(1,2,…,m),也要对具体的字的义项解释或字组转述或替代字组一览表中的序号(1,2,…,m),测序定位,从而,确保同时实现形式与内容两方面的信息处理。见:图4、图5和图6。
图4是以“逻辑、计算和工程”方法及实施例,展示:“义项字组化”。


    以下结合图4做详细说明
   (三)字与字组的关系(Ⅲ的深入探讨)
    字与字组的关系,在形式上,就是:位于GSCM第1进阶层式的“字”的“(形式)类和(枚举)例”与位于GSCM第2,3,…,m进阶层式的“字组”的“(形式)类和(枚举)例”之间的关系。进一步则涉及:“字”的“义项”(内容)与具体的“字组”(形式)之间(在内容与形式上)的关系,以及(仅仅作为形式的)字与字组(在内容上)的关系。
    图4表示:本研究提出了把汉语“字本位”理论,由“粗放型——仅仅采用自然语言(汉语)描述的原理”改进或优化为“精准型——同时采用(数理)逻辑(演绎与归纳以及枚举)、数学(计算)和(计算机)工程(实践)方法描述”的“汉语语汇形式化”的理论模型和工程实例。
    图左的“域(体)、环、群”三组代数公式和GSCM的“一系列空表”(注:这是“逻辑、数学、计算”原理、方法及工具的抽象分析课题的探讨范围),展示了:本研究的抽象部分;
    图右的“字符多项式”[23]和“已填充的表”(计算机工程实践样例),展示了:本研究的实例部分,其中,例1“阿”与例2“做”两个字的“义项”解释,都是通过“二字组”、“三字组”、…的一系列具体的“(字组)用例”形式化的。图中未列举的例3、例4、…与此同理。
图4着重指出:“(字的)义项(解释)字组化”不仅仅是一些想法和其自然语言(汉语)的简单描述或说明,而且,已经是得到“(数理)逻辑、数学(计算)和计算机工程”原理、方法和工具及实施例(乃至具体实践)有力支撑的事实。
    图5是以“实例”展示:字与字组(在内容与形式上)的关系。

    以下结合图5做详细说明
    图5是以一个字为“实例”,展示:字与字组(在内容与形式上)的关系。
    简单地说,该实施例,就是:对“义”字的“义项”(内容)解释,直接采用:含有“义”这个字的“字组”(形式)作为:具体“(字组)用例”。
    该例:可视为以“义”作为“核心字”,在基于GSCM的“细分字组”数据库的“义项语汇典例(SVDE)”中,分别向左(向心字组)和向右(离心字组)自动查询:“义”字的“义项”(内容)或“(字组)用例”(形式)的“搭配限制信息”。
   “搭配限制信息”,主要包括:a、语言文字信息(形式部分,涉及:字组的“生成、采集、比对、转换”技术信息;内容部分,涉及:语言理论与实践的各个方面(如:见“语义分析新方法”与“内容消歧新方法”);b、大众常识信息(见:“CYC分析”);c、专家知识信息(见:“ES分析”)。
    基于GTCM与GSCM的“(特定)协同智能计算系统” ,可成为:关于“义”这个字的已知“搭配限制信息”的“集大成者”或“一字之师”——相当于:特殊的专家系统(ES)或计算机辅助(CA)的“汉语教学应用系统”。一旦“该(特定)系统”遍历了“所有常用字的(形式)搭配限制信息”,即可实现“汉语语汇形式化”,从而,可为“中文信息处理”的自动化乃至智能化奠定“重用该(特定)系统已掌握的‘搭配限制信息’”基础。
    图5,着重指出:“具体的义项(内容)与具体的字组(形式)用例”是同义并列相互替代的关系。
    图6是以“实例”展示:字与字组(在内容上)的关系。

    以下结合图6对做详细说明
    图6是用一组词语或字组表达同一概念的“实例”,展示:字与字组(在内容上)的关系。
    简单地说,例1用“文、文本、广义文本、…”这一组词语或字组,表达同一概念,即“信息现象”。也就是说,“文、文本、广义文本、…”这一组词语或字组,都是用于称谓或指称:“形式信息”的。在此,“文”这个字的“义项”随着“(字组)用例”的形式变化(即:字组延长或字数增加)而发生相应变化(即:义项收敛)。
    例2用“义、本义、序位本义、…”这一组词语或字组,表达同一概念,即“信息的本质”。也就是说,“义、本义、序位本义、…”这一组词语或字组,都是用于称谓或指称:“本真信息”的。在此,“义”这个字的“义项收敛”与例1同理。 如有例3、例4、…道理也相同。
图6,着重指出:义项(内容)收敛与用例字组(形式)长度增加(两种变化)呈反变关系。
    综上所述,图4、图5、图6 强调:“(字的)义项(解释)字组化”的“内容与形式转化”原理。图1、图2、图3、图4、图5、图6在内容与形式上,全面阐述:字与字组的关系。

四、结果、结论和议论
    1、本研究的结果
    GTCM和GSCM在本研究中的应用,实质上是“自然语言形式化”(方法)在“汉语(语汇)形式化”理论与实践上的具体尝试,本研究“三部曲”试图证明:不仅从理论上可以理清汉语“字本位”理论在字与字组的关系上的一系列仅仅采用自然语言说不清楚的问题(因为必然存在的歧义),而且,还可以得到:“汉语形式化”(包括:理论自身描述的形式化与在改进或优化的汉语“字本位”理论指导下的汉语语汇形式化工程实践)的“三级跳”方法和工具及其实施例的可行性方案,即:
    通过给出“字的形式化定义”而坚固:汉语“字本位”理论的根基;
    通过提供“字组的划分方法”而突出:汉语“字本位”理论的功用;
    通过阐明“字与字组的关系”而加速:汉语“字本位”理论的发展。
    上述结果中,(字的)义项(解释)字组化,是:本研究在试图进一步明确“字与字组的关系”的过程中的一个(既带有几分幸运又带有几分必然)的重大发现。
    这个发现是实质性的。它使“汉语语汇形式化”可能性与可行性得到了完全证实,因此,也必将显著改变或大大加速“汉语形式化”的进程。
    2、本研究的结论
    事实证明:基于GTCM和GSCM的“汉语(语汇)形式化”,不仅具有理论上的必要性和可能性,而且,具有实践上的必要性和可行性,特别是:汉语语汇的静态(形式化)处理与动态(形式化)处理,已经被实践和事实证明是切实可行的,具体成果体现在“义项字典与字组用例”之中(见:“汉语义项字典”与“双语字组用例”以及“多语通用字组用例”几项自然语言处理的工程化课题!)。
    本研究,不仅为“汉语理论的概念体系的形式化”和“汉语(语汇)形式化”做出了十分重要而有益的尝试,而且,还验证了:基于GTCM和GSCM的“汉语(语汇)形式化”系统工程方案,是切实可行的。
    为今后的推广普及奠定坚实的理论基础和两大系统工程(即:基于GTCM和GSCM的汉语信息处理与汉语教学体系)基础,我们有必要给予及时的扶持,以便本研究提出的上述具体项目能够早日完善。
    本研究指出:“巩固‘字本位’理论的根基”、“明确‘字本位’理论的功用”和“促进‘字本位’理论的发展”,不仅具有可能性,而且,具有可行性。
    也就是说:基于GTCM和GSCM的“汉语形式化”方法,不仅可在汉语理论的自身建设方面做到:(使所有的汉语结构的)“定义形式化”,而且,还可通过“字组数字化”和“义项字组化”,全面推进“汉语形式化”的步伐。
    本研究已证明,首先,由“字本位”确立的“字与字组”的“结构形式”是容易识别的;同时,由“字本位”确立的“义项字典与字组用例”的“知识内容”也是容易有针对性的重用(理解或表达)的。
    义项表达的形式化(即:字组化)和标准化(即:格式化、代码化、数字化),作为本研究的特点是独特而高效的。
    基于这种“形式化”和“标准化”的思路和方法,在“文本总量控制模型(GTCM)”和 “音节总量控制模型(GSCM)”中,从应用的角度看,字与字组的关系,就是:“义项大典”与“用例大全”的关系,即:
    一方面,从语言形式上看,“字”是构成一切“字组”的“基本结构单位”;
    另方面,从语言内容上看,“字”又必须借助“字组”的“形式展示义项”。
    本研究不仅在(基于汉语“字本位”理论的“字组的划分方法”的)“字组粗分”与“字组细分”之间建立了:“规范的形式化体系”或“相互转换的理论模型”,而且,还为这种理论模型提供了:“逻辑、数学和(计算机)工程(实践)”的基础。
    也就是说,仅仅采用自然语言(汉语)描述的“粗放型”的汉语“字本位”理论,经过适当的改进或优化,将可能成为:得到“逻辑、数学和计算机工程实践”有力支撑的“精准型”的汉语“字本位”理论——准确地说:是以“字本位”观点为基础的“汉语形式化”理论——包括:理论的形式化与汉语的形式化。
    3、议论
     ——有待进一步系统讨论的问题
    a、理论的形式化
    本研究认为:字与字组的关系,在汉语“字本位”理论体系的总体框架中,具有非常重要的地位。理由,见:语言理论体系的基本关系。
    图7是语言理论体系的基本关系示意图。

    由图7中“语音(e.g汉字的单音节或英词的多音节)、语义(语言基本结构单位e.g汉语的字或英语的词)、语汇(e.g.字组或词组)、语用(e.g..话题-说明)、语法(e.g.主语-谓语)”的关系,可看出“字”的根基地位。
    b、语言的形式化
    本研究认为:字与字组的关系,在汉语(形式化)体系的中重要地位。理由,见:“汉语(语汇)形式化”的基本步骤——“字与字组的形式化、数字化”和“义项的形式化、字组化”。
    图8是“汉语(语汇)形式化”(基本步骤)示意图。

    由图8中“字(单音节)与字组(二,三,…,多音节)”的关系,可看出“字本位“在汉语(语汇)形式化进程中的重要作用。
    c、形式本位与内容本位的关系
    本研究认为:理论的形式化与语言的形式化,不仅可从理论与实践两方面优化:汉语“字本位”理论;而且,还可从理论与实践两方面优化:(普通语言学的)语言“本位”理论与(自然语言理解的)语汇形式化途径或方法,同时,提出了“形式本位与内容本位的关系”的深层次问题。
    具体讨论的若干实例
     以下仅就汉语语汇讨论:字与(狭义)字组在“结构形式”与“概念内容”之间的相互关系。
     就概念的表达而论,字与字组之间可有如下基本关系:
    (1)可分的字组,即:松散合成的字组,如要深究其中蕴涵的概念,则合不如分。
    可分字组:意义、事物、......
    合不如分:意与义、事与物、......
    否则,有的概念可能被忽略。
    如“意义=meaning”,则“意”与“义”两个概念就无法直接翻译(人都难,何况计算机!)。
    (2)不可分字组,即:紧密构造的字组,无须深究其中蕴涵的概念,故分不如合。
    如:序位本义、广义文本、......
    否则,概念难以表达清楚。
    如:融智学有一对基本概念,虽然可分别采用“字、二字组、四字组、…(语言的结构形式不同)”来表达,但是,长度合适的那一对字组,表达更清楚(更易排除歧义!)。
    例1:这一对基本概念及其相应的那一对字组系列,分别(静态)表述如下:
    义、本义、序位本义(范畴相同,义项收敛),表示融智概念的本质或内容的方面,属:本真信息。
    文、文本、广义文本(范畴相同,义项收敛),表示融智概念的现象或形式的方面,属:形式信息。
    例2:这一对基本概念及其相应的那一对字组,组合(动态)表述如下:
    a、文以载道。(在此,设:“义=道”,即:两字表示同一范畴)
    b、“文本”表示“本义”。
    c、“广义文本”用以表示“序位本义”。
    在形式上,a句,适合“字本位”,如:“文”在此表示这个概念。b句,适合“词本位”,如:“文本”在此表示这个概念。c句,适合“短语本位”,如:“广义文本”在此表示这个概念。
    在内容上,a、b、c三句,都适合“概念本位”——内容本位,如:“文、文本、广义文本”都是表示“形式信息”这个范畴,属:同一个概念。由此可见,“字本位”、“词本位”、“短语本位”…“形式本位”的局限性——仅仅适合满足特定形式的“句类、句型、句式、句例(具体的句子)”。
    如:a、b、c三句,“文、文本、广义文本”,在各自的句子中,分别都是基本结构(形式)。这样看来,“字本位”、“词本位”、“短语本位”…在此似乎都成立,即:各有各的适应条件。
    例3:以下两个句子,表示相同的意思或用意:
a、融智学是一门讲述“文以载道”的学问。
b、融智学是一门讲述“文本表示本义”的学问。
c、融智学是一门讲述“广义文本表示序位本义”的学问。
d、融智学是一门讲述“广义形式信息表示序位本真信息”的学问。
……
   例4:以下两个句子,表示相同的意思或用意:
a、文与义是融智这一核心概念的两方面。
b、文本与本义是融智这一核心概念的两个方面。
c、广义文本与序位本义是融智这一核心概念的两个方面。
d、广义形式信息表示序位本真信息是融智这一核心概念的两个方面。
……
   试问:能简单地根据“字、二字组、四字组、…”区分出上述句子中哪一个是基本结构单位吗?
   (3)对于两可的字组而言,即:半松半紧的字组,深究其中蕴涵的概念,均可,即:可分可合。
    如:形与式、形式,序与位、序位,......
由(1)(2)(3)可见,“字组”的“结构形式”与“概念内容”一旦交织在一起,汉语结构的“(形式)本位”(如:“字本位”、“词本位”、“短语本位”…)说,也就恰似“盲人摸象”各执一词。
    为了简明扼要地指出汉语学界关于语言基本结构的“本位”之争存在的问题,本文特将现有的“字本位”、“词本位”、“短语本位”和“小句本位”乃至“复本位”等统统归入:“形式本位”的范畴。与之对应,提出所谓的“内容本位”(如:概念本位,关系本位)。这样,我们就可以说:当前汉语学界关于语言基本结构的所谓“本位”之争,实质上涉及学界对“形式本位与内容本位的关系”的认知程度!。
    “形式本位”,特指:以某种结构形式作为“基本结构单位”;
    “内容本位”,特指:以某种概念内容作为“基本概念单位”。
    后者,实质上就是:以逻辑分析为指导的“字组分工”说,如:“字组”表达“概念”;“句子”表达“关系”。
    本文主张:“形式本位”与“内容本位”结合的观点。因为,只有这样,才能看清:汉语“这头大象”的全貌。
    众所周知,凡是实际问题,其内容与形式都是结合在一起的。理想的形式化或标准化都是有条件的。可以说,这些条件通常也都是为了便于分析或思考问题而创设的。因为,我们的感官能力、记忆能力和思维能力等都非常有限,一旦超越其极限就必然造成理解与表达上的含混不清。
所以,仅仅依靠自然语言还不够,必须借助相应的方法和工具,如:现代逻辑与数学乃至计算机(理想的形式化或标准化的手段也就随之而得到了发展和推广),才能把复杂的问题表述清楚。
    综上所述,如果仅在“形式”的范围考虑,那么,不仅定性方面可排除“字与字组概念的歧义”,而且定量方面也可确立“字组划分的标准”,进而在结构形式上论证“字本位”的合理性和重要性。
    几乎所有的复杂问题,都是内容与形式的统一。“字本位、词本位、短语本位、...”等“形式本位”其实都只不过是“内容本位”的某个则面或特例。如果要真正发展汉语的“字本位”理论,就不仅要应用“形式化”的方法和工具,而且还要发现或理解“形式化”方法和工具背后的机理。这就是本文讲述的一个重要观点或核心思想,即:在参照系(即:GTCM和GSCM)中,实现:(再理论上,字与字组)定义形式化,(再实践上)字组数字化和(字的)义项(在形式上)字组化。

参考文献
1、徐通锵《语言论--语义型语言的结构原理和研究方法》1997年10月东北师范大学出版社,295-442页[M] 徐通锵《基础语言学教程》2001年2月北京大学出版社,19-36页,178-237页[M]
2、邹晓辉“协同智能计算语言数据库的设计方法(2002年11月)”
[J]《潜科学》第32期http://potentialscience.org/
http://www.gmw.cn/03pindao/lunwen/show.asp?id=2274光明网论文发表交流中心转载[EB]
3、邹晓辉 “义项语汇典例(SVDE)的总量控制模型(2004年6月) --人机协作对采用汉语注释的语义词汇典例进行计量分析”284页[C] 《第五届(国际)汉语词汇语义学研讨会论文集》
http://survivor99.com/pscience/20050105%20%20zxh%20biaozhu%20%20wenzhang/CLSW5_ContentTable.doc [J]《潜科学》第32期 http://potentialscience.org/
http://www.gmw.cn/03pindao/lunwen/show.asp?id=2271光明网论文发表交流中心转载[EB]
4、朱志凯《逻辑与方法》1995年8月第一版,人民出版社3-32,225-287,229-304页[M]
5、北京大学数学力学系几何与代数教研室代数小组《高等代数》1978年,人民教育出版社1-49,102-149,376-398页[M]
6、熊全淹《近世代数》1978年8月第二版,上海科学技术出版社15-120页[M]
7、中国人民大学数学教研室《线性代数》1983年第一版,85-138页[M]
8、[美]David M. Kroenke 《DATABASE PROCESSING——Fundamental,Design & Implementation (Seventh Edition)》施伯乐等译《数据库处理——基础、设计与实现》2001年3月第一版,电子工业出版社170-246,334-489页[M]
9、康博创作室《SQL Server 2000 数据仓库设计和使用指南》2001年4月第一版,清华大学出版社14-36,49-69,113-230页[M]
10、陈肇雄主编《机器翻译研究进展》1992年8月第一版,电子工业出版社1-564页[C]
11、黄增阳《HNC(概念层次网络)理论——计算机理解自然语言的新思路》1998年11月第一版,清华大学出版社1-516页[M]
12、北京大学计算语言学研究所《计算语言学文集》第4集,2000年,1-254页[C]
http://icl.pku.edu.cn/icl_tr/collected_papers/ [EB]
13、黄河燕主编《机器翻译研究进展》2002年11月第一版,电子工业出版社1-282页[C]
14、苏培成等《语文现代化论文集》2002年10月,商务印书馆1-364页[C]
15、邹晓辉“字的形式化定义--试论字本位理论的根基”[汉语“字本位”理论专题研讨会论文(短论之一)]
http://www.gmw.cn/03pindao/lunwen/show.asp?id=2339光明网[EB] 2004年11月17日
http://survivor99.com/pscience/20041217-20041229/zxh word 01.doc[J]《潜科学》第38期
16、邹晓辉“字组的划分方法--试论字本位理论的功用”[汉语“字本位”理论专题研讨会论文(短论之二)]
http://www.gmw.cn/03pindao/lunwen/show.asp?id=2471光明网[EB] 2004年11月27日
http://survivor99.com/pscience/20041217-20041229/ zxh word 02.doc [J]《潜科学》第38期
17、张志公《汉语辞章学论集》“汉语简论”(1996年人民教育出版社) [C]
18、南开大学《语言学论辑》“词语强制搭配的语义关系类别及其性质(作者:刘叔新)”(北京语言学院出版社1996年8月),1-17页[C]
19、喻云根《英汉对比语言学》北京工业大学出版社1994年12月,69-99页[M]
20、冯志伟“发挥汉语拼音在信息时代的作用”商务印书馆2002年10月,41-44页[C]
21、邹晓辉“论影响人类未来的五大系统工程之间的关系”《熵.信息.复杂性(Entropy Information Complexity)》[J]第86期 http://survivor99.com/entropy/paper/p95.htm [EB]
22、邹晓辉“一种知识信息数据处理方法及产品”2000年,G06F163[C]知识产权出版社
http://www.gmw.cn/03pindao/lunwen/show.asp?id=2275光明网论文发表交流中心[EB]
http://survivor99.com/pscience/zxh/zhx2.htm [EB]附图1-6
23、张学文《组成论》中国科学技术大学出版社2003年12月,44-56页,246-252页[M]“字符多项式与表格数学”[J]《潜科学》第39期(转载) http://potentialscience.org/ [EB]


THE NEXUS ON WORD AND GROUP IN CHINESE
——ON DEVELOPING THEORY OF WORD(CHARACTER) AS ESSENTIAL UNIT

ZOU XIAO HUI
BEAUTIFUL-GARDEN BUILDING 15-2 NUMBER 201 IN ZHU-HAI 519125


Abstract
It is the main idea of this paper "THE NEXUS ON WORD AND GROUP IN CHINESE" based on the companion volume of "THE DEFINITION IN SYSTEM OF FORM ON CHINESE WORD" and "THE PARTITION METHOD ON CHINESE WORDS GROUP" that Chinese word meaning should be showed itself by words group as precedent. It’s as trilogy for the three papers. According to GSCM(Gross Syllable Control Model),there would be only one No. with A ={∑ni xi} for every last word and group in Chinese,and it is sole for the group table every last No.2,3,…,m in GSCM. That means:formalized definition for word and group in Chinese,id in GSCM for digital words group,word meaning showed by words group.

Keywords
WORD (CHARACTER) AS ESSENTIAL UNIT, WORDS GROUP AS PRECEDENT SHOWING WORD MEANING IN DICTIONARY

致谢
    北京大学中文系基础语言学教研室徐通锵教授与洛阳外国语学院计算语言学教研室易绵竹教授在百忙中阅读了本文的初稿,前者从基础语言学专家读者的角度给予了作者珍贵的提示,后者从计算语言学专家读者的角度给予了作者宝贵的鼓励,在此作者向他们表示真诚的谢意!
    同时,还要感谢作者的母亲和妻子给予的关怀和帮助!
    没有上述各位的关心和帮助,此文难以在如此短的时间内修订完稿,并与汉语“字本位”理论专题研讨会的各位专家见面(指:论文公开)。希望它能起到“抛砖引玉”的作用!
    最后,还要感谢汉语“字本位”理论专题研讨会组委会提供这次机会!特别要感谢汉语“字本位”理论创立者徐通锵教授给本文提供汇编进入论文集的机会!
 

图1-8 for page9