论汉语字组的细分(重点分析字和字组的关系)
--字组细分方法及其计算模型对汉语字本位理论的意义


邹晓辉
qhkjy@yahoo.com.cn 

2004,7公布于潜科学网站



关键词语:字本位、字组细分、总量控制、人机协作
论文纲要:
一、绪言
1、领域: 本课题涉及语汇分析方法(基础语言学)和语义词典模型(计算语言学)的交叉学科分支领域。
2、特殊性:通过人机协作,对汉语字组,进行总量可控的细分,融合了崭新的语言观和知识观。
3、重要性:汉语字组细分方法与总量控制模型,不仅在实践方面为后续的语文、知识和软件三大系统工程的顺利开展奠定了语汇一级汉语资源库建设的基础,而且还在理论方面为汉语字本位的观点和体系的推广及理论本身的进一步完善提供了支持。
4、研究途径:通过人机协作,对汉语字组,进行总量可控的细分,分为两个基本途径(或方面):一方面是以人为主导的研究开发型的义项细分途径(着重本义的信息分析);另一方面是以机为主导的共享重用型的字符细分途径(着重文本的信息分析)。
5、局限性:本课题只涉及汉语字组的细分--重点分析字和字组的关系。
6、关键假设:研究开发型的超级用户群体拥有的语言技能与科学知识远远多于共享重用型的普通用户群体拥有的语言技能与科学知识。
7、贡献:通过建立汉语的字组细分理论及总量控制模型,开辟了人机协作的新方向。
二、综述
1、字本位的汉语语言观(基础语言学)
以下着重介绍字本位理论提出前后汉语语言观的发展。
a、字本位理论提出前
《马氏文通》引入外语(拼音文字)的词本位语言观。
《转换语法》引入英语(拼音文字)的语本位语言观。
注:语本位,即:短语本位(它等价于:句本位)。
b、字本位理论提出后
《语言论
--语义型语言的结构原理和研究方法》
一方面,指出英语(拼音文字)的复本位语言观;
另方面,确立汉语(方块文字)的单本位语言观。
注:复本位,指:词与句。单本位,指:字本位。
2、字组细分的汉语信息处理的知识观或方法论(计算语言学)
a、计算语言学通常直接采用基础语言学的语言观。
b、《义项语汇典例(SVDE)的总量控制模型--人机协作对采用汉语注释的语义词汇典例进 行计量分析 》提出字组细分的计算语言观。
注:本文将对字组细分的计算语言观进行深入分析。
三、方法
1、数学方法
a、 代数方程
1)根据汉语字组细分的计算语言观提出自然语言理解的总量控制模型;
2)根据英语词组细分的计算语言观提出自然语言理解的总量控制模型。
注: 汉语与英语的上述模型,虽然相同,但各自的符号形式体系却不同。
b、 函数表格
注: 由于汉语与英语的数学模型相同,所以理解它们的函数表格也相同。
2、数据处理方法
a、数据库方法
b、数据仓库方法
注: 对汉语与英语采用直接表达与间接计算的策略,因此,对自然语言理解的方式则是通过对数字的直接计算和间接表达的形式实现的,也就是说,采用字组细分的计算语言观可以直接借用现成的数据库以及数据仓库的技术和管理的方法,支持人机协同进行自然语言理解和科学知识表达以及形式信息识别甚至融智软件处理。
3、系统工程方法
a、语文系统工程方法
基于自然语言理解的总量控制模型。
b、知识系统工程方法
基于科学知识表达的结构控制模型。
c、软件系统工程方法
基于形式信息识别的质量控制模型;
基于融智软件处理的质量控制模型。
4、字组分合方法
a、 字组细分方法(义项细分途径)
基于义项细分的科学知识表达,着重
本义的信息处理,以自然人为主导,突出研究开发的原创性。
b、 组字重用方法(字符细分途径)
基于字组细分的自然语言理解,着重
文本的信息处理,以计算机为主导,突出学习重用的共享性。
四、结果
1、数学表达方式
c、 代数方程(具体的方程和实例介绍)
d、 函数表格(具体的表格和实例介绍)
2、数据处理形式
a、汉语义项字典(数据库与数据仓库的部分)
b、汉语用例大全(数据库与数据仓库的部分)
3、 系统工程蓝图
a、语文系统工程蓝图(分为:基础教育与高等教育两个阶段)
b、知识系统工程蓝图(分为:常识教育与专业教育两个阶段)
c、软件系统工程蓝图(分为:通用软件与专用软件两个阶段)
4、 字组分合的基本工具
a、语汇一级的字组细分方法(义项大典)
b、语汇一级的组字重用方法(用例大全)
五、结论
1、可计算的数学模型
2、可选择的数据处理
3、可重用的系统工程
a、语文系统工程(集成--字组细分体系中类似静力学的部分)
b、知识系统工程(融智--字组细分体系中类似运动学的部分)
c、软件系统工程(共享--字组细分体系中类似动力学的部分)
4、可推广的分合方法
a、语汇一级的字组(汉语)或词组(英语)细分方法(单语义项大典)
b、语汇一级的组字(汉语)和组词(英语)重用方法(双语用例大全)
注:多语的情况是上述介绍的单语和双语的通用的模型及其实例的推广。
六、总结
本文通过论述汉语字组细分的计算语言观,重点从基础语言学的角度深入分析了汉语的字和字组的关系,并且,通过比较汉语的字组细分的计算语言观与英语的词组细分的计算语言观,进而,从计算语言学的角度给出了相应的数学公式和计算模型。
字组细分,有狭义和广义之分,狭义的字组细分属于汉语语汇学(基础语言学
--主要是指基于汉语字本位的字组细分)和语义词汇学(计算语言学)的交叉学科领域,广义的字组细分涉及文字、语音、语汇、语义、语法、语用、修辞、逻辑、写作的文体和文本的翻译等多学科交叉领域。本文论述狭义的字组细分。
计算模型,是指基于字组细分的计算模型,包括汉语理解的音节总量控制模型(狭义的字组细分与计算模型)与文本总量控制模型(广义的字组细分与计算模型)。本文论述狭义的字组计算。
七、致谢
感谢北京大学中文系徐通锵教授推荐和邀请本文作者出席
汉语字本位理论专题研讨会!同时,对徐教授给本文作者在基础语言学方面的指导也深表谢意!
八、参考文献
1、徐通锵《语言论--语义型语言的结构原理和研究方法》1997东北师范大学出版社
2、徐通锵《基础语言学教程》2000北京大学出版社
3、俞士汶、朱学锋 编《计算语言学文集》2000(第四集)见:<http://icl.pku.edu.cn>
4
、邹晓辉《语言及语义信息的统一参照系》2001熵和信息网站 (见:http://survivor99.com/entropy/paper/p51.htm
5
、邹晓辉《义项语汇典例(SVDE)的总量控制模型--人机协作对采用汉语注释的语义词汇典例进行计量分析 》2004第五届汉语词汇语义学研讨会(论文)见:<http://culturegene.icpcn.com/yuyan_access_2.htm>
九、注释
1:《语言及语义信息的统一参照系》的修订搞2001年被易绵竹教授收入他主编的(国家重点课题的一个子课题)《计算语言学论文集》之中
22004第五届汉语词汇语义学研讨会(论文集目录)见:<http://www.colips.org/conference/clsw5/c-index.htm>


论文摘要(修订稿)
论文题目:
论汉语字组的细分(重点分析字和字组的关系)
--字组细分方法及其计算模型对汉语字本位理论的意义
作者:邹晓辉
关键词语:字本位、字组细分、总量控制、人机协作
论文摘要:
本文通过论述汉语研究的字组细分方法及总量控制模型,把基础语言学中汉语字本位的观点推广到计算语言学领域。由于这个推广过程得到了数学和计算机科学等可验证方法的有力论证,因此,不仅在实践方面为后续的语文、知识和软件三大系统工程的顺利开展奠定了语汇一级汉语资源库建设的基础,而且还在理论方面为汉语字本位的观点的推广及其理论体系本身的进一步完善提供了相应的支持或启示。
字组细分方法及其计算模型对汉语字本位理论的意义,即:
1、该方法与模型对汉语字本位理论的操作性,提供实践检验手段;
2、该方法与模型对汉语字本位理论的应用性,提供实践操作工具;
3、该方法与模型对汉语字本位理论的完善性,提供计算分析方法;
4、该方法与模型对汉语字本位理论的普及性,提供系列推广工具。
附注
1
据作者所知,本文提及的这项研究,不仅在汉语字本位理论的推广研究领域具有新颖性、创造性和实用性,同时,也未见其他研究者或公开的研究成果。
附注
2
该字组细分方法及其计算模型的三个实施例:
a、基于1000个常用字的字组细分和计算试验模型;
b、基于3500个常用字的字组细分和计算试验模型;
c、基于8000个常用字的字组细分和计算试验模型。
上述试验模型的直接现实意义:
一方面,为汉语习得与外汉教学提供协同智能计算工具(印刷版与数字版);
另方面,也为语文、知识和软件三大系统工程奠定了计算语汇分析的基础。
由此可见,这也间接说明了本研究对汉语字本位理论推广的现实意义。