字本位与中文信息处理
——解析“字与字组的关系”探索“汉语形式化”新路
(典型实例:由“一字精解”到“字字精解”)
邹晓辉
0756-5505041 qhkjy@yahoo.com.cn 
519125 珠海市斗门区井岸桥东恒美花园15-2栋201号


【摘要】本文是笔者探索汉语及中文形式化信息处理新方法的总结。英语和基于英语的形式化方法及其好处学界周知,转换生成语法及其后续的各派理论的发展早已为计算机科学和计算语言学普遍接受或了解。模仿它们的汉语词本位、短语本位和句本位理论违背了汉语的特点。因为“汉语中没有词”(赵元任)。“这种跟着西方人思路转的研究是无法实现赶超国际水平的目标的”(徐通锵)。英语形式化方法突破不了中文信息处理的技术瓶颈。如:词的“切分”与“标注”就面临“消歧”难题(俞士汶、孙茂松、黄河燕等)。本项研究课题“摆脱了流行思路的束缚,以字本位理论为基础研究中文信息处理的问题,探索形式化新路。这抓住了汉语特点的关键”(徐通锵),因为“字是中国人心目中的中心主题”(赵元任)。
【关键词】基础语言学,字本位,计算语言学,形式化,计算机辅助,中文信息处理
【专家评语】
    这是一个前沿性的课题。现在语言信息处理的思路大多受国外语言理论的影响,而如何根据汉语的特点,运用信息科学的技术,进行中文信息处理,赶超国际水平,是我们急需探索和解决的一个重大课题。方向正确,思路清楚,立论有据,是有原创性的新著,其形式化的研究成果也具有广泛的使用价值。         

语言学专家:徐通锵(北京大学中文系教授)

全国普通高等学校人文社会科学研究十五规划纲要 语言学 咨询组负责人


    字本位与中文信息处理的基础——解析“字与字组的关系”探索“汉语形式化”新路是作者经过长期深入研究和在计算机上通过实践检验的重大科研成果。这个成果的理论意义和实用价值在于:根据汉语的实际特点,运用信息科学先进技术从事中文信息处理,赶超国际水平。

计算语言学专家:鲁川(教育部语言文字应用研究所研究员)

中国中文信息学会计算语言学专业委员会(首届)主任


    它较好地实现了与国际学术研究的接轨,因而处于国内同类课题研究的先进水平;作者倡导的融智学新范式和协同智能概念体系,不仅对于我国语言科学和信息科学及其相关学科的研究具有重要的学术探索价值,而且对于建立面向多文种语言信息处理的计算语言数据库和开发拥有自主知识产权的信息产品具有广泛的实际应用价值。

机器翻译专家:易绵竹(解放军外国语学院教授)

国防语言文化研究所所长计算语言学教研室主任


    语言的形成是一个十分复杂的过程,语言所表达的语义的解析更是一个复杂的问题。本书作者通过对中文语言文字的长期研究,积累了丰富的知识,提出了许多有见地的观点。本文提出了以字为中心,从字出发分析中文语义的一种新的方法。这些思想对于中文信息的自动化处理都提供了一种新的途径。

计算机科学专家:奚建清(华南工业大学计算机科学与工程学院,软件学院教授)

兼任广东省软件重大专项专家组组长


    内容新颖,有较高学术水平,…。消解歧义是自然语言处理的关键,本文提出的理论和方法,可以对于这个问题的解决提供新的思路。

自然语言处理专家:冯志伟(教育部语言文字应用研究所研究员)

师从国际计算语言学委员会主席(B.Vauquois)教授专门研究数理语言学和机器翻译问题


    协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作

中文信息处理专家:苑春法(清华大学计算机系教授)

智能技术与系统国家重点实验室专家


引言


    长期以来,我们一直缺乏适合汉语及中文自身特点的系统化的语法理论,这严重地制约了中文信息处理的研究进展。《语言论——语义型语言的结构原理和研究方法》(1997徐通锵)和《基础语言学教程》(2001徐通锵)独树一帜建立了汉语“字本位”理论。本文在此基础之上做了进一步的基础性研究,在尝试对字与字组及其各种关系进行形式化描述的同时,也尝试对汉语及中文信息处理的形式化方法进行大胆创新。
    由本文的标题和副标题可知,“字与字组的关系”的探讨是汉语“字本位”理论关注的基础性问题(属于基础语言学领域);“汉语形式化”是中文信息处理实践面临的根本性问题(属于计算语言学领域)。两方面结合导致本论题。本文的缘起:北大中文系语言学专家对字的认识分歧(至今尚未达成普遍一致的共识)。试问:作为自然人的专家尚且无法消除的分歧,怎么让计算机系统去重用?这类性质的难题也是主张强人工智能观点的中文信息处理专家们所面临的棘手问题。如,中科院计算机语言工程研究中心机译专家就说:对机器翻译而言,只有一个难题,就是消歧。清华大学计算机系自然语言处理课题组专家也明确地指出汉语在“分词”与“标注”上存在技术瓶颈。北大计算语言学研究所专家还十分明确地指出(汉语及中文的)形式化非常困难。中国社科院语言学研究所机译专家公开指出语言学理论滞后制约了中文信息处理技术的发展。
    同样研究自然语言,不同的学科有不同的视角,普通语言学站在人类智能主体的立场,采用的是自然人的视角;计算语言学站在人工智能代理的立场,采用的是计算机的视角;工程融智学站在协同智能计算系统的立场,采用的是自然人和计算机两者交互协同的视角。本文就是对从(必然兼容且优于前两种视角的)第三种视角而提出来的研究课题的回顾。
工程融智学的方法,以人机“合理分工、优势互补,高度协作、优化互动”的方式独辟蹊径,提出了自然语言理解的工程模型(基于Z-ASCII的GTCM/STCM与基于Z-Unicode的GSCM/SSCM)及应用模式(SDVE),如:“两典一册”。部分成果(1997-2005)已得到学术界多个课题组专家们不同程度的认可(见:专家评语)。本文将重点介绍其中近期取得的进展。汉语“字本位”理论方面,本文明确表述了字的迭交原理,直观地表述了字与词两种思维模式,二字组的构造原理;中文信息处理方面,本文明确给出了字处理的“三合一”设计方案(经过“中文计算机输出输入系统”、“终极标准信息交换码”和“大字符集可小字符集化的字型库”协同试运行一段时间之后可以中文基因芯片的形式固化),提供了“两典一册”(经过“合作型生产式教学法”推广普及活动检验之后可以中文语法芯片的形式固化)的示例。全局形式化标准平台,可为“中文基因”和“中文语法”信息的提取以及“(汉英/英汉)双语概念及命题”知识的提取,提供人机“合理分工、优势互补,高度协作、优化互动”的优化环境。从而,可进一步为“中文基因芯片”和“中文语法芯片”以及“(汉英/英汉)双语知识(概念及命题)芯片”的封装奠定形式化基础。这涉及业内普遍感兴趣的一组关键问题的解决,是适合汉语字本位语法形式化表述进而可改观中文信息处理形式化现状的新方法。
 

正文

字本位与中文信息处理  [共21028字,附图24幅,需用pdf阅读器( Adobe Reader 4.0 下载之后机器自动安装)或 Adobe Reader 7.0 (下载之后自己手动安装)阅读]

参考文献

李谷城等译:现代语言学(乔姆斯基革命的结果)[M]外语教学与研究出版社1-3201983

  立:美国理论语言学研究[M]北京语言学院出版社1-2401993

喻云根:英汉对比语言学[M]北京工业大学出版社69-991994  

  锋:汉语研究在海外[M]123-188页,北京语言学院出版社1995

张志公:汉语简论[A]汉语辞章学论集[C]人民教育出版社1996

刘叔新:词语强制搭配的语义关系类别及其性质[A]南开大学语言学论辑[C]北京语言学院出版社1996

徐通锵:语言论--语义型语言的结构原理和研究方法[M]东北师范大学出版社1-4421997

黄增阳:HNC(概念层次网络)理论——计算机理解自然语言的新思路[M]清华大学出版社1998

邹晓辉:融智学原创文集[C] 2000-2005

北京大学计算语言学研究所:计算语言学文集(第4集)[C] 1-2542000

徐通锵:基础语言学教程[M],北京大学出版社19-36页,178-2372001

  川:汉语语法的意合网络[M]1-277页,商务印书馆,2001

施伯乐等译:数据库处理——基础、设计与实现[M]电子工业出版社170-246334-4892001

康博创作室:SQL Server 2000 数据仓库设计和使用指南[M]清华大学出版社2001

冯志伟:发挥汉语拼音在信息时代的作用[A] 语文现代化论文集[C]商务印书馆41-442002

黄河燕主编:《机器翻译研究进展[C]电子工业出版社1-2822002

苏培成等:语文现代化论文集[C]商务印书馆1-3642002

张学文:组成论[M]中国科学技术大学出版社44-56页,246-2522003

http://www.survivor99.com/pscience/   http://survivor99.com/entropy/