“默契通信”与“间接计算”对“自然语言处理”的重要性
——由“个性化前台”与“标准化后台”支持的“理解”
邹晓辉
0756-5505041 qhkjy@yahoo.com.cn 519125 广东珠海井岸桥东恒美花园15-2栋201号
摘要:基于“文本总量控制模型”和“音节总量控制模型”的人与机高度协作且优势互补,突出“默契通信”和“间接计算”对“自然语言处理”的重要性。
关键词:自然语言理解、默契通信、间接计算、间接形式化、中文信息处理
“DEFAULT COMMUNICATION”AND“INDIRECT COMPUTING”FOR SIGNIFICANCY OF“NLP”
——Understanding by Standard Processing and Personal Form
ZOU XIAO HUI
0756-5505041 qhkjy@yahoo.com.cn BEAUTIFUL-GARDEN BUILDING 15-2 NUMBER 201 IN ZHU-HAI IN CHINA 519125
Abstract:It is important of Default Communication and Indirect Computing to Nature Language Processing for that user cooperates with computer for interpenetration that is based on GTCM and GSCM.
Keywords:Nature Language Understanding, Default Communication, Indirect Computing, Indirect Formalization, Chinese Information Processing
绪言
本文涉及:“自然语言处理”的方式及习惯做法能否优化的根本性问题,属于:计算语言学的理论基础研究领域。
其特点是:以“默契通信”和“间接计算”以及“间接形式化”方略,尝试 “自然语言处理”(本文以“中文信息处理”为例)的优化。
其重点是:本文所述的原理和方略,以自然人与计算机的明确分工、有机协作、优势互补为前提。
研究途径:从人机分工和中英文对比的角度,探讨“中文信息处理新方法”(汉语的“间接形式化”方法)依据的“默契通信”和“间接计算”原理及其对“自然语言处理”的重要性。
其局限是:实施“默契通信”和“间接计算”的“间接形式化”系统——基于“两表”的“协同智能计算系统”(以“中文信息处理”为例),需有共同的“基准参照系”(“理论上可演绎”)与“应对参照系”(“实践上可相对完全归纳”)—— “目标域”由用户“约定”。
基本假设:对“自然语言”而言,“基准参照系”和“应对参照系”虽是隐性的分散存在的事实,但不是显性的工程整合的事实,所以,需把同一语种(如:中文)非线性的“信息处理方式”转化为“自然数字”线性的“信息处理方式”,从而,把“个性化前台”与“标准化后台”结合提供一种基于“两表”的“默契通信”和“间接计算”——“有针对性的重用”或“理解”自然语言。即:通过“间接形式化”,实现“对象、概念、符号、关系”的“分合切换”——针对“用户的具体重用要求”而“重构或重组”。
知识贡献:明确“默契通信”原理和“间接计算”原理以及“间接形式化”方略及其对“自然语言处理”的重要性。
希望本文能给学界同仁有所助益或启示!同时,希望听取各方面的意见或建议!
综述
下面,先从一个独特的角度,探讨“通信与计算”的相关问题。接着,探讨中英文信息处理的区别和联系。最后,指出关键问题。
0、“通信与计算”的相关问题
一方面,“通信的数学模型”(哈特莱和申农)似乎没有进一步的改变——仍然限于“超越方程”:
(1)1928哈特莱“把信息理解为(在通信符号表中)选择通信符号的方式,即:“S”(符号表中符号的个数)的“N”(被选符号序列的长度)次方,并用“选择的自由度”来计算“信息量的大小”,进而提出了信息量公式:H = N log S。
(2)1948申农“在进行信息的定量计算的时候明确地把信息量定义为随机不定性程度的减少”,进而提出了的信息量公式:Hs(p1,...,pn)= -K ∑pi log pi。
另一方面,“计算的数学模型”(图林等人)似乎也没有进一步的改变——仍然限于“英语思维”:
(3)上个世纪30年代,英国数学家Turing(图灵)为破解德国发明的密码机所产生的密电码,通过研究“可计算数” 或“可计算性”,即:研究能在有限的机械步骤内产生的密码,从而引出了通用计算机的概念。
(4)John Von Nouma(冯·诺依曼,美藉匈牙利人,1903-1957)通过研究“计算与存储的关系”提出“通用计算机的体系结构”——著名的"冯·诺依曼机"设想,其中心就是有存储程序原则——指令和数据一起存储.这个概念被誉为'计算机发展史上的一个里程碑",它标志着电子计算机时代的真正开始,指导着以后的计算机设计。
(5)1949年,J.Mauchly提出了短指令码的概念,即让编程人员用熟悉的加、减、乘、除等符号编写程序,通过一个预制的表格将这些符号变成“短码”,再变成机器码。“短码”概念的引入使人们跳出了机器码的约束,“短码”(汇编语言)也由此成为一切高级程序语言最重要的基础。
国际通用的数字计算机及其通信(形式信息)交换标准[如:美国标准信息交换码(ASCII)]的确立[注:能表示几乎世界上所有书写语言的字符编码标准(Unicode)也是在这个思路的基础之上发展或扩充的],哈特莱-申农贡献的“(形式)信息概念”具有科学的奠基作用。邱奇=图灵“可计算数”,"冯·诺依曼机"设想,J.Mauchly“短码”以及在此基础上以“数学、逻辑、语言”乃至“图形”等“人工语言的形式体系”为特点的“高级程序语言”,都是基于“英语字母”和“英语思维”的方式而逐步发展起来的。可以说,与“汉语笔画”和“汉语思维”的方式“几乎无缘”。
1、区别探源
众所周知,英文是“小字符集”,中文是“大字符集”,这是造成“英文信息处理”与“中文信息处理”之间一系列区别的一个根本原因。
仅仅限于用计算机科学领域的所谓术语这么一说,一般的专业人员通常也难以直观地想象出“英文信息处理”与“中文信息处理”之间的实体区别或本质差距。不熟悉“英文打字机及其构造原理”与“中文打字机及其构造原理”之间具体区别的人,对此自然“不知所云”。
事实证明:通用计算机的“键盘、字库、字处理标准”的发明几乎统统渊源于“英文打字机及其构造原理”——与“中文打字机及其构造原理”完全是“风马牛不相及”。计算机出现以前,人们是怎样借助英文或中文打字机进行英文或中文“信息处理”或“通信与计算”的呢?了解这个问题答案的读者,对此也许应该会有较为深入的感受和理解。
2、联系探源
我们知道,数字电路的“开、关”, 神经细胞的“ 兴奋、抑制”, 二进制数的“0、1”之间的联系或一致性,这是带来“计算机信息处理”与“自然人信息处理”之间历经一系列“中介”或“输入输出转换”之后可能联系的一个根本原因。
仅仅用计算机科学、数学、生理学领域的所谓行话这么一说,一般的专业人员通常也难以直观地想象出“计算机信息处理”与“自然人信息处理”之间的实体关联或本质联系。不研究“计算机与自然人”如何具体分工协作的人(既不熟悉计算机电路,又不熟悉自然人神经系统,难以理解其中的道理),对此自然“云山雾罩”。
事实证明:从计算机发明之初到广泛普及的今天,凡是与计算机相关的领域——无论是硬件、还是软件、甚至是数据库,几乎统统涉及“计算机与自然人之间”如何具体分工协作的问题(从事计算机研究或应用计算机工作的具体人员,虽不一定都能明确地认识到这个问题,但这的确是一个基本事实)。最典型的例证,一是各种样式的“计算机辅助”产品——这是典型的“机助人”现象;二是各种类型的“软件工程”服务——这是典型的“人助机”现象。
3、关键问题
区别与联系的关键涉及:如何在计算机与自然人的“基本输入输出系统(BIOS)”之间建立一系列“中介”或“相互传递或转换”(“通信与计算”)的函数关系?本文关心:中文与英文在“键盘、字库、字处理标准”上有无“兼容”的可能?基于“字”的“中文信息处理”与基于“词”的“英文信息处理”在“通信与计算”模型上有无“实质关系”?
换一句话说,是否存在可能改变以下格局的原理及方法?
当前的格局:现在通用的所谓汉化的“中文信息处理”统统是建立在“基于英文的计算机底层技术”的基础之上的。可以说,到目前为止,还没有“基于中文的计算机底层技术”。
有谁见过哪一台通用计算机“一开机”其“基本输入输出系统(BIOS)”就能直接显示中文?又有谁见过在哪一台通用计算机“裸机”上直接采用“基于中文的编程语言”?至今没有。如何从根本上改变这种格局?见:方法、结果、结论和议论。
方法
0、“人机协作”
“人机合作”与“人机竞争”相反相成。“人类智能”与“人工智能”的关系,涉及“竞争”与“合作”两种基本形式。本文提倡“人机合作”或“人机协作”——以“(自然人与计算机的)明确分工、有机协作、优势互补”为前提。基本步骤:(1)“分工”:“静态信息处理”以“人助机”为主;“动态信息处理” 以“机助人”为主。(2)“ 协作”:“首次处理”从“专家用户”那里“获取”知识或信息;“再次处理”从“大众用户”那里“获取”知识或信息。(3)“ 互补”:“首次重用”由“标准化”系统“表达”知识或信息;“再次重用”由“个性化”系统“表达”知识或信息。具体操作{ 除“三多”(多媒体、多语种、多学科)之外,见:本文的姊妹篇——“中文信息处理新方法”[(JSCL-2005)论文]},涉及:“两表”、“三多”、“三化”、“三注”。
1、“间接形式化”
“间接形式化”与“直接形式化”相反相成。这里以“汉语的间接形式化”为例,基于“两表”的“三多”实现“对数字与字及字组(乃至:语音)的直接呈现”。旨在:变“不可计算”为“可计算”。其中,前“两多”可“间接计算”;后“一多”可“默契通信”。
2、“间接计算”
“间接计算”与“直接计算”相反相成。这里以“汉语的间接计算”为例,基于“两表”的“三化”实现“对数字的直接计算与字及字组(乃至:语音)的间接计算”。旨在:变“难计算”为“易计算”。
3、“默契通信”
"默契通信"是一种令人满意且相当理想的"通信"。所谓"默契通信",简单说,就是:在通信方法上“心照不宣”,在通信效果上“不谋而合”。日常生活中几乎人人都有过"默契"的快感。我们试图把各种令人愉快的"默契方式"推广到“计算机辅助”和“互联网辅助”领域。基本方法:基于“两表”的“三注”实现“对(表达知识或信息的)数字或字及字组(乃至:语音)有针对性的重用”。旨在:“去冗传要”—— 显著地减小“知识重传”的次数,即:只需传“本真信息”而不必“重传”大量的“重用知识”及相应的“形式信息”。在此,“本真信息”就是如何在“两表”中“有针对性地重用知识或信息”的“序位信息”。“形式信息”(如:“音像或符号信息”)与“内容信息”(如:“知识信息”)相反相成。
有关注意事项
(1)关于“合作纽带”:不仅具有“强人工智能”与“弱人工智能”的“计算机”及“互联网”而且具有“强智”与“弱智”的“自然人”均可“分类分批”纳入“人机协作”的“合作机制”中来重新规划。这里强调:提供跨领域的“标准化后台”与“个性化前台”的计算机辅助和支持,为所有参与到“间接计算”和"默契通信"的“间接形式化”的“合作系统”中来的各方提供一个共同的“基准参照系”以及由此“可演绎”且受“相对完全归纳”、“枚举”或“类比”约束的一系列“应对参照系”。(2)“基准参照系”:Z_ASCII(中国标准信息交换码)或GTCM(文本总量控制模型)的“0”分表(见:“中文信息处理新方法”)。(3)“应对参照系”:GTCM的“1-12”分表(见:“中文信息处理新方法”),其中的“数据、信息、知识”的“处理方式”涉及:“目标域”(对具体的用户而言,涉及:“两表”的“未知域”与“已知域”)。(4)“三化”:在GTCM的“1-12”分表(见:“协同智能计算语言数据库”)与GSCM(音节总量控制模型)的“1-多(字组)”分表(见:“字与字组的关系”的解析)中体现的“定义表格化、字组数字化、义项字组化”。(5)“三注”:GTCM的“4-6”分表;GSCM的“1-多(字组)”分表(见:“中文信息处理新方法”)。(6)“三多”:GTCM的“0-12”分表(见“协同智能计算知识数据库”)。
结果
基于“两表”的“间接形式化、间接计算和默契通信”,既可为“用户”提供跨领域“自然语言理解”的“计算机辅助和支持”功效,也能为进一步优化“协同智能计算系统”创设更为有利的条件。
0、判断是否“理解”自然语言的标准
“协同智能计算系统”能否做到“有针对性地重用”相应的“知识信息数据”?“ 能”则视为:具有“理解”能力,“ 否” 则视为:不具有“理解”能力。
判断“是”与“否”的依据是基于“两表”的“选域定向、测序定位”,相当于“经纬指南、街区门牌”或“街区门牌、对号入座”的作用。其中,“选域定向、测序定位”通过“后台程序的计算”实现;“街区门牌、对号入座”通过“前台界面的呈现”实现。具体分工协作如下:
1、“理解”与“间接形式化”的关系
“有针对性地重用”,可区分为:“后台重用”与“前台重用”。基于“两表”的"间接形式化"的“两列”或“多列”由于“相互对应”,所以,只需“前台呈现”即可达到“形式信息处理”的目的。这就为“协同智能计算系统”提供了“标准化后台与个性化前台”融合的“计算机辅助和支持”环境。
2、“理解”与“间接计算”的关系
“有针对性地重用”,可区分为:“直接重用”与“间接重用”。基于“两表”的"间接计算"的“两列”或“多列”由于“相互对应”,所以,只需“间接重用”即可达到“数据计算”的目的。这就为“协同智能计算系统”用户应用系统如何简化“数据结构”和“算法”提供了条件。
3、“理解”与“默契通信”的关系
“有针对性地重用”,可区分为:“全盘重用”与“关键重用”。基于“两表”的"默契通信"的“双方”或“多方”由于“理解到位”,所以,只需“关键重用”即可达到“信息交换”的目的。这就为“协同智能计算系统”用户之间的“信息”或“数据”的“优化传输”创造了条件。
结论
基于“两表”的“默契通信”和“间接计算”对“自然语言处理”十分重要。
1、“间接形式化”可解决“自然语言处理”操作难的问题
“间接形式化”,有利于:“自然语言处理”在“操作”上的“人机分工——扬长避短”。
实验证明:可有效地解决“中文信息处理”各个层次的“歧义消解”问题,进一步拓展还可解决“自然语言处理”涉及的“识别、理解、表达”等“人工智能”问题。
好处:“静态信息处理”可“共享”易“重用”。“动态信息处理”易“操作”(需后续步骤配合)。
例如:汉语的“字内、字间、字外”信息处理,涉及“文字、语音、词汇、修辞、语义、语法、章法、逻辑、语用、翻译”等具体的汉语及中文信息处理。
2、“间接计算”可解决“自然语言处理”计算难的问题
“间接计算”,有利于:“自然语言处理”在“计算”上的“人机协作——相互融合”。
实验证明:可有效地解决“中文信息处理”各个层次的“信息计算”问题。
好处:“人助机”+“机助人”=“个性化前台”与“标准化后台”在“计算”上的融合。
例如:对汉语的词汇信息处理,可通过GSCM的“1-多(字组)”分表,实现“人机互动”高效“切分”和“标注”。
3、“默契通信”可解决“自然语言处理”质量低的问题
“默契通信”,有利于:“自然语言处理”在“质量”上的“人机互补——取长补短”。
实验证明:可有效地解决“中文信息处理”各个层次的“信息交换”问题。
好处:“大协作”+“好算法”=“个性化前台”与“标准化后台”在“质量”上的互补。
例如:汉语的文本信息处理,可通过GTCM的“1-12”分表,实现“人机互动”高效“处理”。
总而言之,"间接形式化"的关键是“标准化后台与个性化前台”融合“优化操作”。“间接计算”的关键是“优化算法”。“默契通信”的关键是“优化传输或信息交换”。
总体来说,基于“两表”的“人机之间的高度协作且优势互补”可较方便地解决“自然语言处理”的上述“关键难题”或“瓶颈问题”。
议论
从GTCM与GSCM两个总量控制模型各个分表的自然语言处理的实际情况来看,“默契通信”和“间接计算”对“自然语言处理”的重要性,尤其值得“中文信息处理”学界的关注或重视。因为,其中涉及一系列有待进一步探讨的具体课题。现在举例提示如下(希望有兴趣的学者参与探讨!):
1、就汉语的文本信息处理而言,通过GTCM的“0-12”分表,我们至少发现了以下极有潜力的课题
(1)GTCM的“0”分表,涉及的Z_ASCII(中国标准信息交换码)体系设计或确认的问题;(2)GTCM的“0,1,2,3,4”分表,涉及的“汉语形式体系”中“广义字本位与狭义字本位的关系”和“字内信息处理”的问题;(3)GTCM的“4,5,6”分表,涉及的“(汉语的)字、辞、块”与“(英语的)词、词组、短语”的关系问题;(4)GTCM的“4,5,6,7,8”分表,涉及下述的“十大(微)系统工程”;(5)GTCM的“9,10”分表,增加“章法信息处理”;(6)GTCM的“11,12”分表,增加“分类与目录信息处理”。
2、就汉语的音节信息处理而言,通过GSCM的“1-多(字组)”分表,还涉及以下极有潜力的课题
(1)通过“一字和二字的关系”的解析(既基础又典型的“字间信息处理”)和“文字、语音、字典、词汇、修辞、语义、语法、逻辑、语用、翻译”等具体学科涉及的基于GSCM的“1-2(字组)”分表的“汉语及中文信息处理”的“十大(微)系统工程”;(2)在(1)的基础之上,向GSCM的“3-多(字组)”分表的逐级延伸的“组合与分解”(“字间信息处理”);(3)在(1)和(2)的基础之上,由“无标点符号”(仅限于GTCM的“4,5,6”分表)向“有标点符号”(拓展到GTCM的“4,5,6,7,8”分表)延伸的“组合与分解”(由“字间信息处理”到“字外信息处理”)。随着(1)、(2)、(3)或GTCM的“4,5,6,7,8”分表的逐级延伸或拓展,“十大(微)系统工程”的工作任务也随之相应地充实或丰富。
3、几个特殊的中文信息处理课题
(1)“字处理”由“狭义”向“广义”拓展过程中涉及的“汉语感知方式”与“中文信息处理”的关系问题(2)“词处理”由“静态对比”向“动态对比”过程中涉及的“汉语感知方式”与“英语感知方式”以及“中文信息处理”与“英文信息处理”的关系问题(3)“句处理”由“语义、语法、语用”向“文字、语音、词汇、修辞、语义、语法、章法、逻辑、语用、翻译”拓展过程中涉及的“汉语感知方式”、“汉语思维方式”与“中文信息处理”的关系问题(与“词处理”和“篇章处理”相结合)(4)“篇章处理”与“图书信息处理”由“简单的分类与编目”向“结构化、标准化、数字化”的方向发展,如:把“分类目录的信息处理”与“字、词、句的信息处理”结合乃至贯穿GTCM的“0-12”分表的信息处理。
*WordNet-online version;*OpenCyc.org;*CLSW1-6;*ICCC2005* 5th IEEE-ACM International Workshop on Grid Computing (Grid 2004);
*张钹院士(2003年8月8日光明日报)谈:基础研究对于技术创新的重要性
*孙茂松教授谈:中文信息处理领域面临的机遇和挑战
参考文献(按照公开发表的时间先后排序)
R.V.L.Hartley(哈特莱).1928,Transmission of Information,BSTJ,Vol.7,p.535-536.
Church, A(邱奇), 1932, A set of Postulates for the Foundation of Logic, Annals of Mathematics, second series, 33, 346-366.1936, A Note on the Entscheidungsproblem, Journal of Symbolic Logic, 1, 40-41.
Turing, A.M(图灵), 1936, On Computable Numbers, with an Application to the Entscheidungsproblem, Proceedings of the London Mathematical Society, Series 2, 42 (1936-37), 230-265.
C.E.Shannon(申农).1948, Mathematical Theory of Communication,BSTJ,Vol.27,p.379-423,632-656.
陈肇雄主编:机器翻译研究进展[C] 1-564页,电子工业出版社,1992
徐通锵:语言论--语义型语言的结构原理和研究方法[M] 295-442页,东北师范大学出版社, 1997
黄增阳:HNC(概念层次网络)理论——计算机理解自然语言的新思路[M] 1-516页,清华大学出版社,1998
林杏光:词汇语言学和计算语言学[M60-118,140-376,语文出版社年,1999
俞士汶、朱学锋:计算语言学文集[C] 1-254页,北京大学计算语言学研究所,2000
施伯乐等译:数据库处理——基础、设计与实现[M] 170-246,334-489页,电子工业出版社,2001
鲁 川:汉语语法的意合网络[M]1-277页,商务印书馆,2001
邹晓辉:一种知识信息数据处理方法及产品[J]发明专利公报G06F163知识产权出版社,2000,(11)
俞士汶:关于汉语信息处理的认识及其研究方略[J]语言文字应用(总第42期)2002,(2)
苏培成等编:语文现代化论文集[C] 商务印书馆,2002
黄河燕主编:机器翻译研究进展[C] 1-282页,电子工业出版社,2002
徐波、孙茂松、靳光瑾主编:中文信息处理若干重要问题[C]科学出版社出版,2003
邹晓辉:协同智能计算语言数据库的设计方法[J]潜科学(第32期)2004(7)
邹晓辉:协同智能计算知识数据库的设计方法[J]潜科学(第39期)2005(1)