《语言及语义信息的统一参照系》

—— 给一本中国计算语言学文集的修订稿

邹晓辉

2002.05 公布于 http://potentialscience.org 

清华科技园(珠海)融智文化基因工程研究所所长

摘要

     提出义、文、物、意的融智概念体系,是对传统的意义理论以及人类知识概念体系进行的彻底变革。融智概念体系以及相应的数学模型是语言以及语义信息的统一参照系的最佳形式。

The Unified System Relates to Lingual and Semantic Information

Zou Xiao-hui

The chief of Rong-Zhi Cultural Genetic Engineering Institute in Scientific and Technological Garden( Zhu-Hai) of Tsing-Hua University

Abstract

To put forward Rong-Zhi concept system that is made of Relationship, character, matter and consciousness. That will be completely revolution against the traditional meaning theory as well as the traditional knowledge or concept system for humankind. The Rong-zhi concept system and it's mathematic model is the best unified system in the domain of lingual and semantic information.

前言

 为什么这样说提出义、文、物、意的融智概念体系是对传统的意义理论以及人类知识概念体系进行的彻底变革,融智概念体系以及相应的数学模型是语言以及语义信息的统一参照系的最佳形式呢?本文通过回答以下问题来阐述其理由。

 什么是融智概念体系?它涉及那些基本概念、推理法则和层次结构?能举例说明吗?(内容)

 传统的意义理论以及人类知识概念体系,是一个什么状况?为什么说语言以及语义信息的交流必须要有一个客观的统一参照系?(必要性和重要性)

    融智概念体系以及相应的数学模型所表达或反映的统一参照系,为什么是客观的?还能够找到比它更简单且完善的客观统一参照系吗?(必然性和可行性)

    所谓融智概念体系,是由义、文、物、意构成的知识分类体系。在此,义,指本真信息;文,指符号形象;物,指载体载能;意,指意识意向。其中,文、物、意,统统被视为展示本真信息的广义文本。与现有的知识分类体系相比,其本质特征在于对义与意进行严格区分。由此可见,义、文、物、意是构成该体系的基本概念。它们的含义可通过以下事例做进一步的通俗的说明,即:

    原理,如杯子的机理,是本真信息,属于义的范畴;展示其机理的文化形式,如杯子的图纸,属于文的范畴;展示其机理的物化形式,如具体的杯子,属于物的范畴;智能主体的选择,如杯子的构造及外观的设计构想,属于意的范畴。

    融智概念体系与其他概念体系新、旧区别的关键在于:

旧范式,对义与意,不作区分。例如:现有的语义学、意义理论和语义信息理论,不仅都没有明确地区分义与意,而且,总是用意义的概念把义与意混为一谈。值得注意的是,不用汉语的字本位的观点和方法,是不足以突现这个问题的。

    新范式,对义与意,严加区分。例如:《一种知识信息数据处理方法及产品》的原理,不仅对义与意作了严格的区分,而且对义、文、物、意作了严格而又明确的定义。

    如果说,文与物,涉及图、文、数、表、音、像、立体、活体等形式信息,那么,义与意,则涉及义、意、意义等语义信息。众所周知,个人计算机革命和通信革命的成果主要体现在形式信息处理方面,其困难则主要发生在语义信息处理方面。

    试问:旧范式在语义概念本身都存在问题的情况下,如何解决语义信息领域面临的难题?又如何解决语义信息和形式信息交错的难题?何况形式信息领域本身面临的难题并没有彻底解决。

    新范式,则把义、文、物、意四个分类系列作为协同智能主体进行定性分析的分类基础,区别于现有的旧范式及其分类体系。 

    下面通过汉语与英语的具体对比,举例说明融智概念体系的基本概念、推理法则和层次结构。

    1、从“义”的范畴看,汉语与英语各自的机理是不完全相同的。如果说普通语言学着重研究的是各种语言的共性,那么,汉语语言学着重研究的就应该是汉语这种语言的个性,而计算语言学的主攻方向就应该是计算机如何自动处理自然语言——包括自动化标注或识别、定位或理解、再现或表达。

    2、从“文”的范畴看,汉语的字和英语的词,是截然不同的符号形式体系(这是众所周知的)。

    3、从“物”的范畴看,汉语的字和英语的词的发音状态及过程,以及书写形式,也都是截然不同的物态形式体系(这也是众所周知且显而易见的)。

    4、从“意”的范畴看,汉语的字和英语的词,虽然都可以指谓相应的“物”乃至“义、文、物、意”,但长期使用汉语的字或英语的词的人或民族必然会产生截然不同的识别、理解和表达的习惯(这更是显而易见的)。

    5、从“义、文、物、意”诸范畴看,汉语的字和英语的词的最大的不同是:在“基本笔画、偏旁部首、字、字组、句、段、篇章”中,字以前是非线性结构而且是单音节,字以后是线性组合而且是多音节;在“字母、词素、词、词组、句、段、篇章”中,词的前后都是线性组合,而且词本身既可以是单音节也可以是多音节。由此而产生其它一系列不同,涉及具体语言文字的机理法则,体现为:符号形式、发音习惯和思维表达习惯等具体的特征部分。

    其中的推理机制及层次结构,根据信息基本定律和文化基因通式,可作如下表述:

    基本笔画和字母是子全域的基因文本元素;

    偏旁部首、字、字组(或词素、词、词组)以及随后的句、段、篇章等,都属于超子域的基因文本元素组合。

    其中,汉语的字和英语的词最适合分别被视为各自语言文字体系中具有语义特征的基本结构单位,因为,在它们之后的字组和词组、句、段、篇章等语言单位都是由它们的线性组合形式所构成的,只要代码化就可被计算机自动处理。

    英语的计算机自动处理,国外的计算语言学理论、软件工程和知识工程等领域有大量成果可供借鉴,在此就不一一列举了。

    但是,从中文信息处理的角度看,汉语的字本位是顺理成章的。以外来的词或词组作为汉语的基本结构单位是人为强加的,不符合汉语的机理和法则。至于采用字组(词和词组)、句子(包括小句或单句和复句)作为汉语的基本结构单位,也都不合逻辑。换句话说,汉语的基本结构单位只能是字。其它的所谓本位说充其量只能是一种临时的过度策略或战术应急手段,绝不具有战略的地位。

    至于汉语的字和英语的词之间,进一步包括它们之后的字组和词组、句、段、篇章等语言单位在内,如何进行比较或定位的问题,我认为都可以从子全域与超子域之间的演绎关系以及已知域与目标域之间的比对关系的计算机自动处理中找到答案。

传统的意义理论以及人类知识概念体系,是一个什么状况?以下对“语义三角”进行深入的分析和透彻的表述。

  意义,作为语义信息的核心概念,由于它暗含:“意=义这样一个假设,因此,造成了极大的混乱。我认为:这正是传统的意义理论以及人类知识概念体系中语义或语义信息等概念及其表述形式的根本问题之所在,这也是造成人类及人工智能主体在对语义信息进行定性及定量分析处理方面长期存在的一系列瓶颈问题始终得不到根本解决的原因之所在。

毋庸置疑,“意义”是常例,而“意=义只是其特例。意与义,决不能被简单地混为一谈。这就是为什么有必要提出义、文、物、意的融智概念体系的最基本的理由,也是为什么有必要对现有的意义理论以及与之相应的人类知识概念体系进行彻底的变革的根本理由。在义、文、物、意的融智概念体系中,除了用义表示本真信息之外,文、物、意,都属于义的衍生形式或派生现象。其中,文,指符号形象;物,指载体载能;意,指意识意向。

从哲学的角度看,本体论的形成、认识论的发展、语言学的转向,哲学领域这三次大的进步,实质上是从物、意、文三个方面分别形成了相应的有关其内在含义的立论体系。虽然它们都试图向本真信息迈进,但是,由于历史的因素或时代的局限等种种原因,至今,始终没有形成完整的义或本真信息的立论体系。

从科学的角度看,科学的各门学科,虽然都是以探求本质、机理及法则等本真信息为己任,但是,至今仍不具备形成完整的义或本真信息的立论体系的条件。因为,科学旧范式的特征使得各个学科“只见树木而不见森林”。到目前为止,各门学科实际上都是在探索现象背后的本质,即:支配物、意、文的义。但是,非常遗憾,其结果往往是支离破碎而难以整合。

至于艺术、技术、工程等领域,虽然都有各自相应的思维表达形式,但是,却在根本上受到哲学和科学的思维表达方式的影响。

表达式,涉及广义真实文本,包括:数、文[狭义的文本(文字)]、图、表、音、像、立体、活体(在此,物,可以被视为特殊的广义的文本)。

智能主体(包括自然人、机器人、协同智能主体等)指谓的对象(包括形式及其内容),可以是义、文、物、意的任何一个方面的具体内容或形式。

从通俗的例子来看:曲、棋、语言的本质或机理或法则等,可视为;乐谱、棋谱、文字等,可视为:琴、棋、器官或装置等,是;:演奏者、下棋的人、智能主体本身的选择,可视为其中,只有义是唯一守恒的,而文、物、意都是可变的。

如何判断并选择变化的形式或了解与认识变化的法则?直接关系到能否有的放矢地调整智能主体自身的行为方式(包括说、写、做),同时,相应地改造主、客体之间的关系(包括:主体与主体、客体与客体、主体与客体之间的相互关系)。

由于智能主体(包括自然人、机器人、协同智能主体等),是特殊的整合物,因此,对知识信息的识别、理解、表达,实际上就是智能主体上、下载知识信息或进行数据结构转换的过程。既然如此,转载信息的基本单位是汉字、英词或其它什么形式,这并不是问题的关键之所在。

或许对自然人而言,分别以字或词为基础,能构成不同的思维方式及相应的句法形式和表达体系。但是,对机器人或系统而言,关键是如何对构成字或词的基本元素的识别和计量的问题,因为各种类型和层次的基因文本元素组合,都可以通过相应的算法或排列组合进行处理或理解与表达。

    融智概念体系以及相应的数学模型所表达或反映的统一参照系,为什么是客观的?还能够找到比它更简单且完善的客观统一参照系吗?

    众所周知,学术界(其中数学是唯一的例外)这种“公说公有理,婆说婆有理”的现象是经常发生的事。对此,人们的态度通常是见怪不怪。

     为什么人们见怪不怪呢?为什么数学会是唯一的例外呢?又有多少人深思过这类问题的答案呢?我认为:这几乎是一个无法说明白的问题,除非能够跳出现有理论的框框。

    这些“公说公有理,婆说婆有理”的人,都没有真正摆脱现有理论框架的约束。因此,只好把矛盾问题搁置在那里。学术界的许多根本性的问题也都是这样被耽搁的。

如果两个智能主体之间在传递知识信息数据的过程中,各自依据的参照系不同,即:各自进入了“编号排位”不同的“分剧场”就算双方的“号”与“位”的形式都是一样的,但是,实际上却根本不搭界。现在,包括过去和近期的未来,各个智能主体之间的知识信息交流或数据交换,往往就属于这种“不搭界”的状态。

如果各个智能主体之间,在进行知识信息交流时,能够依据统一的参照系,那么,交流和理解的许多困难都将迎刃而解。人类的确是在向这个方向努力的。但是,由于作为共同参照系的科学范式以及相应的语言体系本身(特别是人类的概念体系)处于变化之中,加之海量信息和知识爆炸,使得人们往往只有招架之功而没有还手之力。

由于近、现代以来形成的相对时空观以及相应的逻辑体系,使得相应的思维体系、语言体系和软件体系都充分表现出各自为政的多样化冗余特性。因此,当“序、趣、简、美”且非常适用的统一参照系展现在面前之时,人们也往往会视而不见,即:对它的存在不理解,也感觉不到。

各个国家、各个产业、各个行业、各个企业、各个人、各个学科,似乎都在忙于建立或维护各自的相对参照系,并在这种各自为政的忙碌之中随着生命周期的变换而消逝。

的形而上的特性、的形而中的特性、的形而下的特性,都受到的无形或变化不定的特性的影响或干扰而难以为人们所认识和把握。

至今为止,还没有其他任何人提出过这种具体的可操作的统一参照系。不知牛顿后半身追寻的“神”和爱因斯坦晚年试图证明的“统一场”是否就是上述这种统一参照系?

我认为:融智概念体系以及相应的多元数系就是上述这种统一参照系的最佳理论形式。

由此构成的文化基因通式[代数表达式(a+bi&…)几何表达式(t&,x,y,z)],是绝对时空观和相对时空观统一的最简形式,又是唯一能够集中表达其它所有文化形式的基因元素及其组合的万能公式。

例如:全域数码定位系统[代数表达式(a+bi&…)与几何表达式(t&,x,y,z) 的物化形式,或:义、文、物、意四大范畴结合的典型实施例]就是上述这种统一参照系的工程化形式,它对文化基因元素及其组合的计量或“编号排位”就是协同智能主体对知识信息的表达,反过来的“对号入位”则是对知识信息的识别和理解。

    关于字本位的一点补充说明。

    下面直接应用《融智学(新范式)》义、文、物、意四个基本范畴,对汉语和英语进行比较分析,从而说明采用“字”作为汉语的基本结构单位的合理性。

    字的非线性结构与词的线性结构之间的区别,是汉语与英语(等拼音文字语言)之间最根本的区别,其它区别几乎都因此而产生,例如:思维方式(包括联想和推理的具体形式,例如《易经》的“两点论”与亚里士多德的“三段论”)及其表达方式(包括语法的具体形式,例如汉语的“语义句法”与英语的“语形句法”)的区别。

    汉语的字和英语的词,都属于“文”的范畴;两者都是用于表达“意” 或称谓“物”的语言文字工具。至于智能主体的“意”是否与客观的“义”吻合,或究竟称谓的是“物”、“文”、“义”还是“意”?这已经超出了现有的语言学的范围。

    因此,不发现并发明一种区别于现有的哲学以及科学旧范式的融智学新范式,是不可能高屋建瓴地把整个问题的本质搞清楚的。

    因为,仅仅在汉语的字和英语的词所属的“文”的范畴之内,来评价各种观点,最好的、最公平的、最有益的结果,只能是各书己见。如果要真正地推进人类的认识,就必须突破现有的哲学以及科学(包括语言学和计算语言学)旧范式的理论框架。

注:至于融智学理论以及文化基因公式如何具体地描述或表达,特别是如何利用该统一参照系为人类做事的具体方法和形式,在《一种知识信息数据处理方法及产品》(专利已提前公开)的发明专利说明书中有详细说明及实施例。

参考资料:

1、北京大学中文系 徐通锵《语言论》1997年10月东北师范大学出版社

2、邹晓辉《一种知识信息数据处理方法及产品》CN1274895A国家知识产权出版社2000年

3、原吉林大学国际交流学院珠海分院科教处 邹晓辉《融智学(新范式)》系统科学之窗论文专区: www.systemscience.org

附录:

一、语义三角,即:semantic triangle:concept(thought),symbol(word),referent(thing).。《the meaning of meaning》by C.K.Ogden and I.A.Richards 1923年

二、中国智网首页(www.china-wisdom.net) 文化基因工程(语义信息处理)公开发表时间2000-12 一篇重要文章:《语言以及语义信息的统一参照系》原创者兼著作权所有人:邹晓辉(zouxiaohui ) .信息.复杂性网首页( http://entropy.com.cn )2001年6月转载。

 

三、这次修订,重点参考了以下资料:

 

1、清华科技园(珠海)融智文化基因工程研究所 邹晓辉《从融智学的观点看汉语的一个基本理论问题——与徐通锵和陆俭明两位教授商榷》融智网首页( www.zxhrznet.com )2001年

《现代汉语》Modern Chinese Board www.modernchinese.com  2001年9月

2、四川大学 陈雨思《克服不确定,发展系统科学》、《信息自组织与知识信息处理——与邹晓辉交流系统科学之窗论文专区www.systemscience.org  

3、解放军外国语学院计算语言学研究室 易绵竹“计算语言学探索(系列文章)”《位语法理论与应用》黑龙江人民出版社1999年

4、周斌武、张国梁《语言与现代逻辑》复旦大学出版社1996年12月第一版

5、北京大学 陆俭明“汉语语法研究所面临的挑战”《计算语言学文集》(余士文等)200012 北京大学计算语言

       6、原吉林大学国际交流学院珠海分院科教处 邹晓辉关于“克服不确定,发展系统科学”与陈雨思的交流系统科学之窗论文专区www.systemscience.org