理论融智学的基本模型


作者:邹晓辉

qhkjy@yahoo.com.cn

2004,10公布于潜科学网站


关键词:理论融智学、本真信息(序位本义)、形式信息(广义文本)、人机通信的融智学原理、邹氏“信息概念与数学表示”涉及的基础理论(其背景知识涵盖:理论物理学、数学、逻辑学、语言学、认知心理学、计算机与信息科学)


一、问题的提出
人机沟通的融智学原理,涉及:一般科学涵义的信息概念与数学表示,属于:理论物理学、数学、逻辑学、语言学、认知心理学、计算机与信息(含:通信、传感和传播)等多学科交叉领域,例如:自然智能(如:生物的遗传信息与人类的信息处理功能或人类智能)与人工智能(如:计算机的模式识别、自然语言理解和知识表达)的基础理论研究领域。
该领域为大家所关心的一个十分重要的问题是:对“信息概念及其数学表示”如何达成共识或怎样提高共识水准的问题。其中,“理论融智学的数学模型”涉及人们对“信息概念及其数学表示”的进一步认识或探讨。
本文着重从数学与信息科学的角度[涉及:计算机科学和软硬件技术,特别是关系数据(仓)库的原理和技术],介绍该“数学模型”或“人机沟通的信息原理”的最新研究进展。


二、研究的价值
通常的做法,都是在“‘哈-申’二氏”信息概念或数学模型”的基础之上做一些延伸或推广[1][2][3][4]。其基本的途径或方法,均属于“对数函数”或“超越方程”的思维模式或研究范畴。这些看似涉及了信息概念各个方面的数学模型,其中有些已融为一体[3][4],都存在一个让人觉得很遗憾的问题,即:这些数学模型几乎无一例外地属于那种数学上所说的“坏算法”。本文作者认为:不能忽略这个十分重要的问题,因为,对于人机通信过程中时常需要进行海量信息处理的情况而言,算法的好坏至关重要。各位先驱者为什么不采用一种属于“好算法”的数学模型来描述信息概念呢? 这个问题,后面再来回答。现在先接着分析问题。
所谓复杂性、多样化、非线性的难题,通常都是:要么歧义多,要么算法坏。两种情况(最糟糕或最幸运)都碰上的概率很低。前一种情况,如:机器翻译面临“消歧”的困难,主要涉及语义信息处理或定性分析难题;后一种情况,如:信息量公式遭遇“坏算法”的尴尬,主要涉及通信信息处理或定量分析的难题。
理论融智学在这个问题上的最大突破,就是发现了:走上“既能做到‘消歧’又能选用‘好算法’”的捷径或坦途的“切入契机”(我将在“信息加工”与“信息交换”部分具体介绍)。
换句话说,就是:一方面从理论上找到了其中存在的机理和变换的法则以及相应的形式,另一方面从实践上也找到了较为彻底的解决办法(即:条理化的“消歧”方法和高效率的“好算法”)并得到了逻辑证明和数学计算的有力支持。
由此可见,本研究的重要性,在于:
它把人们对“信息概念及其数学表达”的认识又向前推进了一步。
这是非常关键一步。它不仅仅是从“坏算法”转向“好算法”的策略改进,而且,更是“数学计算”与“逻辑推理”乃至“工程实现(包括:软件展示及硬件响应)”诸方面多层次多阶段多系统的一体化更新。其中,“邹氏‘信息概念’本身的形成过程”涉及:观念更新;“邹氏‘信息概念’的‘文字表述’和‘数学表述’”涉及:策略改进。
“邹氏‘信息概念’的‘文字表述’和‘数学表述’”的公开和普及,将使人们对“信息本质的认识”产生又一次“质”的飞跃。
这对“(当前的)形式信息革命”向“(未来的)语义信息革命”的跨越,具有从战略到策略再到战术等多个层次全方位乃至全过程的影响。
如果上述说法还有待大众认识水平的普遍提高之后,才能“达成共识”,那么,下述说法,必将加速人们“达成共识”的进程。
本文所述的“邹氏‘信息概念及其数学表达’”的重要性还在于:它不仅是一个十分通俗的解释或说明(具有大众化的表述形式),而且是属于计算机非常容易实现的那种“好算法”的数学模型。


三、以前的工作
仅就“信息概念的数学模型”而论,以往的重要研究工作,至少涉及两个方面:

1、他人的重要研究工作(在此仅就几个公知的典型谈一点基本看法)
a、可以被认为是:与“计算机的‘程序言语理解’(注:仅对‘信息或信息概念’的理解而言)”有关的两个人(哈特莱1928和申农1948)的工作[1][2],涉及“经典信息概念的数学模型”。如:
(1)哈特莱的信息量公式:H=NlogS
(2)申农的信息量公式:Hs(p1,...,pn)= -K∑pilogpi
国际通用的数字计算机及其通信(形式信息)交换标准[如:美国标准信息交换码(ASCII)]的确立[注:能表示几乎世界上所有书写语言的字符编码标准(Unicode)是在这个思路的基础之上发展或扩充的],“‘哈-申’二氏”贡献的“信息概念和计算公式”具有科学的奠基作用。例如:哈氏“把信息理解为(在通信符号表中)选择通信符号的方式[“S”(符号表中符号的个数)的“N”(被选符号序列的长度)次方],并用选择的自由度来计量信息量的大小”;申氏“在进行信息的定量计算的时候明确地把信息量定义为随机不定性程度的减少”[3]。
b、可以被认为是:与“自然人的‘自然言语理解’(注:仅对‘信息或信息概念’的理解而言)”有关的几个人的工作[3][4],涉及“所谓广义信息概念的数学模型”。如:
(1)eluca-Termini模糊信息公式:d(X)
(2)Guiasu加权信息公式:I(U,P)
(3)钟氏广义信息(全信息)公式:I(U,U*;R)
(4)鲁氏广义信息(预言信息)公式:H(X)= -∑P(xi)logQ(xi)
由于上述“各氏‘信息概念的数学模型’”,实质上都企图以“对数函数”或“超越方程”来对付“指数增长”(S的N次方)的难题。这就必然陷入“坏算法”的泥潭而不能自拔,暂且不论各氏的“信息概念及其数学模型”是否可融为一个完备体系。
难道这些人一个都不知到数学上有所谓“坏算法”与“好算法”的区分吗?
关于信息概念,究竟有没有一种“好算法”的数学模型存在呢? 或者说:“好算法”的“数学模型”,怎样才能与恰当表述的“信息概念”相互匹配呢?
正是带着这样的疑问,本文作者试图在这方面开辟一条新的探索道路。
c、与此同时,有必要提及《组成论》(2003中国科学技术大学出版社)著者张学文先生提出的“字符多项式与表格数学”涉及的一个重要问题[5][6]。根据本文作者与张先生的学术交流或对话,可以肯定:
(1)“字符多项式”,是符合“好算法”的基本要求的;
(2)“表格数学”的主张,也与“好算法”的方向一致。
遗憾的是张先生不理解“多元数”与“多项式”这两种数学形式的关系[6],同时,也不理解融智学的“多元数通式”与组成论的“字符多项式”的区别。仅就本文涉及的话题而论,就是:没有认识到“消歧”与“好算法”如何兼得的奥妙。


2、本人先期的研究工作
a、“‘广义文本’或‘形式信息’概念”
实际功用,涉及:八大形式体系和五大系统工程[7][8][9]。
形式体系,却可追述到《易(经)》发现并描述的“2的n次方”的形式体系。结合现代数学的基础理论(如:集合与对应)和计算机科学技术(如:关系数据库)的实际情况,本人从融智学“三通”理论新范式的角度,一方面,提出了定性地表达“形式信息”的“八大体系”的划分观点和方法,另一方面,提出了定量地表达“八大形式体系”的演算原理和方法,用文字表述,就是:提出了基于“子全域”(如:以ASCII为其子集的ZSCII)和“超子域”(如:基于ASCII的各种组合变换形式)及其“进阶层式”[如:《协同智能计算语言数据库的设计方法》与《义项语汇典例(SVDE)的总量控制模型》所述的自然语言“进阶层式”一览表(注:在此“全部id数据表格”与“整个线性方程组”是一致的)]的形式体系或数学原理[其数学模型(属于“好算法”)见本文“方法”和“结果”部分]。
b、“‘序位本义’或‘本真信息’概念”
理论作用,涉及:信息概念及八大关系的界定和数学表示[10]。
数学原理,涉及:多元数通式(a+bi&...)和“歧义符号”。
(未完,待继)