两个基本信息公式及其算法的坏与好的比较

——指出:哈特莱-仙农提出的经典信息公式是坏算法

(强调:语义信息新论提出的基本信息公式是好算法)

 邹晓辉(融智研究所) 邹顺鹏(外国语学院) 

广东珠海井岸桥东恒美花园15-2201519125

e-mailqhkjy@yahoo.com.cn

摘要:为什么说哈特莱-仙农的形式信息公式是坏算法,而语义信息新论提出的基本信息公式是好算法?指出前者是坏算法与强调后者是好算法,有必要吗?本文首先从数学上回答了第一个问题,接着,从信息科学与计算机数据处理两个角度回答了第二个问题。仙农信息论深入人心,这是众所周知的,但是,哈特莱提出的经典信息概念及其基本公式是仙农信息论的基础,则往往是通信专业以外的人士所不清楚的。同理,哈特莱-仙农的形式信息公式都已普及,这也是学界认可的,但是,该基本公式是坏算法,却又往往是数学专业以外的人士所易忽视的。如果读者不理解这两个基本的知识要点,那么,也就必然认识不到语义信息新论提出基本信息公式的作用及其重要性。

关键词:哈特莱信息  仙农信息论  坏算法  好算法  语义信息公式

BAD OR GOOD FOR THE ARITHMETIC OF INFORMATION FORMULAS

——POINTING OUT:HARTLEY-SHANNON’S INFORMATION FORMULA IS A BAD ARITHMETIC

FOCUSING ON: ZOU’S FORMULA IN GENERAL INFORMATION SCIENCE IS A GOOD ONE

ZouShunPeng  ZouXiaoHui

ETERNAL BEAUTIFUL-GARDEN BUILDING 15-2 ROOM 201 IN ZHU-HAI 519125

e-mailqhkjy@yahoo.com.cn

Abstract: Why we say that Hartley-Shannon’s Information Formula is a bad arithmetic,while ZouXiaoHui’s a good one? Is it necessary to point out that the former is bad and the latter is good ? We answer the first question based on mathemtics and then the second question based on information science and computer data processing.Shannon’s Information Theory is well-known,but people who are not in the domain of communication specialty do not understand that Hartley’s Information Formula is the foundation. In the same way, Hartley-Shannon’s Information Formula has been coming to light in the domain of the communication and computer science,but people who are not in the domain of mathemtics specialty do not understand that Hartley-Shannon’s Information Formula is a bad arithmetic.If readers did not understand the two key points,they could not understand the use or the fundamentality of ZouXiaoHui’s Semantic Information Formula in General Information Science.

Keywords:  Hartley’s Information  Shannon’s Information Theory  Bad Arithmetic  Good Arithmetic  Semantic Information Formula

1.绪言

1.1.领域:本文探讨哈特莱-仙农提出的形式信息公式与语义信息新论提出的基本信息公式(简称:语义信息公式)的关系,即:I = H - 0 = N log S(哈特莱“指数-对数”信息公式)I = Hsp1,...,pn- 0 = K∑pilogpi(仙农“对数-概率”信息公式)I = D - 0 = m n(邹晓辉“自然数-矩阵”信息公式, I = D – KK = 0不考虑知识及语义时的情形的区别和联系(当H = D属于信息科学的基本理论研究领域,涉及数学、通信和计算机科学的交叉研究。

1.2.特殊性:本文从语义信息公式的独特视角,深入透彻地分析信息(信息科学的核心概念的内涵及其本质和外延)及其计算模型(涉及基于双列表的间接形式化方法和序位恒等式及具体的算法优选)

1.3.重要性:本文不仅关注信息论的基本问题——信息与信息量的关系,而且指出被忽略的两个基础问题:a信息计量原理(语义信息公式和序位恒等式)b区别算法好坏的标准。

1.4.研究途经:首先,在战略层面,直接采用语义三棱模型和语义信息公式,明确信息的内涵及其本质和外延以确定定性分析的基础。接着,在策略层面,借助基于双列表的间接形式化方法,既可让八大形式体系各就各位,又可使自然人的定性分析擅长与计算机的定量分析特长各得其所且相得益彰。最后,在战术层面,明确知识信息数据的序位恒等式(即:m1 n1 + m2 n2 = m n以确定定量分析的基础。其间比较了两种对付指数增长的基本思路——(Nyquist提议,Hartley采用Shannon沿用——我们至今仍在使用)对数与(邹晓辉采用)矩阵(结合关系数据库,不仅优选重用分布函数和线性代数方程及线性规划等现成的好算法很方便,而且还可直接使用自然数进行算术计算)

1.5.局限性:一、哈特莱-仙农的形式信息公式的局限性;二、区别算法好坏的相对性。了解这两个限制因素,利于正确理解语义信息公式应用的具体限制条件。

1.6.基本假设:算法的好与坏以及算法的简单与复杂的全局判定比局部判定更重要。也就是说,我们说形式信息公式是坏算法而语义信息公式是好算法是全局判断。

1.7.贡献:进一步探讨了语义信息公式的内涵,如:a明确提出知识信息数据的序位恒等式;b明确提出信息计量公式(即:形式化描述好坏优劣)的科学评判标准:第一,可计算,第二,易计算,即:算法好,要么高效且足够简单,要么虽复杂但非常有效且经适当处理可化繁为简;c明确指出基于双列表的间接形式化方法及其典型实施例的数学、通信和计算机科学的依据。

2.综述

我们知道,科学的信息概念及其数学理论渊源于现代通信技术实践。拥有共同的通信符号代码表(如:字母表、摩尔斯电码、ASCIIUnicode是双方及各方通信的基础。至于各方如何具体编码或解码均可归结为:具体算法的选择。下面介绍前人(信息理论的先驱者)和我们先期提出的信息概念及信息量公式,同时,提出本文探讨的问题。

2.1.哈特莱Hartley1928提出的信息概念和信息量公式

概念1:信息是(在通信符号表中)选择通信符号的方式。概念2:选择的自由度[SN次方(其中,S表示符号表中符号的个数,N表示被选符号序列的长度)]可用来计算信息量的大小。公式1I = N log S 公式2H = N log S [IH均表示信息量NlogS是指数(即SN次方)取对数的形式]

分析与思考:问题1a“选择通信符号的方式”意味着什么?问题1b“选择的自由度”又意味着什么?问题2a“通信符号表”和“SN次方意味着什么?问题2b公式12是什么关系?分析1:从语义三棱模型看,问题1a涉及三个基本概念(范畴),即:“选择”(意)、“符号”(文)、“方式”(义);一个复合概念,即:“选择方式”(意义);一个复杂概念,即:“通信”其中,“通”(物或载体载能的转换),“信”[即:(信息)=(意、文、义)]。问题1b涉及:“自由度”[可选择的范围,即:(物、意、文、义)]。分析2:问题2a涉及:“符号表”[双方或各方作出具体选择的共同依据或标准],即:“符号”(文),“表”(义或体现具体关系的序位本义)。“SN次方”(表示信息总量呈指数增长,如:所有可能被选择的状态)。从语义信息公式看,问题2b涉及:D = H(公式12的纽带)K = 0 (即:不考虑知识及语义)。结论1:从全局上看,基于符号表的(人与人、人与机、机与机、机与人)通信皆受制于两个前提:1)算法的好与坏,如:算数增长与指数增长:2)算法的简单与复杂,如:整数与小数。结论2:公式12的关系,即:I = H - 0 = N log S

2.2.申农Shannon,1948限定的信息概念和改进的信息量公式

概念3:信息是用以消除随机不定性的东西。概念4:信息量是随机不定性程度的减少。公式3I = Hsp1 ,...,pn- 0 ,公式4Hsp1 ,...,pn= K∑pilogp

分析与思考:问题3:“随机不定性”意味着什么?问题4:“不定性程度”意味着什么?分析3:问题3涉及“随机”(概率),“不定性”(歧义性)。分析4:问题4涉及“不定性程度”(歧义程度)。结论3:引入概率虽可使分析深入细化,但并不能也没有改变被取对数形式计算而掩盖的指数形式。结论4:判定歧义性是定性分析;计算歧义程度是定量分析。请注意哈特莱-申农的形式信息公式的区别与联系以及它们的局限性!沿该思路推广的后续者从根上也受其制约。

2.3.邹晓辉ZouXiaoHui,1997发展的信息概念、提炼的信息本质及语义信息公式

概念5:信息的内涵,涉及四种类型:时空序位、质能序位、类例序位、数码序位。信息本质是序位本义(即:本真信息)。信息的外延,涉及三个论域或基本范畴:意(即:意识意向,如:知识)、文(即:符号形象,如:文本。物化的立体或活体为其特例)、义(即:序位本义,如:关系数据库中表格化的序位)。形式信息可由选域定位来识别。语义信息的性质判定涉及信息与知识的关系。概念6:信息量可由测序定位来计算。形式信息的数量计算涉及信息与数据的关系。公式5:语义信息公式:I = D – K (用于自然人或计算机用户的语义信息计量ZouXiaoHui,1997-2005公式6:形式信息公式:I = D - 0 = m n(用于计算机的形式信息或数据计算D = m n ZouXiaoHui,1997-2005

继续思考:问题5:“序位本义”是什么?问题6:如何实现数据、信息、知识的统一计量?分析5:问题5涉及(有限目标域的)“序位”。分析6:问题6涉及(间接形式化的)“数据、信息、知识”。结论5:区分有限目标域与任意目标域,可限定双方或多方通信或交流的论域,确保对话言之有物,交流文之有据,沟通思之有路,内心思之有理,且便于得到互联网及计算机辅助。 结论6:以双列表的方式间接形式化的数据[如:八大形式(即:字、式、图、表、音、像、立体——静态虚拟、活体——动态虚拟)之一的具体形式(如:中文或英文)——有限目标域的数据,既可是未知域数据——信息,也可是已知域数据——知识]均可在未知域I和已知域K组成的目标域Dmn行的矩阵m n表格中选域、测序、定位。基于双列表的间接形式化与m n = I + K相互相成

2.4.问题汇总(提出进一步探讨的问题)

问题7:为什么说哈特莱-仙农的形式信息公式是坏算法,而语义信息公式(注:公式6是公式5的特例)是好算法?即:公式123456之间是什么关系?问题8:指出哈特莱-仙农的形式信息公式是坏算法与强调语义公式是好算法,有必要吗?即:除指数取对数这一直接途径之外,还有其它间接途径可以获得更好的算法吗?

下面对问题7和问题8的分析(旨在寻找新途径)和解答(旨在开辟新途径)方式采用全新思路。

3.方法与结果

3.1.基本算法及思路的比较

首先从数学上解答问题7,接着,从数学、通信与计算机数据处理的角度解答问题8

公式1-4和公式5-6分别表示信息量计算的两种不同思路。同样是计算信息量,公式1-4采用“指数-对数”及“对数-概率”的策略(无法回避直接计算很大的自然数乃至实数的问题),而公式5-6则采用“自然数-矩阵”的策略(可间接计算实数且可把很大的自然数分解为相当小之后再计算)

当“H = D”且“K = 0”时,“I = H - 0” 及“I = Hsp1 ,...,pn- 0”与“I = D - 0”等价且均为“I = D – K”的特例。公式6表示信息总量等于数据序位的总量,即:只考虑载体形式而不考虑承载内容(如:知识及语义),信息的总量等于信息熵的数量。

H = N log S”及“Hsp1 ,...,pn= K∑pilogpi”与“D = m n”是对付指数增长(如:SN次方)的两种基本思路,涉及:(Nyquist and Hartley采用)对数、(Shannon引入)概率、(Zou Xiao Hui采用)矩阵(优选重用分布函数和线性代数方程及线性规划等现成的好算法也很方便)三种算法类型,其中,前两种(“指数-对数”和“对数-概率”)属于“解超越方程的类型”与后一种(“自然数-矩阵”)属于“解线性方程(组)的类型”之间存在坏与好的区别。众所周知,对数与指数是函数与反函数的关系。对数虽可简化计算,却不能改变需要计算的数据总量呈指数增长的性质。因此,前两种基本算法都可归结为:基于指数的对数数值计算,不仅各次计算的数据总量庞大,而且,没有与知识信息数据处理对接的形式化途径。后一种算法则可归结为:基于自然数的算术数字计算,借助于双列表的间接形式化方法,不仅有与知识信息数据处理对接的形式化途径,而且,还是以量身订做的方式特制的,加之,事先已把呈指数增长的数据分解并转化成相应列或行的算术增长形式,因此各次计算的自然数数字的数量均相当限制,简单情况下仅需算术数字计算,复杂情况下还可直接重用各种现有算法且能好中选好、优中选优。由此可见,反映三种算法的两种基本思路相比较,后一种思路在算法上的优越性是显而易见的。既然如此,为什么我们还要沿用前一种思路及其基本算法和具体算法的路径继续往下走呢?一则因为工作的连续性和程序的兼容性的需要;二则因为新旧两种基本思路的对接或转换也有一个磨合的过程。

现在看来,问题的关键,不仅是因为两种思路在选择数据(含:信息与知识)表示的形式化途径上不同,而且,还因为支持各自思路的信息观及方法论也有根本的区别。

3.2. 全新的思路和方法

首先,从全局考虑:在战略层面,直接采用语义三棱模型和语义信息公式,明确信息概念的内涵及其本质和外延(见:本文2.综述2.3.概念5以确定定性分析的基础。

接着,在策略层面,借助基于双列表的间接形式化方法,既可让八大形式体系各就各位,又可使自然人的定性分析擅长与计算机的定量分析特长各得其所且相得益彰。

最后,在战术层面,明确知识信息数据的序位恒等式(即:由一个加群的表达式K + I = D 和三个乘群的表达式m1 n1 = K m2 n2 = I m n = D 结合而构成一个环的表达式m1 n1 + m2 n2 = m n以确定定量分析的基础。

4.启示

4.1.数学思考

我们知道:算术增长与指数增长,在数学上是非常清晰的两种计算模式。从根本上说,算法好坏皆基于此。通常情况下,两者之间存在不可逾越的鸿沟。如仅限于数学思维,的确不易找到比对数再好的方法来对付指数增长。何况人们已习惯走“指数-对数”转化的老路。虽然也知道:矩阵是非常高效的数学工具,特别是在计算机辅助的情况下。问题是两者之间似乎没有连通的路径。因此,能否发现“基于双列表的间接形式化”这座化繁为简的“桥梁”(捷径)就成了“寻找好方法及好算法”的关键之所在。

4.2.信息科学思考(涉及:进一步的数学思考)——化繁为简的关键:信息计量原理

工程融智学所述“字(含:数字与文字及特殊字符)、式、图、表、音、像、立体(静态虚拟)、活体(动态虚拟)”八大形式体系的广义文本基因皆可依据子全域平行层式元素“异义排列序趣简美法则”及超子域进阶层式成员总量控制“相对完全归纳原则”和“同义并列对应转换法则”纳入“终极标准信息交换码”Z-ASCII文本基因“基准参照系”和GTCM(文本总量控制模型)GSCM(音节总量控制模型)组合文本的“应对参照系”这一文化基因系统工程的总体框架之中。

4.2.1.子全域平行层式的例子——自然数的非常有限集

由个位(一位)数为元素而构成的二进制数的集合(仅有01两个元素)和十进制数的集合(仅有1,2,3,4,5,6,7,8,90十个元素)是子全域的两个极为特殊的平行层式——自然数的两个非常有限集。其共同的特点:一是元素个数非常有限;二是共享元素重用也仅限于子全域。

4.2.2.超子域进阶层式的例子——自然数的有限变换集

基于{0,1}{0,1,2,3,4,5,6,7,8,9}的元素而组成的数字组合是超子域的多个进阶层式(其成员由一、两、、多位数字构成)——自然数的有限变换集(限定在可计算且可接受的范围)。其共同特点:一是元素被重用的次数多、频率高;二是随着元素位数的增加会产生相应的进阶层式,如:由两位数、三位数、、多位数构成的12m进阶层式;三是每一进阶层式有位数相同的多个成员——具体的数字组合;四是子全域可视为0进阶层式。

4.2.3.典型例子——子全域(如:S与超子域[如:SN次方(涉及:两种基本思路的比较)]

两种基本思路及其算法类型:简单转换后还需复杂变换的所谓直接计算(即:基于“指数-对数”的超越数计算,如:化“SN次方”为NlogS以对付“指数爆炸”)与复杂转换后只需简单变换的所谓间接计算 [即:基于“自然数-矩阵”的自然数计算,如:(限定在“自然数的有限变换集”)不仅“SN次方”而且“N”均可转换为“m个进阶层式的n个成员”,从而,可更有效地对付“指数爆炸”]

4.3.计算机数据处理——典型应用实例(中文信息处理的基本结构控制模型)

m n表示进阶层式及其成员的数量:既可合一(如:ASCII也可分别(如:二进制数的集合与十进制数的集合)建立序位恒定的子全域平行层式元素一览表(即:子全域m0的多个平行层式一览表,共有元素n0的多个格)。如果由ASCII进一步发展到Z-ASCII(如:增加汉字笔画这一特殊的平行层式),那么,由 m0 n0矩阵可建立基于双列表的间接形式化元素符号模式自动识别的基准参照系(即:由子全域各个平行层式有限元素构成的数据集合,如:Z-ASCII作为超子域进阶层式有限成员定量分析的基础。也就是说,通过生成、采集、比对、转换等方式,还可进一步建立基于Z-ASCII的序位恒定的超子域进阶层式成员一览表(即:m个进阶层式一览表,共有成员m n的多个格)。如:GTCM0-6进阶层式成员的细化形式,由 m n矩阵可建立基于双列表的间接形式化组合符号模式自动识别的应对参照系(即:由超子域各进阶层式有限成员构成的数据集合)作为选域(即:确定m的值)定位(即:确定n的值)的定量分析(即:测序——确定mn的值)的数字计算依据。再进一步,从m n中选出已知域(即:m1 n1作为具体知识的序位集合,余留的未知域(即:m2 n2作为具体信息的序位集合,这样,基于“m1 n1 + m2 n2 = m n”的双列表间接形式化知识信息数据库可构成:标准化与个性化结合的一系列具体的通用和专用计算平台。GTCM0-6进阶层式是典型的应用实例其中,字内信息处理限于GTCM0-4进阶层式,字间信息处理限于GTCM4-6进阶层式[(有关构造过程,由中文信息处理的间接形式化新方法具体介绍。见:参考文献)字外信息处理限于GTCM7-127-15进阶层式(见参考文献,本文不讨论)]。具体计算模型:字内信息处理的文本结构控制模型[STCM in word(限于GTCM0-4进阶层式)]:中文以笔画为基本单位建立STCM(字内的层面型结构1-m 细分进阶层式)。英文以字母为基本单位建立STCM(词内的线串型结构1-m 细分进阶层式)。字间信息处理的音节结构控制模型[SSCM between words(限于GTCM4-6进阶层式)]: 中文以字为基本单位建立SSCM(字与字组的线串型结构1-m 细分进阶层式)。英文以词为基本单位建立SSCM(词和词组或短语的线串型结构1-m 细分进阶层式)。

5.结语

5.1.结论:就知识信息数据处理的间接形式化方法而言,序位恒等式的发现,为语义信息新论从全局到局部优选好算法奠定了数学、通信和计算机科学的坚实基础。

“序位恒等式”和“信息基本公式”以及“间接形式化方法”结合,不仅在数学上的优越性可以发挥得淋漓尽致,而且,在知识信息数据处理上的优越性也可发挥得淋漓尽致。所以,工程融智学从数学、通信与计算机数据处理三结合的角度发现了:把几何增长形式分解之后转化为算术增长的新途径,即:把数据总量D分解为矩阵m n 进而再把mn行数字转化为自然数的算术计算方法。这就造成了,全局算法上指数形式对数化的旧途径与几何增长形式算术化的新途径的区别与局部分析上信息熵的概率分析与信息量的分布函数分析的区别和联系。

5.2.总结:本文采用工程融智学的观点从数学、通信与计算机数据处理三个方面论述了形式信息公式与语义信息公式的关系。即:从数学上明确两组公式的本义(义),如:SN次方的数据D既可直接转化为NlogS也可间接转化为m n——两种表示总量相等,算法各异。形式信息公式遵循的是指数增长的法则,对数计算是其简化途径。语义信息公式遵循的是算术增长的法则,矩阵方法是其简化途径。从通信上明确两组公式的用意(意),如:通信的符号表的数据结构不同,选择的效率当然也就不同。形式信息公式要求通信双方或各方从呈指数增长的一个数据表中做出选择。语义信息公式要求通信双方或各方从呈算术增长的多个数据表中做出选择。从计算机数据处理上明确两组公式的文本(文),如:数据结构不同,查询路径和计算效率也不同。形式信息公式要求文本或数据直接形式化,语义信息公式要求文本或数据间接形式化。

5.3.议论:坏算法特点是几何增长或指数增长(如:SN次方);总量太大而失控(如:小数或有概率特征);直接计量方法(由指数到对数的算法变换);混合计算(如:混杂的字符集)。好算法特点是算数增长(如:N);还可进一步分解为m个总量可控的进阶层式(如:整数或有周期特征)。间接计量方法(由指数到算数的间接变换);分解计算(如:单一的字符集)。由有限目标域的一组双列表及其数字代码组成矩阵作为间接形式化方法的数学基础,其中,左列编号与右列数据一一对应。DIKm n中的序位是一致的,即:{左列编号集合} = {右列数据集合},其特征在于:有限目标域Dmn行数字代码构成,即:D = m n m n = D = I + K信息基本公式(定义式)与信息总量公式(计算式)的有机统一,不仅内容简明扼要,而且形式简捷高效。有了基准参照系与应对参照系的概念,数学公式、计算模型,在GTCM0进阶与GTCM0-6进阶之间,都可通过间接形式化的方式,借助计算机辅助和信息总量公式,实现间接计算和直接呈现。关键是认清信息的本质。自然人对算法的选择,影响计算机的具体处理方式。在不同进制数的集合N={…}中,除了以个位(一位)数为元素而构成的集合之外,还有以两位数、三位数、、多位数为成员而构成的集合,这前后两组关系是值得进一步探讨的。同理,ASCIIZ-ASCIIUnicodeGTCM0-6进阶之间的关系,也值得进一步探讨。

参考文献

R.V.L.HartleyTransmission of Information [J] BSTJ,1928 Vol.7

Claude E.Shannon and W.WeaverMathematical Theory of Communication [J] BSTJ,1948 Vol.27

N.J.A.Sloane and A.D.WynerShannon,C.E Collected Papers [C] IEEE Computer Society Press1993

钟义信:信息科学原理[M]北京邮电大学出版社1996

Losee, R. M.A Discipline Independent Definition of Information [M],Journal of the ASIS 1997,

邹晓辉:一种知识信息数据处理方法及产品[J]发明,知识产权出版社 2000

邹晓辉:协同智能计算语言数据库的设计方法[J]潜科学(第32期)20047)对北大、清华等介绍2002

邹晓辉:协同智能计算知识数据库的设计方法[J]潜科学(第39期)20051)对中科院、清华介绍2002

张学文:组成论[M] 44-56页,246-252页,中国科学技术大学出版社2003

Zou Xiao Hui(邹晓辉)The Gross Control Model of Semantic Vocabulary as Dictionary with Examples[A]Recent Advancement In Chinese Lexical Semantics [A] CLSW-5 [C] Singapore,2004 

邹晓辉:重构概念分类体系的新思路与新方法(介绍语义三棱模型[A] CLSW-6 [C] 厦门大学2005

邹晓辉:优化“语义信息处理”的新方法与实施例(介绍间接形式化方法[A] CLSW-6 [C] 厦门大学2005

邹晓辉:中文信息处理的新方法(介绍间接形式化JSCL-2005)[J]潜科学(第42期)20054

邹晓辉:默契通信间接计算自然语言处理的重要性[J]潜科学(第42期)20054

邹晓辉:语义信息新论(介绍信息基本公式[J]潜科学(第43期)20055