第一章 引 论
这本书之所以叫广义信息论,是因为:
1. 其中基本理论是C. E. Shannon(仙农)信息论[1]的自然推广;
2. 所讨论的是更广范围内的信息: 语义信息、感觉信息、测量信号信息、甚至手段和目的之间的信息;
3. 它还涉及控制论、物理学、经济学、生物学和哲学。
1.1 背景
在我们这个新理论层出不穷,同时也是理论和见解没有多少差别的时代,本书所写的好象注定要成为这些新理论中的一个;不过不同的是,作者建立理论并不是因为在研究一些问题之前就立志要建立什么,而是因为作者首先被一些问题所吸引,新理论只是解决这些问题之后的总结。这些问题是:怎样度量一系列颜色或图象实际给予的信息? 感觉分辨率怎样影响主观信息量? 怎样度量语言、预言和谎言的信息?将有不确定事件发生时,选择怎样的语句可以提供最多信息或信息价值?给定通信的主观效果要求时,客观信息率或平均码长可能压缩到多少? 信源和信道可变时信息量如何计算?集合中元素相互类似时,如何度量集合的熵、模糊性及有序性?怎样衡量知识的多少和科学理论的进步?怎样评价控制的复杂性和控制结果的合目的性...?
几乎每个领域都有把已有的正统理论奉为圣经,从而拒斥一切“异端邪说”的卫道士。下面我们向经典理论提几个问题,广义信息论的基本思想也由此看出:
1. 人(或动物)能否接收信息?人收到信息和更具体更正确地了解事实是不是一回事?
2. 通常人并不知道确切的事实发生的概率和条件概率,而只能根据经验、知识、语言、感觉或测量信号作主观预测,这时信息量如何求法?
3. 常识告诉我们,主观预测与事实相符且精确,所得信息就多,反之,信息就少,信息论如何与常识一致?
4. 实际的通信系统通常是开放的,人对于事实(即信源和信道)的认识总是处于进化之中,这时信息量如何求法?
人们常说,我们的时代正走向信息化时代; 然而信息论落后于时代在今日是再严重不过了。虽然Shannon理论声名卓著,然而它所涉及的信息仅仅是日常语言所说的信息的一小部分,即被减小的随机不确定性。而对于语义信息、感觉信息、偶然事件及测量数据提供的信息,Shannon理论无能为力; 甚至在经典通信范围内,信源或信道可变时,信息也不可度量。主要由于上述原因,从事信息科学的人大多属于下面两类,一类是信息论工作者,他们研究电子通信理论和应用;其基础理论是Shannon信息论。另一类是从事计算机科学、人工智能、 情报检索及各种用计算机管理的人;在他们眼里,信息无非是被处理过的有用数据,象某些教课书所定义的,而和Shannon 信息论毫不相干。他们通常称自己研究的信息为广义信息。有的地方还干脆把计算机系称作信息科学系。除了上述两类,也有少数人试图用Shannon理论解决广义信息(如图象视觉信息、语音信息)问题;虽然它们的可贵努力取得了不少可喜成果,但是仍然遇到难以克服的困难,比如,关于视觉分辨率(是主观的,并且往往是模糊的)怎样影响图象视觉信息的问题以及图象数据压缩问题在理论上就未能很好解决。
时至今日,两极分化日益严重。如果你来到某个大学计算机系问某个信息处理专家:“你们的工作要不要信息论指导?”回答很可能是:“信息论研究的是狭义信息,而我们研究的是广义信息...。”那种自信会让你觉得研究广义信息可以不需要度量广义信息的数学理论。另一方面,搞经典信息论的人往往认为只有自己搞的才是真正的信息科学,而视“信息”的其他理解为浅薄。要有一个统一的信息科学,我们需要一个关于广义信息的数学理论。
作者不是不知道下面事实:Shannon理论诞生不久,许多人把它用到日常信息交流场合,于是漏洞百出。为此Shannon 非常愤慨,并措辞严厉地予以指责;要求人们对它的理论的应用不要超出随机统计领域。这说明什么呢?说明Shannon 有自知之明。然而,有人却得出可笑结论:Shannon 反对信息论研究语义信息(泛指涉及意义的信息)。似乎为了保卫Shannon理论的纯洁性,国际权威信息论杂志IEEE TRAN. ON INFORMATION THEORY就拒绝发表研究语义信息的论文。
实际上,任何一种通信都不能完全排除信号的意义问题。Shannon理论中讨论的信息率失真问题就和信号的意义密切相关。没有意义,哪来失真?由于避免考虑意义,经典的信息率失真理论就注定了残缺不全。失真实际上就是主观信息损失,因为不考虑意义,它就只能来自人为定义,而不是由统计确定;强调统计却反而导致统计的忽视。控制系统中的预测质量本来就应该用预测提供的信息作为评价标准,因为排除意义,预测信息就无法度量。
其实,曾和Shannon合著《通信的数学理论》一书的W.Weaver在该书中的一篇论文中就提出通信的三个水平:[2]水平A——通信的技术问题,如Shannon理论研究的;水平B——考虑到语义问题;水平C——考虑到效用或价值问题。 他还指出:通讯的语义问题与工程技术方面无关,“这并不意味着通讯的工程技术方面必然地与语义无关。”后面我们将看到,只有考虑意义或语义,Shannon提出的保真度信息率问题才能得到根本解决。
如果说本书所研究的信息超出随机统计领域,那么它超出的也只是经典的随机统计领域。近年来,汪培庄教授等人建立的随机集落影理论把模糊集合论建立在随机集合统计的基础上[3],不仅把模糊性还原为随机性,而且也推广了经典的随机统计领域。本书正是基于这种更广意义的集合和统计理论。
捍卫一种理论的最好方法就是发展它,使旧的内核在新的体系中永生,而不是为了它的纯洁性而限制它的发展和应用。后面我们将看到,Shannon诸公式本身就有巨大潜力,只是形式上作一点点甚至是不易察觉的改动,它马上就威力倍增——不只可以度量语义信息,而且可以度量控制结果的合目的性。Shannon本人未必不愿看到这一点。
1.2 熵的历史回顾
物理学中,熵指的是热力学系统的某种状态函数,它是对系统紊乱程度的度量。熵的概念和热力学第二定律密不可分。
1850年,德国人Clausius(克劳修斯)提出了热力学第二定律:不可能把热量自低温物体传到高温物体而不引起其他变化[4]。
1851年,英国的Kelvin(开尔文)勋爵(即Thomsom )给出第二定律的另一种表示:不可能从单一热源吸取热量,使之变为有用功,而不产生其他影响。
1864年,克氏导出了不等式
(1.2.1)
其意是:熵S 的变分大于(过程不可逆时)或等于(过程可逆时)热量Q的变分除以温度T。系统封闭时,
(1.2.2)
表示封闭系统的熵只增不减;这也就是热力学第二定律的数学表示。
关于熵和热力学第二定律,还可以追溯到以研究热机效率闻名的法国人 Carnot(卡洛),他的可逆循环和不可逆循环概念就隐含了熵增大思想的萌芽。
熵一开始只有相对值而无绝对值,只有到了Boltzmann(玻尔兹曼),熵的绝对值才有了定义。1882年,玻氏从分子运动论导出了和连续信源的Shannon相对熵相近的熵函数
(1.2.3)
并证明它只减不增。和Shannon连续信源相对熵相比,两者差一符号,并且这里f是分布密度而不是概率密度。后来,玻氏又提出了一个更有意义的公式,即通过系统微观状态数W表示的熵的绝对值公式
(1.2.4)
其中k是玻氏常数(等于1.38066×10-23JK-1 ; J: 焦耳,K: 绝对温度)。这一熵公式也可以用于非热力学统计。值得一提的是,这里所说的绝对值也只是形式上的,因为微观状态数的划分总是相对的,和假设的分辨率有关。
Bose(玻色)和Einstein(爱因斯坦)、Fermi(费米)和Dirac(狄拉克)分别确定了适于不同微观粒子的量子统计[5],使玻氏开创的统计物理熵理论得到相当的完善。
熵增大定律是否不可抗拒,与Boltzmann同时代的Maxwell(麦克斯韦)——因其电磁场方程而闻名——提出了著名的Maxwell妖问题[6]。这一问题促进了人们对自然界有序根源的探索。
到了本世纪中叶,普里高津(Prigogine )等人研究了非平衡系统的熵产生问题,得出著名结论:非平衡导致有序[7]。
时至今日,熵的问题还没有完全解决,关于负熵、有序性、复杂性等概念还存在很不一致的见解。作者相信从信息论的角度研究熵可使问题更加清楚。
1.3 Shannon信息论的诞生
1948年,美国工程师Shannon在贝尔实验室杂志上发表了长文:《通信的数学理论》[1],虽然Winer(维纳)等人几乎同时提出了关于信息的熵公式; 但是作为电子通信理论基础的互信息公式则是Shannon独自提出的;因而说Shannon是经典信息论的创始人。
信息论的诞生有两个来源,一是来源于物理学的熵理论。Boltzmann在讨论熵问题时就说过:熵是对失去的信息的度量。信息论中的熵H(X)和玻氏熵SB存在某种等价关系(见6.1节);这说明了两者有血缘关系。
信息论的另一个来源是早期人们对电报通信的研究。在16世纪,Gilbert等人就研究了电报电码[8],这一研究的著名产物是Mouse电报电码。使用该电码可以用较少的电报符号传递较长的电文。而Shannon熵正反映了使用最佳电码时,符号可以缩短的极限。1928年,Hartley 提出用对数函数度量信息[9],即用
(1.3.1)
表示确定随机发生的N个元素中的一个时得到的信息量。若对数以2为底,信息单位是bit(比特); 若对数以自然数e为底,信息单位是nat(奈特)。 之所以用对数函数是因为这样得出的信息量反映了传递相同消息所需的符号长度(使用等长码时),比如要用十进制数字串表示N个电话用户,一个用户号码要用不少于个数字来表示。这样,信息量就有了客观意义。与Hartley同时代的Nyquist对信道的研究[10]也是Shannon 思想的来源之一。Winer 用失真量评价系统状态的估计的做法也对Shannon保真度信息率论的提出起了一定作用[11]。
40多年来,以Shannon理论为核心的经典信息理论在编码、检测等方面取得了不少进展;然而,它远不能满足许多领域的需要。
1.4 广义信息论溯源
意识到Shannon理论的局限性并试图推广它,在Shannon理论刚诞生不久就开始了。Weaver不仅提出了通信的三个水平,还提出了广义通信模型[2]; 虽然他没有提出具体的数学公式,但是他的基本思想为后人起了引路作用。
为了解决语义信息问题,R. Carnap(卡尔纳普) 等人提出用逻辑概率代替普通(或随机性)概率,然后用Shannon 熵度量语义信息[12]。然而这种方法有许多限制要求:可选择语句必须是互不相容的;语句的真假必须是严格分明的;语句的使用必须是正确无误的。由于这些限制,这种方法也就少有价值。不过,用逻辑概率代替普通概率的做法也部分地被作者所采用。
K. Popper(波普尔)似乎是与广义信息理论无关的人,但是他一再强调,科学理论的进步标准就是理论所能提供的信息的多少;用作预测的命题,其先验逻辑概率越小越好[13]。后面我们将看到,本书提出的通信模型和Popper的科学进化模型极为一致,Popper的基本思想在新的通信模型和信息测度公式中得到了充分体现。
50年代末,Kullback提出Kullback信息公式[14]
(1.4.1)
虽然它是Shannon互信息公式的特例(见2.4和2.5节),但是如果把P*(xi)看作是主观预测的可能性测度,则它度量的就是广义信息。不过是非常特殊情况下的广义信息(见4.4节)。
如果先验概率不同,有P1 (xi)和P2 (xi),则两种情况下的Kullback信息之差就是
(1.4.2)
这一公式由经济学家H. Theil六十年代提出[15]。1986年,J. Aczel和B. Forte在《广义熵和最大熵原理》一文中提出广义熵[16]
(1.4.3)
并证明=时,H达到最大,为Shannon熵(指去掉负号的Shannon熵)。这一广义熵的带负号形式也被本书采用,但是它只作为本书广义熵在逻辑概率归一化时的特例。其实笔者是由广义互信息公式推导出广义熵公式的,只是在本书定稿时才了解到Theil,Aczel和Forte的工作。
60年代初,Brillouin提出可用Hartley公式的改进形式[17]
(1.4.4)
(其中N和N*分别是先验和后验不确定元素的个数)度量非概率信息,比如测量数据的信息[18]。但是其应用范围相当有限,特别是不适于不确定范围模糊时的情况。
1965年,L. A. Zadeh提出模糊集合论[19],1968年,他又提出模糊事件,即模糊集合A中事件的概率
(1.4.5)
和模糊集合的熵[20]
(1.4.6)
其中是xi在模糊集A上的隶属度(本书记为Q(Aj|xi))。后面我们将说明它就是逻辑条件概率。式(1.4.5)是很有意义的,和P(A)也是广义互信息公式所必要的。然而,式(1.4.6)则是令人费解的。
我们应注意,熵是某种测度的平均值,熵公式中对数符号左边的函数,设为fi,应是归一化的,即
(1.4.7)
不归一化就不具有熵的意义。显然,式(1.4.6) 不符合这一要求。
1972年,De Luce和Termini提出模糊熵[21]
(1.4.8)
其中即。 当恒等于1/2时,Hf达最大,为1bit。模糊信息量为
(1.4.9)
这一理论有一定的应用价值。式(1.4.8)的合理性就在于它和Shannon条件熵的相似性(不赘述)。这一理论的问题是:式(1.4.9)的本意是要使集合极为模糊时,信息量为0;而实际上,只要不随i变化,而不一定为1/2,集合就极为模糊,信息就应该为0。用本书提出的广义互信息公式就可达到这一目的。后面我们将看到,Hf只是广义互信息公式中的模糊熵或广义条件熵的特例。另外,式(1.4.8) 只适于仅有两个互补模糊集或语句存在的情况。有人不顾归一化限制而把它推广到多个模糊集存在的情况; 还有人不是用模糊熵熵差,而是模糊熵本身或加上概率熵表示模糊信息量[22],这就更成问题。
70年代, H. Gottinger提出非概率信息[23],S.Guiasu提出了加权熵和效用信息[24],都产生了一定影响。 G. Jumarie还提出采用洛伦兹变换的相对信息,其中不变量是意义熵和符号熵之差[25];如果信息真的和相对论有某种关系,这是很令人兴奋的。可惜相对信息的定义并不自然,至少目前也不实用。
近年来,R. Yager,M. Higashi和G. Klir,D. Dubois和H. Prade等人又提出或讨论了可能不确定性(Possibilistic uncertainty)测度及相应的广义熵[26,27,28],这类方法只采用隶属度等主观测度而不使用事件发生的概率。看来它们可以用来度量某种情况下概念外延的不确定性。不过要度量广义信息,不利用概率,本身就信息不足。
在国内,吴伟陵教授和钟义信教授对广义熵和模糊信息有过有益的探讨[29,30],特别是钟义信教授对研究广义信息的倡导在国内较有影响。钟义信提出用后验真实度和先验真实度之比定义信息量(补注:用真实度替换概率的做法始于卡尔纳普),本书也推导出有类似含义的公式: 语义信息量等于命题逻辑概率和谓词逻辑概率之比的对数。
Shannon熵有一定的客观性,它反映了平均码长极限。 如果有人提出一种与之不同的熵测度,我们不禁要问:你的熵测度究竟反应了什么?
一个理想的广义信息理论似应做到: (1)它是Shannon信息论的自然推广,而不含有过多的人为定义;(2)其中信息测度在某种条件下应还原为Shannon信息测度,并有其编码意义;(3)提供特有的优化通信方法,而不是仅仅提出一些测度公式。显然,已有的关于广义信息的理论与此标准相差甚远。
1.5 信息和熵的范畴及本书讨论范围
象前面提到的那样,信息一词有时指狭义信息,即Shannon理论中所讨论的信息;有时指广义信息,即日常语言所说的信息。本书用它指后者。后面我们将说明狭义信息是客观信息,和信号发生的概率及条件概率有关;而广义信息是同
时依赖于主观理解或接收器解译信号方式的信息(后面简单称之为主观信息),同时和人或机器对信号意义的理解有关;前者是后者的特例。
象信息一样,熵也有狭义和广义之分。有人把热力学熵称为狭义熵,把玻氏熵或统计物理熵称之为广义熵,因为它可以用于非热力学统计。也有人把Shannon熵称之为广义熵,并认为统计物理熵是Shannon熵的特例(不过后面我们将看到,Shannon理论中诸熵皆可以用玻氏微观状态数表示,两者之间存在某种等价关系)。
本书把热力学熵和统计物理熵统称为物理学熵。因为按照某种定义,统计物理熵和热力学熵等值,所以本书有时也称统计物理熵为热力学熵。为了区别物理学熵,我们称信息论中的熵为信息熵。本书广义熵一词将指广义信息熵;因为广义熵公式可以取代所有其他熵公式,所以本书最后将用熵或广义熵泛指所有各种熵。
本书的讨论范围基本上由目录看出,所需特别说明的是:
1. 就象Shannon信息论只涉及电子通信理论的核心而不是全部一样,广义信息论只涉及广义通信理论的核心而不是全部;比如不涉及具体的信号传递和处理。本书谈及编码也仅仅是为了说明信息熵、广义熵和保质(或保价值)信息率等的客观意义。至于具体的编码方法,我们可以请教经典信息理论。
2. 广义信息论不只是关于信息的数学理论,同时也是关于信息的哲学理论;信息论、控制论、物理学、生物学和美学以及哲学相结合的讨论是为了加深我们对它们之间关系与它们本身的理解。
3. 附录论文有的是在正式刊物上发表过的,有的只在内部刊物上发表过或将要在刊物上发表。它们分别涉及较专门的领域,是本书内容的补充,供研究者参考。
1.6 信息的哲学本质——被反映的特殊性
我们先谈谈词的定义。
哲学争论中常常有这样的情况,你说张三是工人,他说张三是农民;原来你说的是河东的张三,他说的是河西的张三。要弄清美、颜色、信息、物质...的本质,我们首先得有个大致共同的词的字面定义,在此基础上再产生本质定义。后者
可以因各人见解不同而不同,但前者必须相同。大致相同的字面定义从何而来?笔者认为,应象维特根斯坦(L. Wittgenstein)肯定的那样,来自日常用法。 如果你要表达与日常用法完全不同的意思,你最好另选或另造一个词。
比如,要弄清美的本质,首先要有“美”的字面定义,按照常识,“美”的字面定义就是好看好听。 有人告诉老百姓说美不是好看好听,美感不是视听快感。这只能制造概念混乱。“信息”一词的定义是类似的。
“信息”一词的字面定义如某些字典所述:“信息是在观察或研究过程中获得的数据、新闻和知识”,或“信息是我们原先不知道的知识”。
关于信息的本质定义,它应做到:
1. 和信息一词的字面定义或日常用法相符;
2. 简洁且深刻;
3. 含有量的概念,因为信息应能度量。
我们见过这样一些信息的本质定义:
1. 信息是被消除的不确定性(Shannon);
2. 信息是事物的变异度(Ashby)[31];
3. 信息是系统结构的有序性;
4. 信息是被反映的事物属性(刘长林)[32]。
这些定义各有所长,但皆不理想。其中定义(1)、(2)、(3)要么外延过窄,要么或与日常语言不尽吻合;定义(4)外延较宽,但是没有量的概念。
作者曾给予的本质定义是:信息是被反映的特殊性[33]。据此,特殊性是潜在的信息,被反映的特殊性是给予的信息。事物越特殊,则所能提供的关于它的信息就越多。
根据常识,我们会说:
火警比下课铃提供的信息多;
万绿丛中一点红比一点绿提供的信息多;
孔雀的羽毛比鸡的羽毛提供的信息多;
飞碟(如果存在并被了解)比任何一架哪怕是新造的飞机提供的信息多;
毛孩比普通小孩提供的信息多;
天气预报“要下暴雨”比“可能下雨”提供的信息多(如果预报不错的话);
小说“红楼梦”比许多现代小说之一提供的信息多。
显然,前者提供更多信息无非是因为它反映或它本身就是较特殊事件。从上面例子我们可以看出,事物特殊可能是因为它发生偶然,也可能是因为它与我们已知的其他事物不相似,也可能因为两者。其实任何一个小孩、一架飞机都是一个独一无二的小概率事件;但是,如果它(或他)越是与其他事物或其同类不相似,则它就越特殊,从而潜在的信息就越多。可以粗略地说:
不相似性+偶然性=特殊性
可幸的是,借助于模糊集合和模糊分辨率的概念,特殊性、相似性、偶然性及三者之间的关系已能具体地由数学公式说明,信息量公式可以写作(见式(4.3.6))
信息量=先验特殊性-后验特殊性
本书最后一章关于信息和哲学基本问题的讨论,对信息的本质将有进一步说明。
[1]Shannon C E. A mathematical theory of communication,Bell System Technical Journal,27 (1948),379—429,623—656
[2]〔美〕威弗尔. 通讯的数学理论的新发展,系统论控制论信息论经典文献选编,求实出版社,1989,612—636
[3] 汪培庄. 模糊集和随机集落影,北京师范大学出版社,1984.
[4] 阎康年. 热力学史,山东科技出版社,1989
[5] 高洪伯. 统计热力学,北京师范大学出版社,1986
[6] Maxwell J C. The theory of Heat,London:Longman Greens & Co,1988,153
[7]〔比〕尼科里斯,普利高津; 罗久里等译. 探索复杂性,四川教育出版社,1986
[8]〔英〕罗斯,钟义信等译.信息与通信理论,人民邮电出版社,1978
[9] Hartley R V L. Transmission of information, Bell System Technical Journal,7 (1928),535
[10] Nyquist H. Certain factors affecting telegraph speed,Bell system Technical Journal,3 (1924),324
[11] Winer N. The Interpolation,Extropolation,and Smoothing of Stationary Time Series,Wiley,New York,1949
[12] Bar-Hillel Y. and Carnap,R. An outline of a theory of semantic information,Tech. Rep. No. 247,Research Lab. of Electronics,MIT,1952
[13]〔英〕波普尔,付季重等译. 猜想和反驳——科学知识的增长,上海译文出版社,1986
[14]Kullback S. Information and Statistics,John Wiley & Sons Inc.,New York,1959
[15]Theil H. Economics and Information Theory,North-Holland,Amsterdam,1967
[16] Aczel J and Forte B. Generalized entropies and the maximum entropy principle,In: Bayesian Entropy and Bayesian Methods in Applied Stastics,Cambridge University Press,Cambridge,1986,95—100
[17] Brillouin L. Science and Information Theory,Academic Press,New York,1962
[18] 张松年编译. 信息论在分析化学中的应用,科学出版社,1990
[19] Zadeh L A. Fuzzy sets, Infor. Contr. 8 (1965),338—353
[20] Zadeh L A. Probability measures of fuzzy events,Journal of mathematical Analyses and Applications 23 (1968),421—427
[21] De Luca A and Termini S. A definition of nonprobabilistic entropy in the setting of fuzzy sets, Infor. Contr. 20 (1972),201—312
[22] Xie W X and Bedrosian S D. Experimentally derived fuzzy membership function for gray level images,J. of Franklin Institute 325 (1988),155—164
[23] Gottinger H W. Lecture notes on concepts and Measures of information,In 'Information Theory: New trends and Open Problems', G. Longo eds.,Springer Verlag,CISM(1975)
[24] Guiasu S. Information Theory with Applications, McGraw-Hill,International Book Company,New York,1977
[25]Jumarie J. Subjectivity: human comunication,in: Singh,M.G. ed.,System and Control Encyclopedia,Pergm on Press, 1987,4696—4698
[26] Yager R R. Measures of properties on fuzzy sets and possibility distribution,In:E. P. Klement(ed.), Proc. 3rd Inter. Seminar on Fuzzy Set Theory,Johannes Univ.,Linz,1981,211—222
[27] Higashi M and Klir G. Measures of uncertainty and information based on possibility distributions, Internat. J. Generral Systems 9 (1982),43—58
[28] Dubois D and Prade H. Properties of measures of information is evidence and possibility theories,Fuzzy sets and syste 14 (1987),161—182
[29] 吴伟陵. 广义信息源与广义熵,北京邮电学院学报 29 (1982),41
[23] 钟义信. 信息科学原理,福建人民出版社,1988
[31]〔英〕艾什比. 控制论导论,科学出版社,1965,124
[32] 刘长林. 论信息是被反映的事物属性,中国社会科学,No.2(1985)