从Hartley信息公式到广义信息公式

从Hartley信息公式推导出广义信息公式

－－借助罩鱼模型

鲁晨光（独立研究者）

230063 安徽省合肥市省出版局鲁茂松转

摘要：为了把经典信息论应用范围推广到日常信息交流（包括语言通信和感觉通信），并在Shannon信息论和Popper知识进化论之间搭起桥梁，本文通过罩鱼模型，直观地说明，如何从简单的Hartley信息量公式，一步一步推广，得到广义信息量公式。

关键词：信息量，测量信息，感觉信息，语义信息，知识进化论

Deducing General Information Formula from Hartley’s Information Formula

—With the Help of Fish-covering Model

Lu Chenguang (independent researcher)

Survival99@hotmail.com

Abstract: To extend the application of classical information theory to daily information exchange including linguistic communication and sensory communication, and to bridge between Shannon’s information theory and Popper’s knowledge evolution theory, this paper intuitively explains, with the fish-covering model, how to extend Hartley’s formula of information amount to the formula of generalized information amount step by step.

Keywords: information amount, measuring information, sensory information, semantic information, knowledge evolution theory.

1．序言

笔者在《广义信息论》【1】中提出的广义信息公式是Hartley和Shannon的经典信息公式的自然推广，它可以用来度量广义信息，比如测量信息、感觉信息、语义信息，并且是连接Shannon信息论和Popper科学进化论的桥梁。为了使大家更好地理解广义信息公式，本文借助罩鱼模型，从Hartay信息公式一步一步推导出广义信息公式。

2 Hartley信息公式和图解通信的罩鱼模型

Hartley信息公式【2】是

I=logN

（1）

其中I表示确定N个等概率事件中的一个出现时提供的信息。如果事件y把不确定范围从N₁个缩小为N₂个，那么信息就等于

I=I₁-I₂=logN₁-logN₂=log(N₁/N₂)

（2）

我们且称这个公式是Hartely信息差公式。在说明这个公式性质之前，我讲一个用鱼罩子捕鱼的故事。

鱼罩子是用篾做的，像过去家家户户用的烤火罩，形如半球壳，上面有个圆口，便于抓鱼。它适合浅水捕鱼。我小时候看人家用鱼罩子捕鱼，我也拿个通了底的篮子学着捕。也真捕到了。后来我总结经验：鱼罩子大，容易罩住鱼，但是罩住以后抓鱼困难些。如果鱼罩子和池塘一样大，那就百发百中，但是没有意义，因为要抓到鱼，还是一样很难。我用篮子或小鱼罩子罩鱼，虽然罩中困难，但是罩到了，抓就很容易。

图1 度量信息的罩鱼模型

一个不确定事件就像是池塘里随机出现的一条鱼，设事件y=罩住鱼了，y就提供关于鱼的位置信息。信息是多少呢？如N₁是池塘的面积，N₂是鱼罩子底面积，那么信息就是I=log( N₁/ N₂)。N₂相对N₁越小，信息量越大，这正反映了篮子的优点。当N₂= N₁时，信息是0，这正反映：鱼罩子和池塘一样大，罩中也没有意义。至于鱼罩子和篮子相比的优点（不容易出错），上面公式不能反映，因为使用Hartlry公式有这样的前提：客观事件必然是N₂个事件中的一个。相当于假设：鱼罩子或篮子不会罩不中鱼。后面推导出的广义信息公式将包容“罩不中”问题。

我们称上面罩鱼假设为度量信息的罩鱼模型。相应的信息公式是Hartley信息差公式。

3 模型改进――把物理空间或事件空间变为可能性空间

用Hartley公式计算信息，N个事件是等概率的，但是通常的情况并不如此。比如，鱼在水深的地方可能性大些，在水浅的地方可能性小些。这时候如何处理？这时候我们用可能性空间大小代替池塘面积就行了。

我们用1表示可能性空间大小，那么池塘面积N₁就变成1，鱼罩子底面积N₂就变成P= N₂/ N₁。公式就变成【2】

I=log(1/P)

（3）

4．相对信息公式

我们再假设：池塘可化成若干块，鱼在某一块的概率是P₁, 正确判定鱼在某一块（判断y₀）的信息是I ₁=log(1/ P₁)。用鱼罩子罩住鱼，或者确定鱼的位置(判断y)提供的信息就是I₂=log(1/ P₂)。我们把已知y₀时y提供的信息称为相对信息，那么相对信息量是：

I=I₂- I₁=log(P₁/ P₂)

（4）

我们设鱼所在位置为随机变量X, 它取值于集合A中元素， A={x₁, x₂, …}; 随机事件Y提供关于X的信息， Y取值于B中元素，B={y₁, y₂,…}。那么相对信息公式就是

（5）

其中I(x_i; y_j)表示y_j 提供关于x_i 的信息， P(x_i )是鱼在位置x_i 的概率，P(x_i | y_j )是给定y_j 的条件概率。值得特别注意的是，这个公式要求y₀和y₁ 都是对的，如果有一个不对，公式就不能成立。 Shannon从来不谈单个事件的信息，只谈事件的平均信息，就是因为单个事件信息涉及到判定准确与否问题。而Shannon避免谈论语义问题。

我们用求数学期望的办法可以求出y_j 提供的关于X的平均信息I(X; y_j )，以及Y提供的关于X的信息I(X;Y)――这就是Shannon互信息【3】。

5．用相对信息公式度量测量信息

现在我们以温度测量为例，说明如何用相对信息公式度量测量信息。

如果假设实际温度集合A={x₁, x₂, …}，温度读数集合B={y₁, y₂,…}, X和Y是表示温度和温度读数的随机变量，并且读数是Y= y_j 时，最大可能的温度是x_j 。假设“鱼罩子”清晰，即当读数是y_j 时，实际的温度一定在某个确定范围A_j内，比如A_j =[x_j-0.2, x_j+0.2], 当x_i发生时，y_j提供的信息就是：

(6)

其中P(x_i| A_j)是已知x_i在 A_j中x_i发生的概率。这里我们不再要求y_j一定正确，如果操作不当，读数不准，计算出的信息就是负的（集合清晰时是负无穷大）。

设集合A_j的特征函数是Q(A_j|x_i)(呈矩形)，根据Bayes公式，有

P(x_i |A_j)=Q(A_j | x_i )P(x_i )/Q(A_j )

(7)

其中Q(A_j)是Q(A_j | x_i )的平均值。即

(8)

由（7）和（8），我们得到

(9)

我们称该信息公式是以集合为条件的信息公式(简称：集合信息公式)，它度量的是：预测或命题“X在集合A_j”中在X=x_i时提供的信息。该信息量随x_i的变化如图2所示。

图2 混淆范围A_j清晰时测量或数值预测信息图解

5．混淆范围模糊时的测量信息和降水量预测信息

温度测量读数提供的信息和降水量数值预测（比如：“降水量大约是10毫米”）的信息在本质上是一样的。温度测量或数值预测时，我们希望：误差越大，信息越小，甚至是负的。事实最符合预测时信息量最大, 假设为m。这个公式：

I=m-k|X-10|

(10)

就比较符合常识(参看图3)。

图3 一个假想的符合常识的信息量公式图解

但是公式（10）不能计算这样的预测――“降水量不小于10毫米”――的信息。

下面我们就推导出一个不但具有式（10）优点，也能弥补其缺点的信息公式。

上面我们假定，读数是y_j时，X＝x_i必然在A_j中，并且A_j是清晰集合。特征函数Q(A_j|x_i)可理解为x_i和x_j相混淆的概率。对于清晰集合A_j，如果x_i在A_j中，混淆概率是1，否则是0。而实际情况是，A_j可能是模糊的，混淆概率可能在0和1之间变化。

假设我们做许多次试验，当读数Y= y_j时，改变x_i, 只有当x_i和x_j差异大到一定程度，读数y_j才会变化。不引起读数变化的所有x_i构成的集合是一个清晰集合，许多次(设为n->无穷大)试验得到许多这样的集合s_j₁, s_j₂,…s_jn，然后我们定义

(11)

是x_i和x_j 相混淆的混淆概率，它也就是x_i在模糊集合A_j 上的隶属度【4】。其中Q(s_jk|x_i)是集合s_jk的特征函数，也就是第k次试验得到x_i和x_j的混淆概率(等于0或1)。

混淆概率函数曲线Q(A_j|x_i)形状类似于正态分布函数。

要计算混淆范围模糊时的温度测量信息，我们只需要用混淆概率函数取代前面的集合特征函数，公式形式如同（9），是：

(12)

这就是广义信息（量）公式。不同的是，这里Q(A_j|x_i)是山形函数而不是矩形函数。

公式(12)的几何性质如图4所示。它表示，当读数是y_j时，实际发生的x_i 与x_j差别越大，信息量越小。差别大到一定程度，信息量就是负的；Q(A_j)越小，信息的绝对值越大。

6．感觉信息度量

我们且考虑人眼相应有不同灰度等级的象素的视觉信息。假设灰度是X＝x_i, 相应的感觉是Y=y_j , 所有和x_j相混淆的x_i构成模糊集合A_j, Q(A_j|x_i)是人眼把x_i和x_j相混淆的概率。于是，视觉信息和温度测量信息在本质上完全相同，用公式（12）就可以度量一种灰度视觉y_j提供的关于x_i信息。笔者根据感官分辨力优化图像通信得到许多重要结果，比如：图像象素数量（客观分辨率）和人眼分辨率之间存在匹配关系；在人眼分辨率有限的情况下，象素数量大到一定程度后，人眼实际接收到的信息不再增加。详细讨论参看文献【5】。

7．语义信息度量

如果把Q(A_j|x_i)（在0和1之间变化）理解为命题y_j的可信度函数或逻辑概率，公式（12）就可以用于度量语义信息或预言信息（参看图4）。这时，我们可以假设相应每个命题y_j存在一个柏拉图式的理念x_j（可能不在A_j中），命题y_j(x_j)的可信度是1。这样，我们可以把Q(A_j|x_i)理解为x_i和理念x_j相混淆的混淆概率。于是语义信息和测量信息在本质上相同。

图4 广义信息（测量信息或预言信息）公式图解

不难证明，该公式对于“明天有小到中雨”这样的非数值预测的信息度量也是合理的[1]。

上面的Q(A_j)也可以说是谓词y_j(X)的逻辑概率, 或命题y_j的先验逻辑概率或平均逻辑概率。于是，语义信息量公式可以写成

（13）

这个公式在预测不准时算出的信息量也是合理的。负信息表示错误的测量结果或糟糕的预测或谎言会减少我们已有的信息。

8 广义信息公式Popper科学进化论的一致性

关于科学理论的进步标准，Popper写道：“凡是包含更大量的经验信息或内容的理论，也即在逻辑上更有力的理论，凡是具有更大的解释力和预测力的理论，从而可以通过把所预测的事实同观察加以比较而经得起更严格检验的理论，就更为可取。总之，我们宁取一种有趣、大胆、信息丰富的理论，而不取一种平庸的理论。”【6】 Popper还特别提到，命题在逻辑上越容易被证伪（逻辑概率越小），而事实上经得起检验，命题的价值就越大。在逻辑上不能被证伪的永真命题不含有信息，没有科学意义。不难证明，广义信息公式和Popper的科学进化论完全一致。

参考文献

[1]鲁晨光，广义信息论，中国科学技术大学出版社，1993

[2] Hartley R V L. Transmission of information, Bell System Technical Journal，7 (1928)，535

[3]Shannon C E. A mathematical theory of communication，Bell System Technical Journal,27 (1948)，379—429，623—656

[4]汪培庄. 模糊集和随机集落影，北京师范大学出版社，1984.

[5] Lu Chenguang (鲁晨光) “A generalization of Shannon's information theory" , Int. J. of General Systems, 28: (6) 1999，453-490

[6]〔英〕波普尔，付季重等译, 猜想和反驳——科学知识的增长，上海译文出版社，1986