广义信息论概要

1.研究背景

几乎每个领域都有把已有的正统理论奉为圣经,从而拒斥一切“异端邪说”的卫道士。下面我们向经典理论提几个问题,广义信息论的基本思想也由此体现出来:

  1. 人(或动物)能否接收信息?人收到信息和更具体更正确地了解事实是不是一回事?
  2. 通常人并不知道确切的事实发生的概率和条件概率,而只能根据经验、知识、语言、感觉或测量信号作主观预测,这时信息量如何求法?
  3. 常识告诉我们,主观预测与事实相符且精确,所得信息就多,反之,信息就少,信息论如何与常识保持一致?
  4. 实际的通信系统通常是开放的,人对于事实(即信源和信道)的认识总是处于进化之中,这时信息量如何求法?

人们常说,我们的时代正走向信息化时代;然而信息论落后于时代在今日是再严重不过了。虽然Shannon理论声名卓著,然而它所涉及的信息仅仅是日常语言所说的信息的一小部分,即被减小的随机不确定性。而对于语义信息、感觉信息、偶然事件及测量数据提供的信息,Shannon理论无能为力;甚至在经典通信范围内,信源或信道可变时,信息也不可度量。

实际上,任何一种通信都不能完全排除信号的意义问题。经典信息理论中讨论的信息率失真问题就和信号的意义密切相关。没有意义,哪来失真?由于避免考虑意义,经典的信息率失真理论就注定了残缺不全。失真实际上就是主观信息损失,因为不考虑意义,它就只能来自人为定义,而不是由统计确定;强调统计却反而导致统计的忽视。控制系统中的预测质量本来就应该用预测提供的信息作为评价标准,因为排除意义,预测信息就无法度量。

其实,曾和Shannon合著《通信的数学理论》[28]一书的W. Weaver在该书中的一篇论文中就提出通信的三个水平:水平A——通信的技术问题,如Shannon理论研究的;水平B——考虑到语义问题;水平C——考虑到效用或价值问题。

Weaver之后,许多学者对广义信息作了不懈的努力,建立了各种各样的广义信息测度公式[4],但是那些公式皆很难被理解和应用——如用于天气预报或股市预测。

笔者为了解释自己建立的色觉机制数学模型——色觉的译码模型——的合理性,从1988年开始研究感觉信息,后来又研究语义信息,继而建立了自己的广义信息理论。新的广义信息测度既和常识吻合,也是Shannon信息测度的自然推广。笔者以为自己找到了人们要找的东西。

鲁氏广义信息论概要

1.集合Bayes公式和三种概率的区别和联系

设信源信号集合(或字母表)A={x1x2...xm},信宿信号集合B={y1y2...yn},XY分别是取值于AB中元素的随机变量。已知P(xi)P(yj|xi)可以求出反条件概率

P(xi| yj)P(xi)P( yj|xi)/P( yj) (9.6.1)

这就是Bayes公式,其中

(9.6.2)

设有A中子集AjAj的特征函数为Q(Aj|X)∈{01},记XAj 的概率是Q(Aj),则

(9.6.3)

我们记Q(xi|Aj)P(Xxi|XAj),于是有

(9.6.4)

上式中,我们也可以用Q(xi)代替P(xi)(用主观概率预测代替客观统计)

上式是以集合为条件的Bayes公式,我们简称它为集合Bayes公式,Q(xi|Aj)Ajxi发生的概率。汪培庄教授提出的随机集落影理论把模糊集看作是清晰的随机集合的统计结果[29],通过随机集合落影理论,式(9.6.4)可被推广到集合模糊时的情况,推广后的集合特征函数Q(Aj|xi)又叫xiAj中的隶属度。设谓词yj=XAj中”,则AjA中使命题yj(xi)为真的所有xi构成的子集,Q(Aj)是谓词yj的逻辑概率,Q(Aj|xi)是命题yj(xi)的逻辑概率,Q(xi|Aj)是给定预言yj时预测xi发生的概率,即

Q(Aj)=Q(yj为真)

Q(Aj|xi)=Q(yj为真|xi)= Q(yj(xi)为真)

Q(xi|Aj)=Q(xi|yj为真)

鲁氏广义信息论中用到三种概率:

  1. 客观概率——通常概率论所讨论的或Shannon信息论所涉及的概率是客观概率,或者说是基于频率解释的概率;
  2. 主观概率——不是基于统计而是基于主观预测的概率,即Bayes学派理解的概率;
  3. 逻辑概率——命题或预言被不同的人或在不同情况下判定为真的概率,即Carnap等人所讨论的概率。

我们以下雨为例说明三种概率的区别。

1) 由历年气象数据统计得到的某地某月某日无雨的概率为客观概率——即数理统计所使用的概率,后面有时也简称为概率,如P(xi)P(yj|xi)等即是;

2) 预报员根据气象观察数据和理论(或听众根据预报语言)预测未来某天无雨的概率是主观概率,它有时也被称为可能性测度,后面的Q(xi)Q(xi|Aj)等即是;

3) 给定天气或日降水量时,某一语句比如“这天有大雨”被听众判断为真的概率是逻辑概率,有时也被称之为置信度,后面的Q(Aj|xi)Q(Aj)等即是。

前面两种概率通常被视为概率的两种互不相容解释,自概率论诞生以来就有;而在广义信息论中,这两者是互补的。

值得注意的是,语句yj同时具有客观概率即语句被选择的概率P(yj)和逻辑概率Q(Aj),两者一般不等;前者是纯客观测度,后者和主观理解的语义有关。比如某气象台一年到头总是报“无雨”,则选择概率P(“无雨”)=1,而逻辑概率Q(“无雨”为真)则和“无雨”的语义有关,而和语句被选择与否无关;经验告诉我们,它约为0.8

P(yj|xi)Q(Aj|xi)Q(xi|Aj)P(xi|yj) 的区别同理。

2.广义通信模型和广义信息测度

广义通信模型充分体现了这样的思想:信息来自预测,信息的多少需要事实检验;越是把主观原以为偶然的事件预测为必然并且预测正确,信息就越多,否则信息就越少甚至为负值。根据这种思想,最一般的信息是预言信息,其它信息都是预言信息的特例。这一通信模型和波普尔(K. R. Popper)的科学进化模式极为一致;同时也贯彻和深化了马克思主义的实践检验真理思想;Weaver的一些思想也由此得到贯彻。

关于知识或科学理论的进化模式,Popper认为,科学理论起于问题,为了解决问题人们提出假设,理论即假设;假设受到事实检验;如果根据假设所作的预测与事实相符,就说它通过了检验并在某种程度上得到确证;如果与事实不符,它就被证伪了;于是人们又寻求新的更加经得起检验的假说或理论;如此往复,以至科学进化。这种进化和生物进化是类似的。

下面我们介绍和Popper科学理论进化模式相一致的广义通信模型。

假设我们根据已知条件Z和知识K推出客观事件X 发生的概率或可能性分布Qk(X|Z),我们称Qk(X|Z)为主观预测;这一预测通过语句Y间接表达出来。语言可能是自然的,也可能是人工的。再设事件集合A={x1x2...xm},语句集合B={y1y2...yn},观察数据集合C={z1z2...zl};XYZ分别是取值于ABC中元素的随机变量。要度量的是ZY提供关于X的信息。下面我们用P(X)表示X的概率分布,用P(xi)表示xiXxi的概率;其它同理。通信模型如图9.2所示。

我们以降水量预报为例说明该模型:Z表示气象数据,K为气象知识或理论;QK(X|Z)为气象台预测的各种降水量可能性分布(即概率预报)Y是语句,比如“有小雨”,“有大雨”;Q(X|Y为真)是听众根据语义推出的降水量可能性分布。Q(X)是听众事先根据经验估计的降水量的可能性分布。

.2 广义通信模型

检验知识K和预言Y的方法是看Q(X|Y为真)Q(X)哪一个更与P(X|Y)相符,若前者更加相符,则预言有正的价值,若后者更加相符,预言价值为负。气象台为了提供更多的信息,于是就一再改进理论或推理方法,试图作出更正确且更精确的预报。如此反复,使预报和事实趋于一致。不光天气预报如此,疾病诊断如此,经济预测如此,各门科学知识的获得和进化也都如此。

由模型可见,最一般的信息是预言信息。下面是模型的几个特例。

  1. 对于所有k,如果总有
    QK(X|zk) P(X|zk)
    这表明预测和事实相符合,这时预言信息就变为描述事实的语义信息。
  2. 如果没有语言表达环节,信息由Z而不是由Y提供,或YZ是——对应的,则预言信息就变为概率预测信息。
  3. 如果既有1)又有2),并且Q(X)P(X),则这时预言信息就变为Shannon信息。可以说Shannon信息是客观信息,广义信息是主观信息,前者是后者在认识完全正确时的特例。
  4. 当所有QK(xi|zk)∈{01},或Q(xi|Aj)∈{01}时,表示预测的是确定事件。不过确定事件只是不确定事件的理想极限;即使物理定律,由于测量的分辨率有限及噪声干扰,用以检验的数据和理论预测的物理量都是更小范围内的不确定事件;所以,对于看似确定的物理事件,模型同样适用。

广义信息测度有两种形式,一个是概率预测信息,另一个是预言信息。后者可以通过集合Bayes公式转化为前者。首先我们看概率预测信息。

在上面的通信模型中,Z=zk提供的关于xi信息是(后面省去K)

(9.6.5)

zk提供的关于X的平均信息是:

(9.6.6)

可以证明,即主观预测和事实吻合时,平均信息量达最大,这一最大值就是为Kullback信息。可以说上式是广义Kullback信息公式。广义Kullback信息可以通过图9.3中三条函数曲线的相似程度得到直观理解。

.3 概率预测平均信息图解

通过式(9.6.6)可以证明:事实P(X|zk)一定时,若预测Q(X|zk)较之先验估计Q(X)更近于事实,则信息量为正值,反之为负值;Q(X)一定时,预测Q(X|zk)越近于事实,信息量越大。

I(Xzk)求平均就得到概率预测互信息公式

(9.6.7)

语义信息是类似的。对于语言通信来说我们一般并不知道P(xi)P(xi| yj),所能做的是根据经验和语义知道Q(xi)Q(xi| yj为真)。因而我们要用语句的逻辑概率代替它的普通概率或选择概率。推广式(9.6.5)得到:当且仅当事实xi发生时,

(9.6.8)

上式表明:

预言或命题的信息量

=log(命题的逻辑概率/谓词的逻辑概率)

该公式将能保证:

  1. 语句的先验逻辑概率Q(Aj)越小且后验逻辑概率Q(Aj|xi)越大,信息量越大,反之,信息量越小,甚至为负;
  2. 语句越模糊,即Q(Aj|xi)Q(Aj)越相近,信息量的绝对值越小。

下面从一个例子看上述公式如何和常识相符。股评家预测下个周末股市指数xi的涨跌。当前指数是1000点,下周末实际指数是848点。所有可能的指数集合是A,比如A=[5001500]A中有子集{大约900点},{可能在8001000点之间}等。表9.2中是一些数据和计算结果。其中Q(Aj)Q(Aj|xi)来自常识。

.2 股市指数预测的信息评价(指数实际上是848)

模糊集合Aj

yj(xi)

Q(Aj)

Q(Aj|xi)

评价

信息

(850点左右)

指数将在850点左右”

0.15

1

精确

2.74

(700—1000点}

指数将在800—950点”

0.3

1

较精确

1.73

(小于1000)

指数是跌的”

0.5

1

较模糊

1

(500—1500)

指数可能涨也可能跌”

1

1

极模糊

0

(大概大于1000点}

指数可能是涨的”

06

06

错了

- 3.32

显然,以上结果合乎常理。当预言不变,为yj=“指数X大约会是xj”时,预言信息随实际指数xi的变化如图9.4所示。

前面我们假定听者相信语句正确,如果不相信或不完全相信,则我们要用更加模糊的集合代替原来的集合。

.4 股市预言“指数大约是xj ”的信息

I(xiyj)求平均就得到度量语义信息的广义Kullback公式

(9.6.9)

对上式再求平均就得到度量语义信息的广义互信息公式

(9.6.10)

其中

(9.6.11)

(9.6.12)

分别是事实X的先验概率预测熵和后验概率预测熵,分别意味着当我们总是根据Q(X)Q(X|Y)按照经典信息论提供的最优方式编码时,对X编码的平均码长,广义互信息I(XY)就正好是因预测而节省的平均码长;它可能是负的,这正说明预测不好会减少我们原有的信息。其中

(9.6.13)

(9.6.14)

分别是语句Y的先验和后验语义熵或模糊熵。它们具有限失真编码时平均码长意义[ 5]

如果把信息量作为科学理论的进步标准,则我们可以得到如下结论:

  1. Q(X|Y为真)P(X|Y)越是相近,则H(X|Y)越小,平均信息量I(XY)越大;这也就是说,理论解释或预测和事实越符合,则理论相对来说越进步。
  2. H(X|Y)一定时,Q(X)P(X)越是不同,I(XY)就越大,这也就是说越是能把原以为偶然的东西预测为必然,知识或理论就越进步。
  3. Q(Aj)越小而Q(Aj|xi)越大(对于所有j),则I(XY)越大;这也就是说,命题或预言的先验逻辑概率越小,后验逻辑概率越大,相应的理论就越有价值;若两者总是相等,理论就是非科学的。

我们可以把一种感觉 (比如颜色感觉)或一个测量信号(比如秤的读数)yj 看作是一个模糊预测:“X大约是xj,用Q(Aj|xi)表示xixj 的相似性或混淆概率,则上面的语义信息公式也可以用来度量感觉和测量信号的信息[4]

3.广义信息测度用于预测、检测和模式识别
的评价和优化

从广义信息论的角度看,许多信息传递或处理都有相似的过程(参看表9.3)

对于表中信息传递或处理都存在一个评价问题评价预测、检测和模式识别……的好坏,最简单的标准是正确率标准。但是正确率标准往往并不合理。比如,100个人中有两个人有爱滋病,甲大夫诊断全没病(爱滋病),他的正确率是98%;乙大夫判断90个真没病的人没病,而称其它10人可能有病;他的正确率不超过92%。根据常识,乙大夫比甲大夫优,虽然他的判断的正确率低些。股市预测类似,假设有两个股评家,一个平常是对的,但关键时候——比如股市发生重大转折时——是错的;另一个相反。两相比较,可能后者提供的信息更多,对股民也更有用。有人看今天涨就预测明天涨,正确率肯定不低于60%,但是不提供任何信息;总是提供模糊的预测也能提高正确率,但也未必增加信息。由于Shannon理论的局限性,用Shannon信息测度度量检测、预测和模式识别的信息也往往并不妥当。Shannon 自己评价通信质量就不用信息标准而用损失(或失真)作为标准。然而,损失或收益又往往是主观确定的,缺少客观意义。均方误差似乎是一个较为客观的损失函数,然而它像正确率一样,不能体现对小概率事件的重视。用广义信息测度作为预测、检测和模式识别的评价和优化准则将更加合理。

.3 广义信息的不同获取方式及相似性

信息获取
方式

X

P(Z|X)

Z

Y(Z)

Y=yj=xj

Q(X|yj为真)

语言交流

客观事实

了解方式

了解数据

语言规则

判断语句

主观理解

感官感知

物性(色光)

感官处理

感觉(色觉)

大脑判断

知觉()

认识依据

编码通信

信源信号

编码

编码信号

解码规则

信宿信号

行动依据

信号检测

信源信号

有噪信道

接收信号

检测规则

检测值

行动依据

序列预测

t时刻信号

前后关系

t以前信号矢量

预测规则

预测值

编码或行动依据

状态估计

t时刻状态

前后关系

t以前状态

估计规则

估计值

控制依据

天气预报

天气类型

观察

观察数据

预报规则

预报语句

听众理解

股市预测

涨跌

搜集情报

掌握数据

预测规则

预言

股民理解

诊断实验

疾病类型

实验方式

实验数据

判决规则

阴性阳性

医生理解

化学测试

化学成分

测试

测试数据

分析方式

分析结果

行动依据

模式识别

不同模式

特征抽取

特征矢量

识别规则

模式判断

行动依据

如果预言yj根据观察数据Z=z'作出,而且规则确定,即yjyj(z'),那么度量语义信息的广义Kullback公式变为

(9.6.15)

优化广义通信要解决的问题是:

  1. 怎样用最经济的方法获得能含有足够信息的Z,即怎样确定观察P(Z|X)?(观察问题)
  2. 已知客观信源P(X)和观察P(Z|X)以及广义信息量IijI(xiyj(z))ij12... 问提供怎样的判决Y=Y(Z)可传递最多信息?(判决问题)
  3. 已知客观的P(X)P(Z|X),问选择怎样的判决语句Y,或收信人应如何理解Y才能使得I(Xyj(z))尽可能大?(语义问题)

(详见<<广义信息论>>中国科大出版社出版,邮购:230026合肥中国科大出版社读者服务部,连邮费7元)