§
8.5信息8.5.1
复合熵前面
(8.2.2)式得出了仅有一个随机变量情况下的熵公式(8.2)。如果抽样实验是由两个(或者多个)实验复合而成(对应于两个集合的笛卡尔积),就存在一个联合概率分布。例如掷一枚硬币还掷一次骰子,根据独立事件的概率的乘法,它们的每个结局的出现概率分布应当是0.5×(1/6)=0.0833 。这可以列成一个概率分布表
表(
8.5)骰子不同点数与硬币的正面或者反面同时出现的概率1点 | 2点 | 3点 | 4点 | 5点 | 6点 | |
硬币正面 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
硬币反面 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
0.0833 |
对于随机变量
x和y的联合概率分布p(x,y)一般有表(8.6)。这个表对于两个变量是独立或者不是独立的都适用。表(8.6) 变量x,y的联合概率p(x,y)分布表
y1 |
y2 |
… |
yj |
… |
ym |
|
x1 |
p(1,1) |
p(1,2) |
p(1,j) |
p(1,m) |
||
x2 |
p(2,2) |
p(2,2) |
p(2,j) |
p(2,m) |
||
… |
||||||
xi |
p(i,1) |
p(i,2) |
p(i,j) |
p(i,m) |
||
… |
||||||
xn |
p(n,1) |
p(n,2) |
p(n,j) |
p(n,m) |
它对应的熵称为复合熵,并且由下式计算
(8.6)
公式
(8.6)就是根据两个离散随机变量的概率分布计算它的复合熵的公式。这里复合熵的符号H(x,y)仅表示这个熵是对于变量x,y 的,H 是一个值,不是x,y的函数。对于掷一枚硬币并且掷一次骰子组成的复合随机实验,其复合熵显然为-12(0.0833log20.0833)=7.89比特H=
复合熵的公式还可以推广到连续变量和多个变量的情况。
8.5.2
条件熵从某小学的学生中任选一人称他(她)的体重,其体重就是个随机变量,它就有个概率分布函数存在(不同的体重的出现概率不同)。如果仅对身高为
1.2-1.3米的学生抽样称其体重,就得到另外一个概率分布函数。相对前一种概率分布,后者就是条件概率分布。条件就是已经知道了学生身高是1.2-1.3米。根据条件概率,利用熵公式计算的信息熵称为条件熵。如果以
x表示学生体重,以y表示身高,以 p(xi∣yj) 表示身高为yj时的体重为xi 的出现的概率,把熵公式用到这个特殊情况得到是熵显然应当是上面得到的计算公式是针对
y为一个特殊值yj时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均。即(8.7)
这就是条件熵的一般计算公式。上面的第二个公式是针对连续变量的,其中的
f是概率密度分布函数。另外根据概率论的乘法定理p(x,y)=p(x)p(y∣x)上面的公式也可以写成
(8.8)
根据对数的性质,还可以把上面的公式改为
如果求
x已知时y的条件熵,显然也会得到类似的公式,即还有合并这两个公式有
(8.9)
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
条件熵仅能大于等于零而不会有负值,而且不大于原来的熵,即
(8.10)
它说明条件熵的最大值是无条件熵。在
x与y独立无关时,条件熵与原熵值相等,即(8.11)
利用这些公式还可以得出复合熵小于等于对应的无条件熵的和,即
H(x,y)≤H(x)+H(y) (8.12)
这个公式表明两个(或者多个)随机变量的熵的和大于等于它们的复合熵。
在介绍复杂程度时曾经引入了“
0+0可以>0”的问题。由于复杂程度与熵有对应关系,上面的公式是否与前面的结论有矛盾?我们说没有。公式(8.12)中熵的加号对应的并不是两个集合的并而是所谓笛卡尔积。而“0+0可以>0”问题对应的是两个集合(广义集合)的并运算,它不是乘积。利用熵概念也可以得到“0+0可以>0”的结论,但是它也是对应着两个广义集合的并,不是这里的笛卡尔积。条件熵概念扩大了熵概念的应用范围,也为引入“信息”做了准备。
8.5.3
信息信息是通过熵与条件熵的差计量的
。掷一次骰子,由于六种结局(点)的出现概率相等,所以结局的不确定程度(熵)为log6 ,如果告诉你掷骰子的结局是单数或者双数,这显然是一个信息。这个信息消除了我们的一些不确定性。把消除的不确定性称为信息显然是妥当的。
说明这个问题可以通过计算无条件熵和条件熵来解决。这里的无条件熵就是log6 ,而已经知道结局是单数或者双数的条件熵可以根据前面的条件熵公式计算。为此先列出表(8.7)
表(8.7)肯定是单点(双点)时它是各个点的概率
( 条件概率)
1 |
2 |
3 |
4 |
5 |
6 |
|
单数 |
1/3 |
0 |
1/3 |
0 |
1/3 |
0 |
双数 |
0 |
1/3 |
0 |
1/3 |
0 |
1/3 |
这个表给出了不同的点数与单数或者双数同时出现的概率。它们代表不同情况时的条件概率。计算条件熵,用公式(8.7)计算比较方便。公式中的p(yj)有两种情况,一个指单数的出现概率,一个是双数的出现概率。它们显然都是1/2 ,因此公式(8.7)变成了
H=-6[(1/6)log(1/3)]=log3
于是条件熵H为log3 。
在不知道结局为单双数时,掷一次骰子的结局的不确定性为log6 ,在仅告诉你结局是单数或者双数时是没有全部解除你对结局的疑惑,但是它确实给了一些信息,这个信息(以I表示)就用无条件熵与条件熵的差来计量。于是有
I=log6-log3=log6/3=log2
如果对数的底是2,那么仅告诉你结局的单双数,而不告诉你绝对值,它提供的信息量就是1比特。
这个例子说明y提供的关于x的信息Iy(x) 可以用不确定性的差计算,即
信息量Iy(x)=(x的不确定性)- (得到了消息y以后x的不确定性)
(8.12)
这就是计算信息的基本公式。
信息量有很多性质。
如果令公式中的y=x,H(x∣y)变成了H(x∣x),其含义当然是x已知时x的条件熵,可是x 已知时它自己当然没有不确定性了。所以H(x∣x)=0 。把它带入信息公式,得到
I=H
也就是说
x 值已知时所带来的信息恰好等于原来的不确定性。或者说x带来的信息在数值上恰好等于熵。这正是在一些场合下把熵直接称为信息的原因。遗憾的是有些人没有理解这个认识过程,而引出了信息是熵或者信息是负的熵的概念混乱。如果条件熵与原熵值相等,H(x)=H(x∣y),显然信息等于零,即
Iy(x)=H(x)-H(x)=0
这说明因素
y 与x 无关,它当然也提供不了关于x 的任何信息。把公式(8.10)和信息公式(8.12)合并得到Iy(x)≥0
它说明任何因素提供的信息不会小于零,信息没有负值。
利用关于复合熵的公式
(8.9)与信息公式(8.12)可以得到Iy(x)=Ix(y) (8.13)
它说明变量
y含有的关于变量x的信息与变量x含有的关于变量y的信息是相同的。即变量之间含有的信息是对称的。以上讨论的信息、信息熵都是指直接与概率联系的所谓信息论中的熵。下面要讨论物理学中的熵。