§15.8信息在变换中保守性的证明
上一节的结论是连续变量在经受了变换以后其复杂程度可大可小,这在掌握上当然比较困难。但是如果换一个角度,分析变量在变换中它荷带的关于另外一个变量的信息的变化,问题就简单明朗化了:在连续变量经受变换时它提供的关于另外一个变量的信息,在可逆变换(一一变换)的情况也仅是与原来的相等,即信息是不可增殖的;如果包括不可逆变换,新变量提供的信息要减少。在
第十四章我们引用过这个结论,现在对此做补充说明。下面的讨论要用到上一节的结论。但是为了简练,我们把变量的名称做一些必要的改动,也用粗体字的矢量来代替上一节的多变量。
15.8.1连续变量经受一一变换后 提供的信息与原来的相等我们把上一节的公式
C(y1,,,y2,…,yn)=C(x1,x2,,…,xn)+NE[ln∣Δ∣] (15.1) 中的复杂程度C换为信息论中的不确定程度H(信息熵,去掉了个体个数N),把变量y1,,,y2,…,yn改为粗体的矢量Z而把变量x1,x2,,…,xn改为粗体的矢量Y,于是有H(Z)=H(Y)+E[ln∣Δ∣]
(15.4)这里Δ的含义当然也做对应的变换。
如果知道变量X与变量Y,Z有关,当X的值已经知道的情况下分析关于Y,Z的条件熵的关系,它也应当与上面的公式对应,即有
H(Z∣X)= H(Y∣X)+E[ln∣Δ∣]
根据信息的定义,X含有的关于Z的信息应当是
IX(Z)=H(Z)- H(Z∣X)
把前面的关系代入得
IX(Z)=H(Y)+E[ln∣Δ∣]- H(Z∣X)
IX(Z)=H(Y)+E[ln∣Δ∣]- H(Y∣X)-E[ln∣Δ∣]
消去E[ln∣Δ∣],根据信息定义,就得到
IX(Z)=IX(Y) (15.5)
这个结果说明变量Y变换为变量Z以后,只要变换是一一变换,X含有的关于Z的信息和原来含有的关于Y的信息一样多。 由于信息的对称性质(X含有的关于Y的信息和Y含有关于X的信息相等),前面的结果也可以写为Iz(X)=IY(X)
(15.6)这个公式直接说明经过变换后的新变量Z含有的关于X的信息与原变量Y一样多。为什么信息问题中得到的结论比复杂程度或者说不确定程度(熵)中得到的结论明朗?原因在与信息是两种熵的差,它恰好消除了变化不定的含有Δ的那一项。
变换以后信息与原来的相等。这是个坏消息。它使人们企图通过变换而获得信息的奢望破灭了。但是这也是抽象事理的必然推论(它不依赖物理学事实)。根据第十四章的分析信息的不可增殖本身就体现了世界的必然秩序,如果破坏了这个秩序,世界的混乱程度要比质量或者能量守恒定理不存在更严重。
15.8.2连续变量经受不可逆变换后提供的信息要减少 前面研究了连续变量Y在经受一一变换(可逆变换)变成了新变量Z以后,新变量提供的关于X的信息量。现在研究连续变量经受不可逆变换以后它含有的关于另外一个变量的信息量的变化情况。 对于两个变量含有的关于第三个变量的信息量,有下面的公式(参考《气象预告问题的信息分析》一书19-27页) IYZ(X)=IY(X)+IZ∣Y(X) (15.7)这个公式的含义就是变量Y,Z含有的关于变量X的信息量等于Y含有的关于X的信息量再加上Y已经知道情况下Z含有的关于X的信息量。这里我们用大写字母表示变量,它可以是矢量也可以不是。这个公式对于Y,Z是对称的,所以下面的公式也成立
IYZ(X)=IZ(X)+IY∣Z(X) (15.8)合并它们得
IY(X)- IZ(X)= IY∣Z(X)- IZ∣Y(X)设Y是原先的变量而Z是Y经受某种不可逆变换以后得到的新变量。所谓不可逆变换就是从Y的某个值可以变换为Z的某个值,但是并不能保证每个Z值都可以还原为(计算出)原来的Y值。不失一般性,我们假设仅在两个点,例如当变量Y=y1和Y=y2时,都对应新变量的一个值Z=z1(点),而在其他的位置它们都是一一变换(可逆)。即有
y1 y2 y3 y4 …上面的变换显然在最初的两个点是不可逆变换。它不可能从z2知道原来的Y值具体是什么。
我们注意到当Y已知时,Z的值完全确知,也就是当Y的值已经知道的情况下,Z提供不了附加的关于X的信息量(Y已知时Z已经不是随机变量而成为不变化的数,它提供的关于其他变量的信息应当为零)。写为公式就是 IZ∣Y(X)=0 (15.9)把它代入前面的公式得到
IY(X)- IZ(X)= IY∣Z(X) 反之,对于Z,在不可逆变换的部分,当已经知道Z取某个值以后,对应前面的Z=z2,我们还不能确定Y的取值究竟是y1 还是 y2,此时Y仍然可以是变量(不是不变化的量),所以它提供的关于X 的信息就可能大于零,写成式子就是 IY∣Z(X)≥0 (15.10)把它与前面的公式联立,得到
IY(X) ≥ IZ(X) (15.11)这个结果说明连续变量经受包括不可逆变化的过程以后,它提供的关于某变量的信息至多是与原变量一样多,而一般是小于原变量。
例如气象学中知道某地区当天的摄氏温度Y对第二天的气压X有关。我们可以说温度变量含有关于气压变量的信息。有人对温度提供的信息不满足希望更大一些。于是它把温度值取平方,就得到了新变量Z 。他希望新变量可以提供的关于X的信息比原变量Y更多,问题是他会成功吗?(气象界做这种事的人很多)知道了本节的结论,可以肯定不会成功。如果温度出现在零度以上,那么温度与温度的平方是一一对应的,此时新变量提供的信息与原来的相等。如果温度出现负值,而经受“平方”的变化以后无论+2度或者-2度(负的),其平方值都是4,这就对应我们这里讨论的情况,其结果就是新变量提供的信息一般地说比原来的少,相等则是最好的结果。你希望得到更多的信息吗,对不起,一丝一毫也不可能得到。至少在气象领域不知道这个道理而白白浪费时光的人很多(而有的杂志居然发表这类数学游戏文章)。本节为第十四章介绍的信息不可增殖做一些理论补充说明。《气象预告问题的信息分析》一书对此和它在气象预告研究中的重要性做了比较多的说明。
第十五章结束
第二篇结束