17世纪牛顿力学出现。随后人们发现它等价于物质的一个力学量自动达到它的最小值(最小作用原理)。19世纪的热力学第二定理也称为熵增加原理。即物质的热力学量在自发进行的过程中总是尽量达到它力所能及的最大值。热力学量自动达到最大有什么物理背景?
19世纪统计力学从概率和统计的角度为此提供了说明。这种解释用到了:物质由离散的基本粒子组成(原子、分子等)、热是分子运动、各个粒子处于各个状态(微观态)的概率相等(波尔兹曼假设)和概率计算公式等等。
20世纪50年代在通讯技术进步的基础上出现了关于通讯讯号的理论--信息论。据说是著名的数学家冯.诺曼建议信息论的提出人申农把讯号源发出的讯号的不确定性称为熵(信息熵)。这个建议使熵概念走出了热力学也为信息论思想引入物理学架起了一道桥梁。在科学史上这两个来源不同的概念的沟通是一个重要事件。
信息论初生,它到处扩张。在20世纪50-60年代,杰尼斯(E.T.Jaynes)就从信息熵最大为出发点,也得到了统计物理学中已经知道的分布函数。这为认识物理学事实提供了新思路。它提高了“信息熵最大”的理论地位。它对热力学的分布函数的数学推证比统计力学更简明,使统计力学中的一些物理假设(如等概率假设)变成了多余。
杰尼斯的成功鼓励了从熵最大出发寻找科技成果(如公式)的学术思想。20世纪80年代以来这已经发展成为一个“最大熵方法学派。我国在80 年代对此有一些介绍文章。1991年吴乃龙、袁素云著的《最大熵方法》一书[52]可能是国内对杰尼斯学派的比较全面的介绍。在该书9,10页,作者说:“从1957年Jaynes 在统计力学中正式提出最大熵原理算起,至今已经有30多年了。在这30多年里,最大熵方法得到了`迅速的发展,其中最重要的突破要推1967年Burg 将它引进频谱分析和1972年Frieden将它引进图象恢复。今天许多国际知名刊物都时常发表最大熵论文。每年夏天,来自世界各地的研究人员聚集一堂,举行国际最大熵会议,交流最新研究成果。许多人的长期努力,使最大熵成为一种基础坚实、应用广泛的方法…”
这个学派看重最大熵的方法论意义。吴乃龙在书中写道:
“在数学、物理、工程技术和其他领域中,常常要根据所测量的数据、所给的条件或者所做的假设求解问题。…对付这类不适定问题,有各种各样的方法。最大熵方法(Maximum Entropy Method 缩写MEM)只是其中的一种。最大熵方法是说:在所有的可行(可能)解中,应当选择其熵最大的一个。最大熵方法的表述就是这么简单。…”
在这种视角下熵最大似乎被做作为一个原则要大家遵守。《最大熵方法》一书为此列了五条理由 :
(1)熵增加原理。熵增加原理指出,一个孤立系统的熵永远不会减少,即趋于最大。所以最大熵方法对解所作的选择是“合乎自然”的。当然,如果已知某一特定的系统(不可能是孤立系统)在演化过程中熵在减少,就应该选择熵最小的解。
(2)第一原理。第一原理的意思是:在数据不充分的情况下求解,解必须和已知的数据吻合,而又必须对未知的部分作最少的假定。即对数据的外推或内差采取最超然的(maximum
noncommittal)态度。…最大熵就意味着获得的总信息量最少,也就是“添加”的信息最少。所以,最大熵的解是最超然的。
(3)最大多重性原理。在统计力学和图象处理等领域中,形态的熵H,形态的多重性W和系统的粒子或象素的数目N有如下关系:H∽N-1logW,…。状态多重性(multiplicity)是指系统演化变成这种状态的可能的途径的数目。系统多重性越大,则系统最终处于这种状态的可能性也越大。显然,最可能的状态具有最大多重性。这就是最大多重性原理。由上式有W∽eNH
,显然,H最大对应W最大。因此,最大熵方法是最大多重性原理的必然结果。当N很大时,H对Hmax
的微小偏差,将引起W值极大的下降。所以,绝大部分可能状态都集中在最大熵状态附近。这就是熵集中原理(the
principle of entropy concentration)。根据这个原理,用最大熵方法作的预测是相当准确的。
(4)一致性要求。一致性要求所得到的结果必须与求解步骤无关。举一个最简单的例子。假设将给定的数据分为两组D1和D2,于是有三种不同的方法求解。(Ⅰ)先用D1求得解S1,然后用D2修正S2得最终的解S1,2
。(Ⅱ)先用D2求得解S2,然后用D1修正,得解S2,1
。(Ⅲ)同时用D1和D2求得解S2+1,那么,必须S1,2=
S2,1= S2+1
。注意这里数据的分割是任意的。在复杂的情况下,数据组的数目也是任意的。
对最大熵方法最强有力的辩护之一就是:只有用它求得的解才能满足上述一致性要求。最大熵方法这一宝贵性质,来源于当初推导熵函数时的第三个条件(合成法则)…
(5)
The proof of the pudding is in the eating. 解的性质的研究和实际应用的结果表明,最大熵方法确实是一种处理不适定问题的良好方法。在频谱分析和图像恢复中,其最大的优点是提高分辨率和压制躁声,两者可以同时达到。…给出很多例子。在统计力学中可以只用最大熵原理(即最大熵方法)而不用诸如各态历经、等概率等物理假设,推断出系统的概率分布,而后计算出所有的热力学量。既可以用于经典力学,也可以用于量子统计力学;既可以处理平衡态,也可以处理非平衡态。…总而言之,最大熵这块布丁受到青睐,并不只是由于理论家们的点缀使它变得五光十色,而更重要的是由于它的内容丰富而且适合许多人的口味。
笔者80年代初从气象事例研究中感到信息熵最大与波尔兹曼的分布的思路之间的串通,感到这是气象学新理论发展方向。1983年发起组织了统计力学在气象上应用潜力讨论会, 1987年又发起组织了全国第一届熵与交叉科学研讨会。这些都是基于一个认识:最大熵原理可以在各个领域广泛应用,我们的思路与杰尼斯的最大熵方法是十分接近的。
90年代初吴乃龙与袁素云写就《最大熵方法》一书,在中国推进了这些知识的传播。1994年王彬教授编著的高等学校教材《熵与信息》[53],推进了这个思路在我国教育等领域的传播。文献[54]用分布函数-熵-最大熵原理这个主线去组织大量粒子系统的课程教学体系。
国外在60年代推出用熵最大求谱分解(傅立叶分析)。这个做法80年代传入我国并且得到了推广。
笔者认为“最大熵”在科技领域有巨大潜力远没有为中国科技领域充分认识,21世纪应当出现一个关于最大熵或者说最复杂原理的研究热。
20世纪60年代Burg在时间序列的分析中提出了用信息熵最大求频谱的技术。用这种方法得到的谱的准确性比过去的方法好,人们把它称为最大熵谱。80年代这个方法在我国也得到了广泛应用。40多年以来,尽管“利用最大熵的方法解决科技问题”在信息论的理论中不是主流,但是利用信息熵最大,帮助解决很多科技问题已经形成了独立的一股学术和技术力量,而且是硕果累累了。
《最大熵方法》也介绍了最大熵方法用于某些数学问题的技术思路。这里先讨论解矩问题的思路。
定义在[a,b]上的变量x的概率密度分布函数是f(x),按照统计学的习惯,变量的平均值如果记为μ,而有
(21.1)
这经常称为变量的1阶矩,类似地有变量的n阶矩μn
(21.2)
很显然,知道了分布函数f(x),就可以求得该变量的任何阶的矩。
但是,实践中也遇到一个反问题:已经知道了该变量的n=0,1,…,N阶矩μ0,μ1,μ2,…,μN ,如何猜测(估计)它对应的概率密度分布函数?很显然仅有N+1个数据μ0,μ1,μ2,…,μN是不足以确定未知的分布函数f(x)的(更高阶的矩为不同值显然对应不同的分布函数)。即本问题的解不是唯一的。
解不是唯一的,也就是很多个分布函数都可以满足已经知道的条件(N+1个矩为已知值)。分布函数既然可能是多个(姑且不谈如何得到),取哪个比较妥当?如果承认该分布函数涉及的事物具有随机性,那么选取出现概率最高的哪个分布函数作为答案是上策(符合第二篇介绍的概率公理)。根据最复杂原理的精神,出现概率最高的分布函数也就是在满足约束条件下的复杂程度最大的分布函数。于是我们可以在这里应用最复杂原理(最大熵方法)作为原则,反求这个未知的分布函数的近似解。
我们用p(x)表示一个待求的分布函数,它满足复杂程度最大,也满足N+1个矩的值分别为μ0,μ1,μ2,…,μN ,的这些条件。
复杂程度最大(熵最大)在这里可以写为(用吴乃龙书的符号)
(21.3)
约束条件写为(N+1个):
(μ0=1),n=0,1,…,N (21.4)
现在的任务是在满足上面这N+1个约束条件下,问(求)S最大(对应熵最大、复杂程度最大)所对应的分布函数p(x)是什么。
回顾第十二章关于利用拉哥朗日方法求复杂程度最大下的分布函数的一般思路,可以看到那里的一般约束条件[对应公式(12.4),各个λi为已知常数]:
(21.5)
只要把一般化的ui(x)具体化为xn,就可以利用拉哥朗日方法求得未知函数p(x) :
(21.6)
p(x)就是利用最大熵方法得到的关于分布函数f(x)的近似解根据我们的思路,它等于(接近)f(x)的概率是最高的。《最大熵方法》也给出了解存在的条件和解的例子。