说明:本文OCR于物理与工程杂志2001年第1期17-21页,谨向作者、编辑和杂志社表示感谢。
本文指出了过去的统计物理学的教学思路中存在某些只见树木不见森林的现象,这使学生学起来有理解个例的困难而没有系统认识事物的高度。作者指出了新的教材以分布函数概念、分布函数与熵的关系、熵最大原理为三个核心环节去认识大量粒子的规律性。这具有明显的逻辑性,提高了教材的质量,也反映了我国物理学界的思想进步。这种组织教材的方法也把信息论中的最大熵原理(方法)组织到物理学中并且与热力学第二定律相呼应,这为信息论以恰当身份进入物理学有重要的认识论意义。这是物理教材的重大进步。
本人过去关于最大熵原理的一些应用文章和《熵气象学》(1992气象出版社)一书多以分布函数-熵与分布函数-最大熵原理为主线。所以看到王彬的文章介绍现代物理教材也以此为主线很高兴。
希望这个思路得到学术界认可、老师和学生的欢迎,也希望大家思考这个思路对认识信息论和推进熵原理在更广泛的领域的应用的重要意义。
本人的网上讲座与这里介绍的思路是一致的。在该讲座中为了明确分布函数的句主(对象)补充了广义集合概念。简单的广义集合概念发扬了和利用了原子学说的认识论模型为我们认识客观事物提供了良好的新视角。在讲座的第三部分将要介绍利用最大熵原理统一多种概率分布函数等等工作,它也是本思路的一个重要成果。欢迎大家访问 http://entropy.com.cn/zxw/ 。
张学文2001年6月19日
大量粒子系统的课程教学体系探讨
王彬
(西北工业大学应用物理系,西安710072)
(收稿日期:2000-09-08)
熵要:本文讨论了分布函数的概念、分布函数与熵的联系和最大熵原理.阐述了引入信息搞与最大熵原理对于大量粒子系统的课程教学体系改革的必要性和重要性.
关键词:课程教学体系;分布函数;信息熵;最大熵原理
AN EXPLORATION ABOUT THE COURSE PEDAGOGICAL SYSTEM OF A SYSTEM OF A VAST NUMBER OF PARTICALS
Wang Bin
(Department of Applied Physics,North-West Institute of Technology, Xian 710072)
Abstract In this article the concept of distribution function, the relation between distribution function and entropy,and the principle of maximum entropy are discussed.The necessity and importance of the Introduction of Information entropy and the principle of maximum entropy to the reformation of the course pedagogical system of a system of a vast number of particles are also shown.
Keg Words course gedagoglcal system;i distribution function; information entropy;principle of maximum entropy
0引言
在现行的工科物理教材中,对少量粒子系统的课程教学体系处理得十分自洽和完整.个别粒子遵从力学规律(经典力学或量子力学).以经典力学为例,对个别粒子的运动用运动方程(又称运动函数)来描述.x=x0+v0t+(1/2)at2反映了匀加速直线运动,r=v0t+(1/2)gt2描述了抛体运动…….有了运动方程,就掌握了粒子运动的全部信息.而求解运动方程只要知道了粒子的受力和初始状态(r,v0),根据牛顿第二定律F=m(dv/dt),就可得到形形色色的粒子运动方程.当然,也可以通过哈密顿原理求解.总之,少量粒子系统的课程教学体系是十分完备的.
而大量粒子系统遵从统计规律(经典统计或量子统计).以经典统计为例,对大量粒子系统的某一性质用分布函数来描述.麦克斯韦速率分布函数反映了理想气体在平衡状态下分子数按速率的分布规律,玻尔兹曼能量分布函数则是考虑了重力场影响的分子数按能量的分布规律…… .那么,如何求解分布函数呢?传统的热学教材不予讨论.只讲分布函数,不讲分布函数的求解,这种课程教学体系显得零乱、不系统、不完备,需要改革.为此,我们在《基础物理 》(朱荣华主编,高等教育出版社 2000年 6月出版)中对大量粒子系统的课程教学体系进行了探索性的改革.尝试以普通物理的语言,通过对分布函数、熵与分布、最大(信息)熵原理这三个密切相关的问题逐一展开讨论,给出一个较完备自洽的大量粒子系统的课程教学体系.
1 分布函数
分布函数展示了大量杂乱无章运动的粒子构成的整体的“有章可循”行为.它属于统计规律.下面举一个简单的例子来说明什么是分布函数.
俗话说:快刀斩乱麻.其结果给我们留下一堆长度不等的麻线头.如果任意取出一根线头,要问它的长度为l(=0.5)的几率有多大?这就是求线头按长度的分布函数问题.我们简称为“斩乱麻问题”.
工科物理中传统的处理方法假定线头长度l的取值范围从零到无穷大,即(0,∞).把取值范围分成许多小的区间Δl ,如0~10cm,11~20cm,···,统计每个长度区间的线头个数ΔN,并计算各长度区间的线头个数ΔN与全部线头个数N的百分比ΔN/N(它是几率的概念).让长度区间Δl→0,计算timΔN/NΔl,它就是在长度l附近单位长度区间的线头个数占总线头个数的百分比.亦即在l附近单位长度区问中的值出现的几率,称为几率密度.对应确定的l,ΔN/NΔl 有确定的取值,它是l的函数,用f(l)表示,f(x)=dN/Ndl,这就是线头按长度的分布函数,如果以l为横坐标,f(l)为纵坐标,就可以绘出线头按长度分布的曲线来.
分布函数问题是普遍存在随处可遇的.如颗粒度问题:各星系中有众多的恒星,它们有大有小.银河系中大小不同的恒星各占多少?下了一阵冰雹,大小不同的雹粒各占多少?河床中的沙砾、卵石,果树上苹果的大小,甚至一个地域的人体的身高……都有一个一定几何线度的个体在总体中占有的百分比问题.这个百分比就是分布函数.分布函数不仅在自然界大量存在,在社会生活中也俯拾皆是.如:人口按年龄的分布函数,等等.
由物体的受力情况和某一时刻的运动状态(位置和速度),就可以求解得到物体的运动方程,从而掌握运动规律.那么,在形形色色不同的分布函数背后,有没有存在一个类似于牛顿运动定律的更高层次的普遍原理,由于它的存在,统一制约着各个形式不同的分布函数.也就是说,这一普遍原理是内在的“动力学原因”,而形形色色的分布函数只是外在的“运动学结果”呢?下面我们进一步讨论熵与分布函数的关系,问题就会明了.
2 熵与分布
从宏观上讲,熵是不可逆变化的量度.从分子运动论的观点考察,熵是分子运动混乱程度或微观态多少的量度.著名的玻耳兹曼公式揭示了系统宏观状态的熵与该宏观态对应的微观态数W的关系S=klnw,k是玻耳兹曼常数.它指出熵是微观态数或热力学几率大小的量度.玻耳兹曼从分子运动论的观点对熵所作的微观解释,不仅使人们对熵的理解豁然开朗,而且为熵概念的推广和泛化创造了契机.物理学家劳厄说过:“熵与几率之间的联系是物理学的最深刻的思想之一.”
信息论创始人申农(C.E.Shannon)引入一个概念:不确定程度.即在没有收到一个信号以前,人们对它到底是什么并不确知,如果设法计量了这个不确知的程度有多大,也就为计量信息找出了线索.
如果一个事件(如收到一个信号)有n个等可能性的结局,那么结局未出现前的不确定程度H与n的自然对数成正比,即
H=Clnn(C为常数)(l)
例如:一个电报码有从0到9共10个等可能结局,不确定程度就是Cln10而当收到一个数码后,就消除了这种“不确知”.把In10作为一个数码(不问这个码是0还是3,5,7,9)带来的信息量.这样就从消除了多少不确定程度的角度定义了一个数码中含有的信息量.4个数码才组成一个汉字,由此可以得出一个汉字带来的信息量是4个In10,而4In10也可以写成In104,这说明收到一个汉字前的不确定程度与1万个等可能结局中选择一个结局的不确定程度是相当的.而1万正是通讯中常用的汉字数量.
在数学家冯·诺曼(Von Neumann)的建议下,申农把不确定程度H称为信息熵.这样“信息”这个词进入了科学的领地,它在定量化的进程中又与物理学中的“熵”建立了关系.
如果一个事件有n个等可能性的结局,那么每个结局出现的几率p=1/n,而n=1/p,把它代入信息熵的定义,则有H=Clnn=Cln(1/p)=-Clnp .对于某事件的结局为几个等可能结局的情况,计量不确定程度的信息熵与每个可能结局的几率的自然对数成正比.而实际上常常遇到几个结局出现机会并不相等(在电报中每个汉字出现机会就不相等)这又如何计量呢?
没有n个可能结局,而每个结局的出现几率分别为p1 , p2,…,pn .申农指出其不确定程度H 应由下式给出
H=- C∑PInP; (2)
向当p1= p2=…= pn时,上式还原为H=-Clnp. (2)式是信息熵的一般定义,(1)式只是它的一个特例.
信息熵是几率的函数,自然与几率密度----分布函数建立了对应关系.
在概率论中,随机事件的结局如能用数值来表示,则称此变量为随机变量.随机变量X取值为x;,几率表示成p(x),这样信息熵可写成下式:
H(X)=-C∑p(x)Inp(x)(3)
H(X)表示H是随机变量X的熵.以上是针对随机变量都是离散值的情况.如果随机变
量是连续变化的,信息熵就成为下面的积分:
H(X)=-C∫f(x)Inf(x)dx(4)
f(x)是x的分布函数.积分在上下限(a,b)之内对x 的积分等于1(归一化),
∫f(x)dx=1
利用(3)式和(4)式,我们可以在已知具体的分布函数时把它对应的信息熵值是多少计算出来,可见,每个分布函数都对应着唯一的一个信息熵值.信息熵是分布函数的函数,数学上称其为泛函.
正是信息熵与分布函数的这种密切联系,引出了最大(信息)熵原理.
3 最大熵原理
熵增加原理指出孤立系统的熵永不减少:ds>O,其中等号对应可逆过程,不等号对应不可逆过程.这条熵增加原理是对热力学第二定律的数学表述.它以熵在孤立系统不可逆过程中演化的特征,指明了过程进行的方向和限度棗孤立系统自发进行的方向总是沿着熵增大的方向,直至熵取得极大值的平衡态.
尤拉(Enler)曾经说过:“如果宇宙中最大值或最小值规律不出现,那么宇宙间根本不会发生任何事情.”自然界中存在许多极值原理或极值现象.力学的最小作用量原理指出,质点运动的真实轨道是作用量取极小值的轨道.光学的费马原理表明,光线沿所需时间取极小值的路径传播.热学中的熵增加原理反映孤立系统沿熵取极大值的方向演化,普朗克对熵增加原理曾经评述道:“自然看来偏爱某些态,熵的增加描述了系统趋向于一个吸引它的态,系统偏爱这个态.”这个态(熵取极大值的平衡态)就是真实发生的态.
极值原理在自然定律中应占有至高的地位,起着决定的作用.物理学各个领域中的极值原理都是一条条基本定律,由它支配或制约着其他规律.
爱因斯坦曾经指出“熵理论对于整个自然科学来说是第一法则.”这个“第一法则”不仅仅诱发了各种新理论的产生,而且与信息结缘的最大熵原理是制约和控制自然界各种形形色色的分布函数的基本原理.
什么是最大熵原理?
有一些随机事件,其几率分布情况不了解或不可能直接计算,我们所掌握的仅是与随机事件有关的一个或几个随机变量的平均值.例如,一个班的学生考试成绩有三个分数档:80分,90分,100分,已知平均成绩是90分,那么每个分数档出现的几率产是多少?或者说对应平均成绩90分,三种分数的几率分布如何?显然,这种几率分布不是唯一的,
因为在下列已知条件限制下
p180+p290+p3100=90(平均成绩)
p1+p2+p3=1(几率归一化条件)
为什么要选择这样一条标准呢?因为信息熵取得极大值时对应的一组几率分布出现的几率占绝对优势,这可以从理论上证明.最常见、最实际的几率分布对应的信息熵最大.信息熵取极大值时,对应的几率分布一定是最可能的分布.所以,确定最大熵原理作为一条选择标准是合理的.
在给定的约束条件下,由最大信息熵原理推求“最佳”几率分布,要用到变分法这一数学分支.在某些场合下,人们常用所谓拉格期日乘子法来确定此分布.
根据最大(信息)熵原理,利用拉格朗日乘子法,就可解决前面提出的已知平均成绩,求各种分数出现的几率的问题.如前所述,设80分,90分,100分出现的几率分别为p1, p2 ,p3 ,则它们满足下列条件:p1+p2+p3=1
(1')
p180+p290+p3100=90 (2')
现在利用最大(信息)熵原理,就有
Hmax=-(p1lnp1+p2lnp2+p3lnp3) (3')
这里取C=1,以求计算方便、这样(3’)式就成为在(1’)式、(2')式约束下的条件极值式.由拉格朗日乘子法,求得对应信息熵有最大值的分布是[1/3,1/3,1/3]即各分数值的等几率分布是最佳的一种估计分布,也是最可能、最实际的一种分布. 由(3)式计算信息熵值,对应前述分布[1,0,0]和[0.2,0.6,0.2]的信息熵分别为H1=0;H2=ln2.6可以证明分布[1/3,1/3,1/3]的信息熵值In3最大. 进一步考虑,若分数值不限于三个,而是从0~100范围内取值,那么每个分数值v对应一个几率p;,几率p成为分数v的函数p=p(v),它称之为分数的分布函数. 综上所述,我们可以把分布函数作为一定约束下求最大信息熵对应的几率分布问题来统一处理.那么本文开头提出的“斩乱麻问题”:从一堆长短不齐,看上去乱七八糟的线头中,任取一根线头,它的长度是l(=0.5)的几率是什么?现在这个问题看来明确而简单了.就是利用最大熵原理,考虑线头长度l(=0.5)的分布函数 f(l)与它的信息熵 H=-C∫f(l)Inf(l)dl满足 H 极大,用变分法来解决问题,一般要附加上某些约束条件.对于上述的例子,仅有一个约束:即每段线头的长度必然大于零,l>0.由此求得使熵最大的几率分布函数f(l)是个负指数函数:f(l)=(1/a)exp(-l/a) ,a是线头的平均长度.它表明任取一个长度为l(一0.5)的线头,它的几率是f(l),可见多数线头是很短的,极少数较长.这个事例说明如何把含有“完全任意”,“纯随机”,或者“最混乱”……之类的问题转变成一个熵最大的问题.进而由熵最大反求出一个统计分布函数来.这个事例还说明具体的分布与具体的约束有关,约束条件不同,分布也不同.
对于负指数分布函数f(x)=(1/u)exp(-x/u),许多表面上完全不同的现象,它的分布规律都是这种形式.玻耳兹曼能量分布就是一个负指数分布.可以认为系统是把一定量的能量,以最任意、最随机的方式分配给每一个粒子‘粒子获得的能量有限且为正值,按最大熵原理就自然而然得到负指数分布形式.自然界中岩石的破碎过程显然也是带有随机性(最混乱的破碎).每个岩石的线度大于零,这使我们推测岩石按几何线度的分布关系电应当遵守负指数分布.
有人研究了一个地区人们的财产分配或占有的情况,总结了人口按财产分布的经验公式,发现恰是一个负指数分布,财产越多的人越少,财产越少的人越多.对于一定量的财产,当人们以自由竞争的方式去占有时,财产分布函数的信息熵一定取极大值.
许多不同现象都遵从负指数分布,从动力学角度寻找这种数学上同构的原因可能是困难的,但是从最大熵原理角度则易于找出答案,这就是说这些自然现象都在受制于相同的约束的同时,还共同受制于最大熵原理,最大熵原理是各种自然现象遵守形形色色的不同的分布函数的根本原因.
4 讨论牛顿力学的“运动方程”(或“运动函数”、“运动积分”)可以用来描述一切质点的运动,“运动函数”的应用领域真是太广泛了.
熵理论体系的“分布函数”可以用到一切大量粒子构成的系统上,描述它的某一性质.力学原理帮助我们去分析恒星的轨道为什么是椭圆的,苹果为什么从树上自由落下.熵的原理帮助我们去理解为什么自然现象恰恰是这种分布律而不会是别的分布律.
如果我们只讲质点的一两个运动方程:匀加速直线运动方程,谐振动方程,而不讲牛顿运动方程,这显然是只见树木不见森林的做法.热学只讲系统的一两个分布函数:麦克斯韦速率分布律、玻耳兹曼能量分布律,而不讲最大熵原理.不能不令人遗憾地指出,这种只讲现象不讲分析原理的做法,无异于只见树木不见森林.
通过大量粒子系统的课程体系改革,使学生象会用牛顿定律去求运动函数,研究解决力学问题那样,会用最大熵原理去求分布函数,研究解决热学问题.
当然,一年级学生尚未学过泛函,难以解决由最大熵原理求分布函数的数学问题.但是,在计算数学和计算物理迅速发展、软件计算工具(MATLAB、MATHEMATICA···)日新月异的今天,数学不应该也不可能成为学习物理的拦路虎。我们在注重按部就班、严谨周密的同时,是否可以在个别的知识点上跳跃一下呢?!明白最大熵原理和分布函数的关系,知道由最大熵原理求分布函数的条件和方法,而具体求解的过程一数学方法一可以跨越,用解题器来解决数学问题.多媒体计算机进入课堂,它不仅仅是一种形象化、大信息量的电教工具,伴随着多媒体计算机一起进入课堂的计算数学和计算物理方法以及大量的软件计算工具对大学物理内容体系改革的影响是不可低估的.在这方面还有大量的工作要做!