广义信息论溯源

――摘自鲁晨光的《广义信息论》1.4

 

    意识到Shannon理论的局限性并试图推广它,在Shannon理论刚诞生不久就开始了。Weaver不仅提出通信的三个水平,还提出了广义通信模型[2]; 虽然他没有提出具体的数学公式,但是他的基本思想为后人起了引路作用。

    为了解决语义信息问题,R. Carnap(卡尔纳普) 等人提出用逻辑概率代替普通(或随机性)概率,然后用Shannon 熵度量语义信息12]。然而这种方法有许多限制要求:可选择语句必须是互不相容的;语句的真假必须是严格分明的;语句的使用必须是正确无误的。由于这些限制,这种方法也就少有价值。不过,用逻辑概率代替普通概率的做法也部分地被作者所采用。

    K. Popper(波普尔)似乎是与广义信息理论无关的人, 但是他一再强调,科学理论的进步标准就是理论所能提供的信息的多少;用作预测的命题,其先验逻辑概率越小越好[13]。后面我们将看到,本书提出的通信模型和Popper的科学进化模型极为一致,Popper的基本思想在新的通信模型和信息测度公式中得到了充分体现。

    50年代末,Kullback提出Kullback信息公式[14]

         IK=∑P*(xi)log[P*(xi)/P(xi)]        (1.4.1)

虽然它是Shannon互信息公式的特例(见2.42.5节), 但是如果把P*(xi)看作是主观预测的可能性测度,则它度量的就是广义信息。不过是非常特殊情况下的广义信息(见4.4节)。

 

    如果先验概率不同,有P1(xi)P2(xi), 则两种情况下的Kullback信息之差就是

        I'K=∑ P*(xi)log[P2(xi)/P1(xi)]   (1.4.2)

    这一公式由经济学家H. Theil六十年代提出[15]。

    1986, J. AczelB. Forte在《广义熵和最大熵原理》一文中提出广义熵[16]

             H=∑P(xi)logP*(xi)         (1.4.3)

并证明P*(xi)P(xi), H达最大, Shannon(指去掉

负号的Shannon)。这一广义熵的带负号形式也被本书采用, 但是它只作为本书广义熵在逻辑概率归一化时的特例。其实笔者是由广义互信息公式推导出广义熵公式的, 只是在本书定稿时才了解到Theil, AczelForte的工作。

 

    60年代初,Brillouin提出可用Hartley公式的改进形式[17]

               IlogN/N*        (1.4.4)

(其中NN*分别是先验和后验不确定元素的个数)度量非概率信息,比如测量数据的信息[18]。但是其应用范围相当有限, 特别是不适于不确定范围模糊时的情况。

 

    1965年,L. A. Zadeh提出模糊集合论[19],1968年, 他又提出模糊事件,即模糊集合A中事件的概率

      P(A)=∑ P(xi) μA(xi)     (1.4.5) 

和模糊集合的熵[20]

       Hf- ∑μA(xi)P(xi)logP(xi)     (1.4.6)

 

其中μA(xi)xi在模糊集A上的隶属度(本书记为Q(Ajxi)。后面我们将说明它就是逻辑条件概率。式(1.4.5)

很有意义的,μA(xi)P(A)也是广义互信息公式所必要的。 然而,式(1.4.6)则是令人费解的。

 

    我们应注意,熵是某种测度的平均值,熵公式中对数符号左边的函数,设为fi,应是归一化的,即

             ∑ fi1     (1.4.7)

不归一化就不具有熵的意义。显然,式(1.4.6) 不符合这一要求。

 

    1972年,De LuceTermini提出模糊熵[21]

     Hf=-[1/ N]∑[μilogμi(1-μi)log(1-μi)   (1.4.8)

其中μi即μA(xi)。 当μi恒等于1/2时,Hf达最大,为1bit

模糊信息量为

                If1-Hf              (1.4.9)

这一理论有一定的应用价值。式(1.4.8)的合理性就在于它和Shannon条件熵的相似性(不赘)。这一理论的问题是:式(1.4.9)的本意是要使集合极为模糊时,信息量为0;而实际上,只要μi不随i变化,而不一定为1/2,集合就极为模糊, 信息就应该为0。用本书提出的广义互信息公式就可达到这一目的。

 

后面我们将看到,Hf只是广义互信息公式中的模糊熵或广义条件熵的特例。另外,式(1.4.8) 只适于仅有两个互补模糊集或语句存在的情况。有人不顾归一化限制而把它推广到多个模糊集存在的情况; 还有人不是用模糊熵熵差,而是模糊熵本身或加上概率熵表示模糊信息量[22],这就更成问题。

    70年代,H. Gottinger提出非概率信息[23],S. Guiasu提出了加权熵和效用信息[24], 都产生了一定影响。 G. Jumarie还提出采用洛伦兹变换的相对信息其中不变量是意义熵和符号熵之差[25];如果信息真的和相对论有某种关系,这是很令人兴奋的。可惜相对信息的定义并不自然,至少目前也不实用。

    近年来,R. Yager, M. HigashiG. Klir, D. DuboisH. Prade等人又提出或讨论了可能不确定性(Possibil

istic uncertainty)测度及相应的广义熵[26,27,28]这类方法只采用隶属度等主观测度而不使用事件发生的概率。看来它们可以用来度量某种情况下概念外延的不确定性。不过要度量广义信息,不利用概率,本身就信息不足。

    在国内,吴伟陵教授和钟义信教授对广义熵和模糊信息有过有益的探讨[29,30], 特别是钟义信教授对研究广义信息的倡导在国内较有影响。钟义信提出用后验真实度和先验真实度之比定义信息量(这种思想最初来自卡尔纳普,钟义信在这条路上没走通,放弃了,改用Deluca-Termini公式――鲁晨光补注), 本书也推导出有类似含义的公式: 语义信息量等于命题逻辑概率和谓词逻辑概率之比的对数。

    Shannon熵有一定的客观性,它反映了平均码长极限。 如果有人提出一种与之不同的熵测度,我们不禁要问:你的熵测度究竟反应了什么?

    一个理想的广义信息理论似应做到: (1)它是Shannon信息的自然推广,而不含有过多的人为定义;(2)其中信息测度在某种条件下应还原为Shannon信息测度,并有其编码意义;(3)提供特有的优化通信方法, 而不是仅仅提出一些测度公式。显然,已有的关于广义信息的理论与此标准相差甚远。

 

第一章参考文献

 1 Shannon C E. A mathematical theory of communication, Bell System Technical Journal 27(1948), 379429, 623656

 2]〔美〕威弗尔. 通讯的数学理论的新发展, 系统论控制论信息论经典文献选编,求实出版社,1989,612636

 3] 汪培庄. 模糊集和随机集落影, 北京师范大学出版社, 1984.

 9 Hartley  R V L. Transmission of information, Bell System Technical Journal 7(1928), 535

[12 Bar-Hillel  Y. and Carnap, R. An outline of a theory of semantic information, Tech. Rep. No. 247, Research Lab. of Electronics, MIT, 1952

[13]〔英〕波普尔, 付季重等译. 猜想和反驳——科学知识的增长,上海译文出版社,1986

14 Kullback S.  Information and Statistics, John Wiley & Sons Inc., New York, 1959

 15 Theil H. Economics and Information Theory, North-Holland, Amsterdam, 1967

16 Aczel J and Forte B. Generalized entropies and the maximum entropy  principle, In:J. H. Justice(ed.) Bayesian Entropy and Bayesian Methods in Applied Stastics, Cambridge University Press, Cambridge, 1986, 95100

[17 Brillouin  L.Science and Information Theory,

Academic Press, New York, 1962

19 Zadeh  L A. Fuzzy sets, Infor. Contr. 8 (1965),338353

 20 Zadeh  L A. Probability measures of fuzzy events,

Journal of mathematical Analyses and Applications 23(1968), 421427

 21 De Luca  A and Termini S.  A definition of nonprobabilistic entropy in

 the setting of fuzzy sets, Infor. Contr.20(1972), 201312

23 Gottinger  H W. Lecture notes on concepts and Measures of information, In 'Information Theory: New trends and Open  Problems', G. Longo eds., Springer Verlag, CISM(1975)

[24 Guiasu S. Information Theory with Applications, McGraw-Hill, International Book Company, New York, 1977

25Jumarie J. Subjectivity: human comunication, in: Singh,M.G. ed., System and Control Encyclopedia, Pergmon Press,1987,46964698

26 Yager R R. Measures of properties on fuzzy sets and  possibility distribution, In:E. P. Klement(ed.), Proc. 3rd Inter. Seminar on Fuzzy Set Theory, Johannes Univ., Linz, 1981,211222

27 Higashi  M and Klir  G. Measures of uncertainty and information based on possibility distributions, Internat. J. Generral Systems 9(1982),4358

28 Dubois D and Prade  H. Properties of measures of information is evidence and possibility theories, Fuzzy sets and system 14(1987),161182

29] 吴伟陵广义信息源与广义熵,北京邮电学院学报 29 (1982)41

23] 钟义信. 信息科学原理,福建人民出版社,1988

31]〔英〕艾什比. 控制论导论,科学出版社,1965124