信息的表征和测度方法


孟祥增

(山东师范大学传播学院,济南250014)

(e-mail: mxz@sohu.com )

 

摘要  关于信息的概念,目前有许多说法。本文根据“信息是对事物属性的表征”这一观点出发,提出了一种信息表征和测度的方法以及相应的信息测度公式,并讨论了信息测度公式的性质。

关键词  信息 信息表征 信息测度

 Information Representation and its Measure

MENG Xiangzeng

(School of Communications, Shandong Normal University, Jinan 250014)

(e-mail:mxz@sohu.com)

Abstract: The concept of information is given in many ways. With the point of view that information is the representation of the attributes of a thing, we propose a form of representing the attributes as information representation and a method of measuring the complexity of the representation with improved formulas as information measure. The properties of the formulas are discussed.

Keywords: information, information representation, information measure

1 引 

近几十年来,计算机技术、通信技术、广播电视技术迅速发展,人们的生活方式发生巨大变化,有人把当今的社会称为信息化社会。信息作为时髦的名词,渗透到本文生活的各个方面。然而,什么是信息,信息的基本概念目前仍没有公认的合乎大众意念的统一定义。以前,许多学者根据自己的研究背景和对信息在哲学上的理解,按照信息所具有的某些属性给出定义,给出了各种各样的说法,如“信息就是消息”、“信息是事物间的差异”、“信息是一种关系”、“信息是事物间相互作用的表现形式”等[1]。控制论的创始人维纳指出“信息就是信息,不是物质,也不是能量” [2],从而使信息与物质、能量在概念上分离开来。信息论的创立者仙农利用形式化和概率论的方法对通信中的随机信息单元进行不确定性测度,基于“信息是消除随机不确定性的东西” 的观点,建立了完整的通信理论[3]。仙农理论对通信中信源和信道编码、信息传输的信道容量估算等都有重要意义,对人们认识通信的机理和信息的测度具有极大的启迪作用。但仙农的信息论是在通信理论中利用概率论的方法获得的数学理论,人们生活中遇到的信息远比这种形式化的概率信息理论复杂得多。人们对这种狭义的信息理论还需要扩展、改进,甚至需要发展全新的理论。人们在对仙农信息论深化理解和推广应用的基础上,提出了许多改进型熵测度方法,如不完备概率空间熵、α熵、β熵、γ熵、ε熵、ε-δ熵、模糊熵等。国际上,维也纳工业大学的Wolfgang Hofkirchner博士提出了统一信息理论(UTI: Unified Theory of Information[4],并建立了统一信息理论网站[5],瑞士伯尔尼大学的Federico Flueckiger博士提出统一信息概念(UCI:Unified Concept of Information)[6],美国马歇尔大学的Bruce Ebanks 教授等对信息测度的性质做了详细研究[7]。国内,钟义信教授提出了全信息理论,鲁晨光提出了广义信息论[8],张学文建立了熵、信息和复杂性网站[9]。经过许多学者孜孜不倦地潜心研究,对信息的本质有了更清楚的认识,对信息的表征与测度提出了很多合理、实用的方法,对语义、语用等非概率信息进行了多方面的研究,并获得了很多有用的研究成果[10-12]

总之,考虑信息的普遍性、多样性和复杂性,要给信息一个全面的、公认的、公式化的严格定义是困难的。本文仅从信息描述的一个方面,考虑信息的表征和测度方法,提出了一种基于对事物对象的属性进行表征的信息表征方法和对这种信息表征的复杂程度进行量度的信息测度方法。

2 信息表征的基本思想

本文认为,信息是事物的本质属性,是关于事物的结构、状态、关系及其变化的属性。本文把事物这种与生俱有的信息称为事物的本征信息。人们为了认识事物,掌握事物变化规律,达到改变和控制事物发展的目的,需要对事物的本征信息感知、分析、表征、存储、传输和利用。本文把人们对事物的本征信息通过视觉、听觉、嗅觉、味觉、触觉、力觉、想象、逻辑推理或其它方式获得的信息称为事物的感知信息。为了分析、存储、传输和利用感知信息,需要采用适当的方式和载体将感知信息表示、记录下来。本文把这种表示、记录下来的信息称为事物的表征信息。信息的表示方式有视频、图像、语言(语音)、声音(自然音、音乐)、符号(文字、数学符号、逻辑符号)等。有些感知信息如嗅觉、味觉、触觉、力觉、想象、情感等还没有合适的表示和记录方式。不能表示和记录的信息难以定量研究。

同样的信息可以有多种表示方式,但表示的效果和效率不同。例如,用文字和语言可以表示同样的信息内容,但它们的记录形式和记录的数据量不同。同样一幅图像,编码方式不同,数据量也不同。因此,信息表征应该遵循一定的原则。本文遵循的原则是在一定的背景知识下,为实现一定的目标,选择合适的表示方法,对事物的属性按照主次、重要程度逐层逐级地表征。这里说明几点。

1)事物通常包含很多的属性,有时难以抽象、列举穷尽。在实际操作中,仅取那些对实现目标有意义,且能够表示清楚的属性,而将事物共有的、对实现目标无关紧要的或难以抽象表示清楚的属性舍去。例如,在基于内容的图像检索中,图像的内容包括高层的语义内容和低层的视觉特征,可以根据需要和获取的代价适当取舍,将图像重要而又易取的属性表征。

2)事物的属性有主次、级别、层次之分,在信息表征时应按事物属性的主次、重要性,逐项、逐级、逐层地展开。表征越仔细,表征的属性的个数和层级越多,表征的形式越复杂,表征的信息量越大,也就是事物的信息量与事物表征的复杂性有关。事物表征的复杂性在一定意义上可以看作事物的信息量。

3)表征信息需要有一定的背景知识。信息系统象人一样,也需要具备一定的背景知识。只有具备一定背景知识的系统才能够“理解”信息表征的形式和意义,才能对输入信息做出处理。换句话说,信息系统对信息表征的结构形式、结构中每项的意义以及各项之间的关系等都应明确,具有透明性,并且能够利用系统中的知识库对输入的信息进行分析、过滤、处理,做出决策,输出新形式的信息。例如,在自然语言检索系统中,需要利用自然语言处理技术,将用户对检索目标的文字描述,转化为与数据库中的数据具有相同结构的信息表征形式。这样,检索系统才能够“理解”这种规范化的输入信息,才能够在数据库中检索匹配或相似的项。自然语言处理技术就具有“理解”自然语言的背景知识,检索算法就具有“理解”数据库中数据结构(一种信息表征方式)的背景知识。自然语言规则和数据库可以看作系统的知识库,检索结果可以看作输出的一种新形式的信息。

4)信息表征的形式可以看作语法信息,系统对信息表征形式和知识库的透明性理解可以看作语义信息,按照系统的目标对语法信息和语义信息的不同属性进行适当的取舍和加权处理,可以看作语用信息。从信息的表征到信息的提取和利用,可以看作符合全信息理论的智能信息处理过程。

3 信息的表征方法

信息表征象知识表示一样,也有多种表示方式。当事物的属性可以抽象、形式化地表示出来时,采用框架式树型结构表征事物的各个属性比较方便[13]。图1是一个层次化树型结构的信息表征模型。

图中, 表示事物A的属性节点,ai表示属性名,它的取值称属性值,不同的属性有不同的取值类型和取值范围。μi是属性ai的重要性(μi≥0),表示该属性在事物中的重要程度,取值是相对的,一般性重要μi=1,较重要μi>1,不重要μi<1。μi=0表示最不重要,表示忽略此属性。

属性节点可以是事物抽象并能形式化的任意属性,包括事物的表现状态、结构成分等静态属性,也包括事物的变化过程、与其他事物或属性间的相互关系等动态和抽象属性等。

4 信息表征的复杂性测度

为了衡量信息表征的复杂程度,需要采用一种测度方法,作为对信息表征的信息测度。根据这种信息表征的层次化结构形式,我们采用一种归一化综合属性测度的递归信息测度方法,用公式表示:

                                      (1)

 

其中,        

 

|ai|为属性ai的测度。由于事物的多样性,事物的属性各式各样,属性值有多种类型,而且差别很大,很难比较。因此,属性的测度就是将各式各样的属性和相应的属性值转换为可比较的数值。属性测度的定义和取值范围根据应用情况而定。例如,取值为文本类型的属性测度定义为单词数量,向量类型的属性测度定义为向量维数等。

μi|ai|为属性ai的综合测度。mi为属性ai的归一化综合测度,0≤mi≤1。 I(ai) 表示属性ai的信息测度,H(ai)表示属性ai的子属性的信息测度,与H(A)具有相同的形式。如何计算属性ai的信息测度I(ai),是一个值得探讨的问题。如果采用Shannon的信息测度方法,即:

                                                      (2)

μi=1,|ai|为概率空间的概率时,H(A)即为Shannon的概率熵。这是最常用的概率信息测度方法。但是,利用Shannon的信息测度方法存在一个问题,即属性ai的平均信息测度miI(ai)不是mi的单调函数,如图2(a)。

这样,在仅有一个属性时,其信息测度为0,不符合人们的心理。为此,我们对Shannon的信息测度公式修改为:

                                                (3)

改进的属性ai的平均信息测度miI(ai)是mi的有界单调函数,如图2(b)。

当事物仅有一层属性时,信息测度H(A)为:

                                    (4)

可以看出,H(A)与Shannon的概率熵具有相似的性质:

1)对称性,即H(A)与{mi}的顺序无关;

2)扩展性,即

3)单调性,即H(A)随表征的属性的数目增加而增加,随表征的属性的层数增加而增加。当 时,

4)极值性,即 。当事物仅有一个属性时, ;当事物有N个属性,且N个属性的综合属性测度相同时,

5)可加性,即当事物有N个属性,每个属性又有M个子属性时, 。其中, 是事物的N个属性的信息测度, 是事物的第i个属性的子属性的信息测度。当事物的每个属性均有相同的子属性结构,且子属性间对应的属性测度相同时, ,其中 是事物的第一层属性的信息测度, 是事物的第二层属性(子属性)的信息测度。特别地,当事物的N个属性的综合属性测度相同,且每个属性的M个子属性的综合属性测度也相同时,

6)上凸性,即 M1M2为事物A的任意两种归一化综合属性测度取值。

5 结束语

由于信息的多样性、抽象性和复杂性,给信息一个恰当的定义和适当的测度方法,特别是统一的信息定义和测度方法非常困难。尽管如此,目前仍有许多学者在这方面不懈地努力,做了大量的工作,并将信息科学的新理论应用于特定领域中解决实际问题,已经取得了一些可喜的成果[14,15]

本文提出的信息表征和测度方法,其合理性倘需在更多的实际应用中实践、检验,其中事物属性的抽象和形式化、重要性赋值和属性值的测度方法都需在实际应用中总结规律,获得规范化的形式和公式。

参 考 文 献

[1] 钟义信.信息科学原理(第二版),北京邮电大学出版社,1996.

[2] 维纳.《控制论》,科学出版社(第二版),1963.2.

[3] C.E. Shannon. A mathematical theory of communication. Bell System Technical Journal, 27. 379-423, 623-656, 1948.

[4] Hofkirchner, W. The Quest for a Unified Theory of Information. Proceedings of the Second Conference on the Foundations of Information Science, Vienna, 1996.

[5] Unified Theory of Information WEBsite. http://kaneda.iguw. tuwien.ac.at /uti/

[6] Federico Flueckiger. Contributions Towards a Unified Concept of Information. Doctoral thesis, University of Berne, Switzerland. 1995.

[7] Bruce Ebanks, Prasanna Sahoo, Wolfgang Sander. Characterizations of information measures, River Edge, NJ: World Scientific, Singapore, 1998.

[8] 鲁晨光. 广义信息论. 合肥:中国科技大学出版社,1993

[9] 熵、信息和复杂性网站 http://entropy.com.cn/

[10] Taneta, I.J. New Developments in Generalized Information Measures, Advances in Imaging and Electron Physics, Academic Press (USA), 1995, 37-135.

[11] J. N. Kapur. Measures of Information and Their Applications. New Delhi: WILEY EASTERN LIMITED, 1994, India

[12] Titchener, M.R. A measure of Information, IEEE Data Compression Conference, Snowbird, Utah, March 2000.

[13] 蔡自兴,徐光佑.人工智能及其应用(第二版).北京:清华大学出版社,1996.48-52

[14] 孟祥增,钟义信,白成杰.基于属性表征和信息测度的图像检索.山东师大学报(自然科学版),2004.1

[15] 李蕾,钟义信,郭祥昊.全信息理论在自动文摘系统中的应用,计算机工程与应用,2000.1. *