语义信息新论

——推定信息科学的基本公式

(注意逻辑语义与词汇语义的区别)

邹晓辉

0756-5505041  qhkjy@yahoo.com.cn  519125 广东珠海井岸桥东恒美花园15-2201

MY NEW VIEW ON SEMANTIC INFORMATION

——Information Formula On General Information Science

Difference Between Lexical Semantics And Logical Semantics

Abstract

Somebody said: semantic information is ill-defined and subjective. It is quite different  from my new view on semantic information which is based on the view of information by Hartley-Shannon and the view of semantic information by the other’s. According to theory on one’s cooperating with computer, I come to the conclusion that Hartley-Shannon’s “Information” is “Data”while the other’s is”Knowledge”, for data within a data-base or one’s brain only including information and knowledge. So I understand that Information Formula on General Information Science is: I = D - K and it means that Information equals to the Residual Data or equals to the Knowledge being about to acquire; broadly sensed information must include data, narrowly sensed information and knowledge. According to my experience on the study of semantics, I find that we should think much of the most basic semantic problems on Lexical Semantics and on Logical Semantics discussed thoroughly by linguists and by logicians, especially by computational linguists recently. Therefor, semantic information should be re-discussed by using Information Formula on General Information Science.

KeywordsSemanticInformationDataKnowledge

摘要

有人说:语义信息的定义是不清楚的。与之不同,语义信息新论建立在哈特莱-申农探讨的信息与其他人探讨的语义信息的基础之上。依据融智学的信息理论,任何一个数据库中存储的数据都可分为信息与知识两部分,哈特莱-申农探讨的信息可归结为数据,其他人探讨的语义信息可归结为知识。因此,可推定信息科学的基本公式:I = D - K,意思是:狭义的信息(I)是数据(D)中取出知识(K)的余留部分,也是将获得的那部分知识;广义的信息包含:数据、狭义的信息、知识。依据语义学研究经验,学界应重视:被语言学家和逻辑学家,尤其是近期被计算语言学者,密切关注的词汇语义和逻辑语义的基本语义问题。因此,可借助该基本公式重新讨论语义信息。

 

关键词:语义、信息、数据、知识

一、绪言

现有的语义信息定义是不清楚的。与之不同,语义信息新论主要论述:语义(注意:逻辑语义与词汇语义的区别)、信息、语义信息以及信息科学的基本公式,研究领域涉及信息科学的基本理论问题。特殊性:从信息、数据、知识三者关系的角度,深入探讨信息的本质和信息科学的基本原理。重要性:明确提出信息科学的基本公式和其中蕴涵的狭义信息与广义信息以及语义信息等概念。强调区分逻辑语义与词汇语义对具体探讨语义、信息、语义信息的作用。研究途径:在哈特莱-申农探讨的信息与其他人探讨的语义信息的基础之上,依据融智学的信息理论——“语义三棱”模型,会发现:哈特莱-申农探讨的信息可归结为数据,其他人探讨的语义信息可归结为知识。这支持了“数据=信息+知识” D = I + K的基本假设,进而可推定信息科学的基本公式和给出一般科学的信息定义以及明确信息科学的基本原理。结合逻辑语义与词汇语义的区别可搞清楚最基本的语义问题。借助上述研究成果可重新讨论语义信息,通过追根寻源可探寻逻辑语义的自然人判定与逻辑歧义的计算机处理的理论,通过旁征博引可考察词汇语义的自然人判定与词汇歧义的计算机处理的实践。局限性:由于二歧性是多歧性通向无歧性或唯一性的必经环节,又由于词汇语义是句子、语篇乃至语境的语义问题研究的基础,所以,本文仅以逻辑语义的二歧性与词汇语义的多歧性为例,考察逻辑语义与词汇语义的区别,以便对语义、信息、语义信息等概念进行严格定义。本文注重对狭义信息的探讨,仅指出进一步探讨广义信息的途径。基本假设:任何一个数据库中存储的数据都含有信息与知识两部分,哈特莱-申农探讨的信息可归结为数据,其他人探讨的语义信息可归结为知识。数字计算机是基于逻辑语义而建立的信息处理装置,就逻辑推理和数学计算而论,其基础旨在:消除逻辑歧义(即:消除路径选择的二歧性)和实施二进制计算(注:其它进制均可与二进制之间实现自动转换);自然人是基于词汇语义而建立的信息处理装置,就自然语言理解而论,其基础旨在:消除词汇歧义(如:消除义项选择的多歧性);可把逻辑语义视为词汇语义的特例,即:把逻辑语义与词汇语义的区别视为二歧性与多歧性的区别。知识贡献:1、明确提出信息科学的基本公式I = D – K即:(狭义)信息 = 数据 - 知识。2、明确界定信息科学的核心概念和研究对象,即:(狭义)信息是数据中取出知识的余留部分;(广义)信息包含:数据、(狭义)信息、知识。3、明确提出信息科学的研究策略和基本方法及研究途径,即:重点研究(狭义)信息与整体把握(广义)信息以及从数据和知识两端逼近(狭义)信息。4、建议采用协同智能计算的方式,把语言学家、逻辑学家、计算语言学者以及具体应用领域用户密切关注的逻辑语义与词汇语义的基本歧义问题,进行系统化处理且不断优化。

二、综述

1、信息概念有狭义与广义之分,相应的科学理论也如此

狭义的信息科学,通常指:通信与计算机科学,主要涉及:信息的形式化概念、原理及处理方法,现已相当成熟,相应的技术与应用也十分普及。最具说服力的论据就是“计算机”及其“互联网”带来的“信息革命”——严格地讲是“形式信息革命”(注:这是融智学的观点之一)

广义的信息科学,含:狭义部分以及其它部分,主要涉及:信息的形式与内容(涉及:“语义信息”这个十分重要而又非常含混的复合概念)的关系。众所周知,信息是信息科学的核心概念和研究对象,语义是研究的重点和难点。严格地讲:语义信息是不清楚的或欠明了的和主观的或个人的Semantic information is ill-defined and subjective。因此,我们一直认为:继“形式信息革命”之后,必然会发生“语义信息革命”(注:这是融智学的观点之二)

事实证明:与狭义部分相比,广义部分显得还很不成熟,其具体研究领域也显得十分凌乱。例如:申农“信息论”之后,人们虽然提出了各种各样论及“语义信息”或“广义信息”的理论,但至今无一获得“形式信息”理论那样的一致公认。这说明“语义信息革命”仍在襁褓之中。

所谓“新论”就是针对上述“旧论”而提出来的。其基础和重点是论述信息科学的核心概念、基本原理、基本公式,难点是语义分析——关键是区分逻辑语义与词汇语义,两者虽然有关但是不能混淆。

2、“信息是 ”与“(的)信息”

信息是什么?都有哪些基本类型的信息?目前为止就是自然人、专家们几乎也都“说不清,道不明,又如何强求计算机系统能消解其中的各种歧义呢(“中文信息处理和“基于汉语的知识表达的例子随处可见)

为此,本文特意提炼出“信息是”与“(的)信息”两个典型表达式作为信息概念研究的重中之重,着重从逻辑语义与词汇语义的分析,试图对信息Information)、语义Semantic、语义信息Semantic Information进行一番论证。旨在深入探讨信息的本质和基本类型或分类的问题。

本文(《语义信息新论》)着重对狭义信息的微观分析,其姊妹篇(《广义文本与本真信息》)着重对广义信息的宏观分析。希望对学界能发挥“抛砖引玉”的作用(如有“牵一发而动全身”的效果,将是最理想的!)

3、识别、理解、表达的消歧难题

上述两个典型表达式,不仅信息一词之后“…”省略的说明存在“随机不定性——不确定”,而且信息一词之前“…”省略的说明也有多种可能的选择方式——存在“多歧性”。

如何消解上述“不确定”或“多歧性”?一直都是自然人的“逻辑思维”所面临的“语义”问题与计算机的“符号识别、语言理解、知识表达”所面临的“语义”问题。实质是如何消除歧义的问题。

古代的柏拉图与亚里士多德两位哲学家都曾被“歧义”难题所困扰。

近代的弗雷格与布尔两位数学家及逻辑学家分别以不同方式提出了各自解决逻辑歧义难题的形式体系。弗雷格还试图发现解决词汇歧义难题的形式化问题 [语义上的形式化研究的其它路径还有:晚些时候索绪尔的普通语言学的关系(涉及:词法、句法、乃至整个语言系统的语义关系)研究以及其后乔母斯基的形式语法研究]。近代哲学领域发生的“语言转向”就始于弗雷格对语义问题的探讨(以后的“语义三角”和“意义理论”的探讨也都渊源于此)

这之后,对语义问题或歧义难题的思考虽从未间断,但几乎就再没见过(具有与之等量齐观的重大研究成果或)根本性突破(目前哲学正处于“信息转向”的初期)公诸于世。

尽管如此,计算机科学、认知科学(含:人工智能与认知心理学)、计算语言学(研究:自然语言处理及中文信息处理)等交叉学科各具体研究领域,还接二连三地公布了不少重要研究成果(或大大小小的突破),:基于规则、基于统计、基于实例及其相互结合的各种消歧原理及方法,有些仍在屡屡翻新(见:人工智能与计算语言学研究领域,其中,自然语言的词汇语义处理是最基础的)

基于前人和他人上述广泛的研究,工程融智学及其典型实例公开的消歧原理及其“两表、“三化、三注、三多”的(人机)协同智能计算系统的一系列设计方案,才可望问鼎这个跨越多个世纪而令人生畏的语义上如何系统化消歧的难题,并首先在理论思考上获得根本性突破。

可以说,人们对信息的各种认识分歧皆可归因于上述语义上的消歧难题。反之,如能在逻辑语义与词汇语义这一基础层面系统地解决语义上的消歧难题,也就可在根上解决信息的一般科学定义和系统分类的问题——消解人们对信息的认识分歧。

搞清逻辑语义与词汇语义的区别很重要。在基础理论上,这对确定信息本质及分类,作用明显。

4、以往对信息、语义、语义信息等概念的探索

通信科学界公知的信息概念由哈特莱1928提出,其信息量计算公式由申农1948在数学上发展成了(经典)信息论,同期,确立了(数字化通信)信息量的基本计量单位bit

计算机科学界公知的美国标准信息交换码ASCII,明确了信息科学技术的“形式化”基础。

以上关于信息的描述实质上可归属于数据范畴;其它各种关于信息的认识(如:钟义信《信息科学原理》所转述的其他几十种关于信息的定义、说法、解释、说明、几乎都属于知识的范畴。

《一种知识信息数据处理方法及产品(发明)2000和《融智学(新范式)2000,明确提出了“义、文、物、意”融智概念体系(通论)、信息基本法则(通则)和多元数表达式(通式)。《协同智能计算语言数据库的设计方法》2002明确给出了“子全域”、“超子域”及其“进阶层式”概念、原理与方法的典型实例。《协同智能计算知识数据库的设计方法》2002明确给出了“已知域”、“未知域”及“目标域”概念、原理与方法的典型实例。《融智学纲要》2002明确区分了(广义融智学的)哲学信息观与(狭义融智学的)科学信息观。在信息科学理论和信息技术实践的有关科学论文中开展了一系列具体研究2003-2005。这些就是以下确定信息科学的核心概念、基本原理、基本公式的思想渊源。

以下试图就信息及语义信息的本质与基本类型或分类提出一种新观点及新方法。

三、方法

语义信息新论对语义、信息、语义信息的界定方法及步骤:

0、设定前提

探讨语义,限定在逻辑与词汇两个层面(涉及:路径消歧与义项消歧)

探讨信息,限定在科学范围(涉及:计算机科学的可计算性与数据处理)

探讨语义信息,限定在信息科学范围(涉及:信息处理以及知识处理)

1、界定语义

限定论域,即:只讨论词汇语义与逻辑语义及其相互关系。

语义,主要指:词语意义。句子、段落、篇章、语境的语义皆可由上述两种类型的语义推演而知。

语义内涵及其重要性

“(融智学)语义三棱”比“(语义学)语义三角”有更加丰富的语义内涵。特点:揭示意与义的关系。如果说“意义问题是当今人文科学(含:哲学)研究的核心问题”,那么,意与义的区分,则是(整个)科学(含:人文科学、自然科学、人工科学、……研究的核心问题。

逻辑语义与逻辑歧义消解

解决逻辑语义的二歧性问题:“ 还是 ”?可用二值逻辑消解逻辑歧义的基本表达式:“ 而非 ”。例如:逻辑语义涉及的歧义是逻辑歧义还是词汇歧义?答案显然是前者。又如:词汇语义涉及的歧义是逻辑歧义还是词汇歧义?答案显然是后者。可见逻辑语义与词汇语义关系密切。

词汇语义与词汇歧义消解

解决词汇(含:字汇——汉语的特点)语义的多歧性问题:如何选择“义”?

一般表达式:“(的)[注:(的)前省略()填“用字”——用以限定“解字”的义项搭配的字;(的)后省略()填“解字”。只有“用字”与“解字”之间不能接续时,才需插入(的)字而构成三字组——多字组另议]

需要添加“用字”——如:语、主、含、本,才能限定待解释其义项的字——“解字”,如:义。仅仅把“语”与“义”两字结合构成“语义”这个二字组还不足以判定它究竟是逻辑语义还是词汇语义,必须延长字组才能消歧。借助字组表筛选“用字”并查询细分知识领域,消除“解字”义项的词汇歧义。

2、界定信息

提出数据公式,明确界定范围

数据公式

D = I + K [ Data = Information + Knowledge”的缩写,汉语意思是:数据 = 信息 + 知识]

公式中,“数据”集合,为“目标域”(“限定范围”如:数据库),其特征是“可计算”;“信息”集合,为“未知域”,其特征是“可选择”;“(各门科学)知识”集合,为“已知域”,其特征是“可重用”。

说明:(数据DataD = (信息InformationI + (知识KnowledgeK

(全部数据)目标域 = (信息或未知数据)未知域 + (知识或已知数据)已知域

(全部数据)目标域 = (未知部分的数据)未知域 + (已知部分的数据)已知域

推出信息公式,揭示信息本质

信息公式(这是一般科学的信息定义式,含:狭义信息与广义信息两个重要方面的概念)

I = D - K [Information = Data – Knowledge”的缩写,汉语意思是:信息 = 数据 - 知识]

信息定义

(作为信息科学的核心概念和研究对象的)(狭义)信息是数据减去知识的余下部分,其形式特点是还未承载知识的数据;其内容特点是将获得的知识。(广义)信息包含:数据、(狭义)信息、知识。

信息本质

(狭义)信息与知识的区别在于:信息是未知的,知识是已知的。(狭义)信息与数据的区别在于:信息是还未承载知识的那部分数据(知识是承载知识那部分数据)。信息的形式与数据有关,信息的内容与知识有关。(广义)信息的说法过于粗放而不严谨。(狭义)信息才是严格的科学定义,其本质是数据的序位,其中未知与已知两部分的划分仅仅是相对于主体(如:人)或载体(如:信源、信道、信宿)而言的。

推出知识公式,揭示语义信息

知识公式

K = D – I [ Knowledge = Data - Information”的缩写,汉语意思是:知识 = 数据 - 信息]

3、界定语义信息

语义信息的说法也过于粗放而不严谨。人们在说“语义信息”时,实际上是强调(狭义)信息的内容特点——“将获得的知识”。

一旦认清了语义的内涵和信息的本质,具体界定语义信息的方法也就明确了。即:根据语义三棱,从宏观上深入地解析“语(广义文本)”与“义(本真信息) 两方面(本文的姊妹篇《广义文本与本真信息》将对之做深入的探讨);根据信息公式,从微观上优化数据处理与知识处理进而可系统地解析语义信息——(狭义)信息的内容特点——“将获得的知识”。

四、结果及结论

上述方法产生的必然结果和有益效果以及相应的结论

确立信息科学的基本公式,可导致如下基本结果及结论

明确一般科学的信息公式,为统一信息概念提供了可计算可测量的数学模型

由于一般科学的信息公式——信息科学的基本公式的确立,(狭义)信息与(广义)信息的关系得以明确。这不仅可消解人们在信息概念问题上长期存在众多认识分歧(这种现象实际上是在认识上的“盲人摸象”,也是理论不成熟的必然表现),而且,可解决一般科学的(狭义)信息理论与(广义)信息理论以及(信息)科学与(信息)哲学之间长期缺乏界定标准的问题。进而,明确信息科学各个学科的研究对象。

对信息科学建设的推动作用

理论上,可明确信息科学的三大基本原理——信息与数据的关系原理;信息与知识的关系原理;数据与知识的关系原理。

实践上,可总结以下基本认识——以往对信息的探讨,由于对信息、数据与知识三者之间的关系缺乏清晰认识,常常张冠李戴;以往对数据与知识及其关系的探讨,为深入探讨信息奠定了必要的基础(如间接的理论和示例)。

对以往信息概念模糊的澄清

可明确“(狭义)信息”以及探讨与区别“信息、数据、知识”的重要性;可明确“(广义)信息”以及探讨与“科学、技术、艺术、哲学”的联系。澄清(狭义)信息与(广义)信息的概念及其相互关系之后,既利于把握一般科学的“信息”本质,又利于认清具体科学的“信息”特征。

对以往算法路径的必要拓展(本文的姊妹篇《广义文本与本真信息》将对之做具体的介绍)

在认可并继承“直接基于指数方程的对数计算方法”的同时,发展出了一套“间接基于代数方程的算术计算方法”及其优化策略和计算路径。

五、总结和议论

总之,新论旨在明确上述信息科学的核心概念、基本原理、基本公式,这不仅利于信息概念的统一,而且,利于信息科学(乃至整个科学)体系的优化(本文的姊妹篇《广义文本与本真信息》将对之做必要的介绍)

明确“语义、信息、语义信息”的其它好处(注意区别:科学研究与日常应用两方面,忽简单地混为一谈)

从逻辑与词汇两个方面排除“语义、信息、语义信息”的路径分歧和义项分歧,使复杂抽象的理论思维可且易重复操作。既可避免自然语言的歧义性对人们认知的误导,又可利用自然语言的灵活性拓展人们的认知路径和认识视野。特别是发现信息科学的基本公式之后,反过来对微观上的路径消歧和义项消歧,也有帮助或促进作用。例如:知道“语、文、字、”与数据相通,并且,知道“义、意、意义”与知识相通,这之后,所谓“语义”就可简单而通俗地表述为“语言形式的内在含义”或“语言形式要表达的思想内容”或。又如:知道信息与数据、知识相关之后,所谓“信息”就可简单而通俗地表述为“数据中未被理解的部分”或“数据中未知的部分”或。因为“数据”由“未被理解的部分——信息”和“已被理解的部分——知识”构成。再如:所谓“语义信息”实质上强调的是“信息”的内容特征——准确地说是强调“数据中未被理解部分”的内容特征。

明确信息科学与(质能)科学的关系“消除”认识误区

判定科学的标准长期存在不确定性,与学界对“信息科学与(质能)科学的关系”缺乏认识(或存在认识误区)息息相关。能否“消除”这一认识误区?关键在于是否能搞清“信息科学与(质能)科学的区别和联系”。一般科学的信息公式,“在可计算数据的前提下”探讨“信息与知识的关系”,这就为学界对“信息科学与(质能)科学的关系”的界定提供“科学的判定标准”。如果说:探索未知领域的信息奥妙是科学的使命,传播已知领域的知识成就是教学的任务,那么,(质能)科学的前沿领域(涉及探索未知领域的信息)也是信息科学的一部分,信息科学与(质能)科学的知识成就都是教学内容的一个部分。

科学标准的重建

对上述结果及结论的系统解析,不仅可明确信息科学的核心概念和研究对象——巩固信息科学的基础,而且,可明确信息科学的研究任务、(创新的)研究方法和理论工具(另有融智学的系列文章系统介绍),同时,还可明确信息科学与(质能)科学的区别和联系——以利于重建(优化的)科学标准。

基本的标准体系

可计算数据的可证实性(如:具体数据被验证是在限定的目标域)与可证伪性(如:具体数据被验证不在限定的目标域),可重用知识的被认可性及被认可程度(如:不仅具体数据被验证是否在限定的目标域中,而且,该验证结果能被具体学科或学科群的科学共同体其他同行或准同行所认可——具体认可程度不仅可由认可者的人数及其在学界的实际影响或具体应用效果进行评判,而且,还可由协同智能计算系统进行自动评判以及网络计算机辅助评判)

具体的评判尺度

除了新颖程度;创新程度(非显而易见程度);实用程度(简称:三度)之外,还将增加(协同智能计算系统自动评判以及网络计算机辅助评判的)可计算程度、可选择程度(算法的好坏程度)、可重用程度。

基本的评判方式(借助标准化与个性化结合的形式化描述体系的支持)

在联网计算机辅助CA的条件下(基于目标域限定的可计算数据)比较“(发现者提供的)可选择信息”与“(现有)可重用知识(如:常识知识库和专家知识库)”之间“三度”的差异。

 

参考文献

Claude E.Shannon and W.Weaver. The Mathematical Theory of Communication,The University of Illinois Press, 1963

邬焜、李琦: 哲学信息论导论[M]陕西人民出版社1987

钟义信.信息科学原理[M].福建人民出版社,1988(北京邮电大学出版社,1996新版 2002再版)

Shannon,C.E Collected Papers ed.by N.J.A.Sloane and & A.D.Wyner (Los Alamos, Ca: IEEE Computer Society Press). .1993,

Simon H. A. The Sciences of the Artificial (Cambridge, Mass.: MIT Press). 1996

Losee, R. M. “A Discipline Independent Definition of Information”, Journal of the ASIS, 48.3, 254-269. 1997,

徐友渔、周国平、陈嘉映、尚杰:语言与哲学——当代英美与德法传统比较研究[M]三联书店,1996.

周斌武、张国梁:语言与现代逻辑[M]复旦大学出版社,1996

How fundamental is information? http://okmij.org/ftp/Computation/limits-of-information.html#  References Last updated August , 2004      Floridi, L. (forthcoming), “Is Information Meaningful Data?”, preprint available at

 http://www.wolfson.ox.ac.uk/~floridi/pdf/iimd.pdf