关于术语ontology的中文译名:“本体论”与“知识本体”
冯志伟
教育部语言文字应用研究所
人们很早就开始研究ontology,因此,ontology这个术语有很多不同的定义,这些定义有的是从哲学思辨出发的,有的是从知识的分类出发的,最近的一些定义则是从实用的计算机推理出发的。我认为,对于ontology这个术语的中文译名,应该按照它在不同领域中的定义,分别给它不同的译名。具体地说,在哲学领域,把它翻译为“本体论”,在计算机科学领域,把它翻译为“知识本体”。
牛津英语词典对于ontology的定义是:“对于存在的研究或科学”(the science or study of being),这个定义显然是非常广泛的,因为它试图研究存在的一切事物,为存在的一切事物建立科学的理论。不过,这个定义确实是关于ontology的经典定义,它来自哲学研究,既然它是一种理论,因此,应该把它翻译为“本体论”。
什么是事物(things)?什么是本质(essence)?当事物发生改变时,本质是否仍然存在于事物之中?概念(concept)是否存在于我们的心智(mind)之外?怎样对世界上的实体(entities)进行分类? 这些都是本体论要回答的问题,所以,本体论是“对于存在(being)的研究或科学”,它要研究存在的本质。
远在古希腊时代,哲学家就试图研究当事物发生变化的时候,如何去发现事物的本质。例如,当植物的种子发育变成树的时候,种子不再是种子了,而树开始成为了树,那么。树还包含着种子的本质吗?巴门尼德(Parmenides)认为,事物的本质是独立于我们的感官的,种子在表面上虽然变成了树,但是,它的本质是没有改变的,所以,在实质上种子并没有转化为树,只不过是我们的感官原来感到它是种子,后来感到它是树。亚里士多德(Aristotle)认为,种子只不过是还没有完全长成的树,在发育过程中,树的本质并没有改变,只是改变了它存在的形式,从没有完全长成的树(潜在的树)变成了完全长成的树(实在的树)。种子和树的本质都是一样的。本体论就要研究关于事物的本质的问题。亚里士多德还把存在区分为不同的模式,建立了一个范畴系统(system of categories),包含的范畴有:substance(实体), quality(质量),quantity(数量),relation(关系),action(行动),passion(感情),place(空间),time(时间)。亚里士多德以他卓越的学识和深刻的洞察力,抓住了人类认识中最关键的概念。亚里士多德把这样的研究叫做“形而上学”(metaphysics),这是本体论研究的重要成果,只不过当时他还没有使用ontology这个术语。。
在中世纪,学者们研究事物本身和事物的名称之间的关系,分为唯实论(realism)和唯名论(nominalism)两派。唯实论主张,事物的名称就是事物本身,而唯名论主张,事物的名称只不过是引用事物的词而已。在中世纪晚期,大多数学者都倾向于认为,事物的名称只是表示事物的符号(symbol),例如,book这个名称只不过是用来引用一切作为实体的“书”的一个符号。这是现代物理学的一个起点,在现代物理学中,采用不同符号来表示物理世界的各种特征(如,速度的符号为V,长度的符号为L,能量的符号为E,等)。这些用符号表示的特征,实际上都是物理学中的概念或范畴。这样的研究,都是从本体论出发的。
1613年,德国哲学家郭克兰纽(R. Goclenius)在他用拉丁文编写的《哲学辞典》中,把希腊语的on(也就是being)的复数onta(也就是beings)与logos(含义为“学问”)结合在一起,创造出ontologia这个术语。ontologia也就是英文的ontology,这是西方文献中最早出现的ontology这个术语。1636年,德国哲学家卡洛维(A. Calovius)在《神的形而上学》中,把ontologia看成“形而上学”(metaphysica;英文为metaphysics)的同义词,这样,他便把“ontologia”与亚里士多德的“形而上学”紧密地联系起来了。法国哲学家笛卡尔(R. Descartes)更是明确地把研究本体的第一哲学叫做“形而上学的ontologia”,这样,ontologia便成为形而上学的一个部分了。德国哲学家莱布尼兹(G. von Leibniz)和他的继承者沃尔夫(C. Wolff)更是从学科分类的角度,把ontologia归属为形而上学的一个分支,使ontologia成为了哲学中一个相对独立的分支学科。
德国哲学家康德(Emmanuel Kant)也研究ontology,他认为,事物的本质不仅仅由事物本身决定,也受到人们对于事物的感知或理解的影响。康德提出这样的问题:“我们的心智究竟是采用什么样的结构来捕捉外在世界的呢?”为了回答这个问题,康德对范畴进行了分类,建立了康德的范畴框架,这个范畴框架包括4个大范畴:quantity(数量),quality(质量),relation(关系), modality(模态)。每一个大范畴又分为3个小范畴。Quantity又分为unity(单量),plurality(多量),totality(总量)3个范畴;quality又分为reality(实在质),negation(否定质),limitation(限度质)3个范畴;relation又分为inherence(继承关系),causation(因果关系),community(交互关系)3个范畴;modality又分为possibility(可能性),existence(现实性),necessity(必要性)。根据这个范畴框架,我们的心智就可以给事物进行分类。从而获得对于外界世界的认识。康德对于范畴框架的研究,为ontology的研究奠定了坚实的基础。
我们可以看出,哲学中的ontology是一个相对独立的学科,是一种哲学的理论。既然ontology是理论,最好翻译为“本体论”。
这样的“本体论”的理论对于现代计算机科学是有指导作用的。
例如,根据康德的范畴框架,本文作者冯志伟属于的范畴是:unity, reality和existence,这样,我们就认识到:冯志伟是一个“单一的、实在的、现实的”人。因此,康德的范畴框架是帮助我们捕捉外在世界的有力手段。在使用计算机建立的数据库中,我们可以根据康德的方法给事物建立一些范畴,从而根据这些范畴来管理数据。例如,我们给人事管理数据库建立“姓名,性别,籍贯,职业”等范畴,使用这些范畴进行人事管理。
1991年,美国计算机专家尼彻斯(R. Niches)等在完成美国国防部高级研究计划局(Defense Advanced Research Projects Agency, 简称DARPA)的一个关于知识共享的科研项目中,提出了一种构建智能系统方法的新思想,他们认为,构建的智能系统由两个部分组成,一个部分是Ontologies,一个部分是“问题求解方法”(Problem Solving Methods,简称PSMs)。Ontologies涉及特定知识领域共有的知识和知识结构,它是静态的知识,而PSMs涉及在相应知识领域进行推理的知识,它是动态的知识,PSMs使用Ontologies中的静态知识进行动态的推理,就可以构建一个智能系统。这样的智能系统就是一个知识库,而Ontologies就是知识库的核心,这样,ontology在计算机科学中就引起了学者们的极大关注。
在20世纪末和21世纪初,ontology的研究开始成为计算机科学的一个重要领域。它借鉴哲学中“本体论”的研究成果,主要的任务是研究世界上的各种事物(例如,物理客体、事件等)以及代表这些事物的范畴(例如,概念、特征等)的形式特性,并对它们进行分类,建立规范。计算机科学对于ontology的研究当然是建立在上述的哲学的本体论研究的基础之上的,不过,有了很大的发展。在计算机科学中,ontology不再是一种理论,而是事物及其范畴的形式分类系统,是概念体系的规范,这样的ontology与哲学中的ontology是不同的,它带有更多的技术内涵和应用色彩,因此,计算机科学家们有必要重新给ontology下定义。下面,我们介绍在计算机科学中对于ontology的定义。
在人工智能研究中,格鲁伯(Gruber)在1993年给ontology下的定义是:
“ontology是概念体系的明确规范”
(An ontology is an explicit specification of conceptualization)。
这个定义比较具体,也比较便于操作,在ontology的研究中广为传布。
1997年,波尔斯特(Borst)对格鲁伯的定义做了很小修改;提出了如下的定义:
“ontologies是可以共享的概念体系的形式规范”
(Ontologies are defined as a formal specification of a shared conceptualization)。
1998年,施图德(Studer)等在格鲁伯和波尔斯特的定义的基础上,对于ontology给出了一个更加明确的解释:
“ontology是对概念体系的明确的、形式化的、可共享的规范”
(An ontology is a formal explicit specification of a shared conceptualization)。
在这个定义中,所谓“概念体系”是指所描述的客观世界的现象中有关概念的抽象模型;所谓“明确”是指对于所使用的概念的类型以及概念用法的约束都明确地加以定义;所谓“形式化”是指这个ontology应该是机器可读的(machine-readable)或者机器可循的(machine traceable);所谓“共享”是指ontology中所描述的知识不是个人专有的而是集体共有的。
如果我们对于一个领域中的客体进行分析,找出这些客体之间的关系,获得了这个领域中不同客体的集合,这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念的体系,它实际上就是概念体系的规范,这样的概念体系规范就可以看成这个领域的ontology,显而易见,这样的ontology不再是一种哲学上的理论,因此,不应当翻译为“本体论”,而应当翻译为“知识本体”。
具体地说,如果我们把每一个知识领域抽象成一个概念体系,再采用一个词表来表示这个概念体系,在这个词表中,要明确地描述词的涵义、词与词之间的关系、并在该领域的专家之间达成共识,使得大家能够共享这个词表,那么,这个词表就构成了该领域的一个知识本体。知识本体已经成为了提取、理解和处理领域知识的工具,它可以被应用于任何具体的学科和专业领域,知识本体经过严格的形式化之后,借助与计算机强大的处理能力,可以对于人类的全部知识进行整理和组织,使之成为一个有序的知识网络。
人们对于知识本体的认识可能存在差别,因此,在计算机科学中,有不同类型的知识本体。
n 通用知识本体(common ontology)常常从哲学的认识论出发,概念的根结点往往是很抽象的,例如,时间、空间、事件、状态、对象等。例如,冯志伟在机器翻译研究中研制的 ONTOL-MT就是一个通用知识本体。这个通用知识本体的初始概念有事物(entity)、时间(time)、空间(space)、数量(quantity)、行为状态(action-state)和属性(attribute)6个。这6个初始概念之下,还有不同层次的下位概念。我们使用ONTOL-MT进行歧义结构的自动歧义消解,效果良好。
n 领域知识本体(domain ontology)对领域的知识进行抽象,概念比较具体,容易进行形式化和共享。例如,我国学者最近研制的生物学领域知识本体(domain-specific ontology of botany)、考古学领域知识本体(domain-specific ontology of archeology)都是领域知识本体。
n 语言知识本体(language ontology)常常表现为一个词表,其中要描述单词和术语之间的概念关系。例如,词网(WordNet)就是一个语言知识本体。如果语言知识本体中的概念结点是专业术语,那么,这样语言知识本体就叫做术语知识本体(terminology ontology)。术语是科学技术知识在自然语言中的结晶,哪里有科学技术,哪里就有术语,所以,术语知识本体对于领域知识的处理是非常重要的。
n 形式知识本体(formal ontology)对于概念和术语的分类很严格,要按照一定的原则和标准,明确地定义概念之间的显性和隐性关系,明确概念的约束和逻辑联系。领域知识本体或术语知识本体经过进一步的抽象和提炼,就可能发展成形式知识本体。
知识本体可以帮助我们对于领域知识进行系统的分析,把领域知识形式化,使之便于计算机处理。知识本体还可以实现人和人之间以及人和计算机之间知识的共享,实现在一定领域中知识的重复使用。在机器翻译的语义分析中,知识本体可以给我们提供单词的各种信息,帮助我们揭示单词之间的各种语义关系,是语义分析的知识来源。因此,计算机科学中也把“知识本体”叫做“知识本体工程”(ontology engineering)。
当然,哲学中的“本体论”和计算机科学中的“知识本体”是有联系的。ONTOL-MT中的初始概念基本上是采用了亚里士多德在“形而上学”中的范畴系统。因为我们认为,世界上的一切事物都是在时间和空间中运动和存在的,它们要表现出一定的行为和状态,并且具有一定的属性和数量。亚里士多德的这个范畴系统是从哲学的角度出发的,充满了理性的色彩,闪耀出智慧的光芒,它是一种“本体论”的理论,在机器翻译的工程实践中,这样的理论是有指导作用的。由此我们可以看出,作为哲学的“本体论”对于作为计算机科学的“知识本体”系统的指导作用。
参考文献
1. 冯志伟,从知识本体谈自然语言处理的人文性,2004年,北京。
2. 冯志伟,机器翻译研究,中国对外翻译出版公司,2004年,北京。
3. Fang Gu et al., Domain-specific ontology of botany, Journal of computer science & technology, March 2004, Vol.19 No.2, pp.238-248.
4. Chunxia Zhang, Domain-specific formal ontology of archeology and its application in knowledge acquisition and analysis, Journal of computer science & technology, May 2004, Vol.19 No.3, pp. 290-301.
5. Asuncion Gomez-Perez, Ontological Engineering with examples from the areas of Knowledge Management, e-Commerce and Semantic Web, Springer,2004.
6. T. R. Gruber. A translation approach to portable ontologies. Knowledge Acquisition, 5(2):199-220, 1993.
7. G. Miller, R. Beckwith, C. Fellbaum, D. Gross, K. Miller, Introduction to WordNet: A on-line lexical database, International Journal of lexicography, (4), 244.,1990.
8. G. Miller, WordNet: a lexical database for English. Communication of the ACM, 38911, 39-41, 1995.
9. W. N. Borst, Construction of engineering ontologoes. Centre for Telemetica and information technology, University of Tweenty. Enschede, The Netherlands, 1997.
10. R. Studer, V. R. Benjiamins, D. Fensel, Knowledge Engineering: Principle and Methods, 1998.