面向知识应用的数字图书馆设计思想
刘明晶
(深圳图书馆 深圳 518027)
摘要:从物理形式看数字图书馆就是将显性知识载体从实物形式转化为更便于传播的电子形式,本文介绍的以知识应用为目标的数字图书馆,重点在于更好地管理和用好知识,用现代信息技术手段,不仅在存贮和传播知识,更在于如何更好地用好知识,以及体现点滴知识的经济价值。本文主要从以下几个方面介绍了面向知识应用的数字图书馆系统设计思想:
1) 从用户分层:陈述了从系统开发人员、应用开发人员、系统保障人员、应用管理人员、知识加工专家、领域专家和不同读者等几个层面的用户,各自的特点和需求;
2) 知识单元的采集、表示和应用:说明知识单元如何采集和加工的过程,通过那些主要要素表达一般的知识单元,应用知识的角度。
关键词:数字资源 知识表示 知识应用 用户分层模型
一、 数字图书馆系统提出的背景
深圳图书馆承接了2001年下达国家高技术应用项目——“数字图书馆应用平台及网络架构研究”。作者有幸作为本系统的总体设计负责人,主持设计了本系统。在设计本系统期间吸收了当时众多的数字图书馆系统方面的理论研究和实际经验。
由于深圳图书馆1988年开发的图书馆自动化系统(ILAS)已经安装在近二千个图书馆,本研究项目,不仅要满足项目立项所要求的技术目标,还必须考虑在这个资源全面数字化的今天, 如何让这些用户能有效地管理和开发数字文献资源,以较低的投资实现数字图书馆系统,和为其他需要数字图书馆技术支撑的企业和组织提供一个功能强大的开发和运行平台。
关于数字图书馆系统本身存在许多不同的定义和理解,但从系统角度看,其根本目标离不开数字资源的采集、加工、管理和利用。本系统提供的是一个开发和运行平台,目标定位在一个对数字资源的采集、加工、管理和利用等提供一个工具,尤其强调系统整体性,即以最经济的代价满足信息和知识用户的需求,积极开发用户的隐性知识,强调系统和用户之间相互交流,相互促进。
考虑到数字资源的广泛性以及目前数字图书馆还没有一个成熟的标准和被普遍接受的参考体系模型,因此我们参照开放的网络参考模型方式,将本系统定位为一个开放的多层体系结构,各种数字图书馆应用系统都可以通过不同层面的数据网关服务完成互联,从而实现资源和服务的共享。
以应用为目标的系统设计首先必须需要考虑的就是不同层面的用户的情况,知识应用必然设计到知识加工、存储和应用模型。
本项目研究与设计,构成了本文的基础。
二、 用户分层模型
确保系统成功满足用户需求必须首先明确和分析系统涉及的各类角色和用户。
1、 第一层 系统开发人员
系统的支撑平台维护和开发,如核心的数字资源管理系统和配套的系统开发和支撑工具软件。
2、 第二层 应用开发人员
随着整体信息环境的发展和读者不断增长的要求,应用软件的功能和特点也随之改变。因此,数字图书馆系统平台的用户还应包括新的应用系统设计和开发人员。
3、 第三层 技术保障人员
(1) 数字资源管理系统地维护
确保数字资源管理系统以及整个平台的正常运转。
(2) 系统调适和优化
配置系统参数以及根据系统运行状况而进行的性能优化和系统的分布式管理等。
4、 第四层 应用系统管理人员
(1) 保证数字图书馆系统日常正常运行
图书馆管理人员,按照规定的程序保证数字图书馆正常运行和处理日常常规问题,相当于目前图书馆自动化系统操作人员。
(2) 数字图书馆应用环境维护
建立和修订保证数字图书馆正常运行必须的规定,如各种版权法律、定价,同外围信息环境的对接。
5、 第五层 知识加工专家
(1) 建立和维护检索工具
为帮助下述两类读者提高资源的利用效率,必须针对需求,对大量的数字资源进行有效地组织,建立和维护大量的数字化检索工具。通过一个计算机辅助的、协同工作的、知识加工基础平台,不断完善一个知识/情报/文献的再加工的辅助环境。帮助多数普通读者,以最小的代价获得一个动态的,与自己的知识和能力匹配的外脑库系统。
(2) 建立和维护知识工具
从多视角全面地分析知识单元关系,从而建立各种各样的知识工具,如:人物、地理信息、事件、概念体系,以及元数据管理和维护等支撑工具,就像目前各种工具书的电子化版本,只是这些电子化的工具书,不仅仅是提供给读者使用,还用于文献的加工整理。
(3) 特点
知识加工机构的工作人员和数字图书馆文献加工专业人员,如:图书情报专家、普通
语言和计算语言学专家、心理学家等。
6、 第六层 高级读者/领域专家
(1) 研究性检索
为满足研究/追踪某个课题而进行的检索〔3〕。。
(2) 加工
在检索和阅读过程中需要大量的配套支撑工具,对检索结果和研究者新发现的知识进行有序化的保留,以及发表和交流。
(3) 用户特点
经常性用户,他们往往是一个或多个领域的专家,知识/信息加工能力强,是知识的发现或者创造者。
7、 第七层 普通读者
(1) 以知识获取为目标的浏览
如同在传统的图书馆阅览室中自由浏览书籍和杂志。在阅览室中浏览时,多数读者的一次扫描书架的视野非常广泛,虽然相比而言,电脑屏幕提供的空间非常有限,但是,电脑可以因读者的不同而提供一个动态的针对性展现,这是阅览室不可能具有的优势。
(2) 为获得特定信息而进行的检索
大致分为两类:数据事实检索和专题检索。事实检索可以通过工具书,或者实时信息终端进行检索,只是当出现检索不到的信息时,需要保留读者的请求。专题检索是指那些分散在各种文献和工具书中,还没有被集中收录和整理过的信息。
(3) 用户特点
由于使用者既可能是初次或偶然性用户,也可能是经常使用者。所本系统的设计必须兼顾非常用者的易学性和常用者易用性。
三、 知识采集、表示和应用模型
1、 知识单元采集加工过程
本文将以数字化方式记录知识的相对独立载体单元,称为知识单元(Knowledge Element),知识单元是数字图书馆管理的数字资源主体,由于知识单元类型的多样性以及其特性的复杂性,市面上流行的面向数据处理为主的关系数据库管理系统虽然也能勉强存贮和管理这些异构的数字资源,但其处理效率不是十分理想,而且随着资源数量以及类型的增加,还可能带来更多的问题。在分析目前各种数字资源所具有的特性和共性以及可能发展的趋势基础上,本系统决定建立在一个自行设计的专用数字资源管理系统:一个计算机辅助下的人机协同资源加工系统,包括信息的搜集、筛选、过滤、加工、组织、存储、分发、利用以及反馈等部分。
(1) 搜集〔20〕,〔3〕
在一个广泛范围内全面搜集信息资源,以及对其他媒体形式的信息资源进行数字化加工,包括古代文化遗产的全方位记载,如数字化还原历史的时(间)、空(间)、文(化)背景,各种音像资源的数字化等。
(2) 筛选
按照一定的信息筛选规则,通过人工和机器对信息资源进行筛选。
(3) 过滤〔11〕
过滤掉信息对象中若干与主题无关的数据,也是一个再数字化过程,即对信息对象的进一步的规范和量化处理。
(4) 加工
利用图片、声音、影像等多媒体编辑工具加工对象数据,建立相应的元数据和关键信息,如缩小图片、提取影像的关键帧以及声音的片断和其他特征,或者整合。
(5) 组织
按照公共普及分类、专业领域分类、专题分类和个人/小组分类体系对数字化资源进行有序化组织。
(6) 存储
保存对不同等级数字化资源,以及数字化资源的不同维度的版本,比如按照区域、数字化形式以及内容等进行不同的版本管理。
(7) 分发
为了便于读者充分、有效利用数字化信息资源,根据读者需求,将必要的数字化资源的索引部分通知(Notify)到读者。
(8) 利用
根据读者对信息/知识的认知模型,用适当的方式展现信息,包括类目、主题和概念、关联和超链接、文章摘要、根据读者阅读预期动态凸显文内关键词等方式。
(9) 反馈
搜集读者利用状况的反馈信息,改进资源加工过程和质量,从而保证日后为读者提供更为优质的信息。
2、 知识表示要素
资源的数字化表示不仅仅表现在简单的形式上,更有若干用传统印刷形式无法有效展现的特性。数字资源的记载和表示有多种不同结构方式〔22〕,下面介绍本系统较突出的几点:
(1) 知识单元
由于检索和出版的原因,以纸面印刷形式记录知识的单元的大小通常都是上千字的文章或者数万字以上书籍。而数字化记录知识的方式,可以用非常小的知识单元。记录知识单元的小型化,可以大大提高获取和记录隐性知识的效率。
利用现代信息网络实现,将零散的知识单元集成为知识网络,建立智能协作服务网络,在这个知识网络中,通过一定的知识单元序,避免重复性的再“创造”,现在很多人写书或者文章的时候,其实并没有真正创造性活动,而仅仅是在转述某些事实或者原理,并没有自己的创造,在传统的书本传播模式下,他们还是有一定价值的,但是在现在通讯网络日益发展的今天,这类工作无疑就是在简单的拷贝组合。
(2) 版本
数字资源版本是从多个不同维度来揭示各种知识的演变、发展和传播等之间的关系,主要体现在:来源、语种、内容变化、形式等多个方面。知识发展之间的关系也从一个重要的角度量化了各种文献更为客观的社会价值。
l 来源揭示的是相同数字资源出现在不同载体和发行范围,比如说一条信息出现在www.sina.com.cn、www.sohu.com等不同网站或者某个数据库中。
l 语种揭示的是同一内容的知识/信息被翻译成不同的语言文字。
l 内容变化揭示的是基本相同的内容被逐步修改的变化。
l 形式揭示的是基于某个相同来源的题材/知识转换成不同的形式,比如说《三国演义》的电影剧本、电视剧或者电影等。
(3) 作者
判断一个知识或者结论的可信赖程度,一个最基本的依据就是作者。因此,对知识贡献者或者转述者的相关信息的揭示,对于读者判断一篇文献的信赖程度是至关重要的。更由于人的发展变化性,作为数字资源的作者支撑体系,更需要记录作者在不同时间的工作和知识网体系等。
(4) 数字化
根据不同的需要,选择文献对象的数字化程度和维度〔10〕。
通过现代数字化记录和还原技术,尤其是数字拍摄设备的普及,可以让更多地个人原来无法用恰当文字记述的某些知识、场景,通过现代数字录音、录像、拍照等方式非常方便和准确地记录下来。当我们选择不同角度将一个文化载体下来本质上就是在进行不同维度的数字化工作,比如说我们可以选择某个角度拍摄文化活动场景,或者古建筑就是在进行某个维度的数字化工作。
(5) 隐性知识
以人经验或者长期实际工作产生的各种专业技能知识,无法用直接显性的方式进行传播。可通过关键技能指标(key competence indicator)方式记录各种专业人员所具备的技能指标,当某个组织或者个人需要解决某个问题时,可以通过系统检索到能够解决制定问题的人员获得解决,除了人以为外,某些工具或者系统都将作为一种知识服务载体建立相关索引。也就是将具有某专业技能的人作为一种专门的知识载体。
将古籍扫描存贮到计算机中后,我们进行了一次数字化工作。如果将扫描到计算机中的古籍图片通过OCR识别成文本后,则又进行了进一步的数字化工作。如果对文本化的古籍进行注释和白话转换等工作,则对这些古籍又进行了一次数字化工作。
每一次数字化工作是为了更广泛地传播知识,然而对于不同的信息需求者,可能要求不同的数字化层次。不如说研究古籍的专家,显然不能满足于识别为简体的文本,而更希望看到扫描,甚至原本;而国内的一般读者,可能更愿意经过白话翻译的古籍。
3、 信息经济模型
只有体现了知识和信息的价值,让知识的创造者或者传播者获得相应的精神和物质激励才能促进知识的创造和传播。信息经济模型所要解决的就是通过合理配置资源,充分发挥信息/知识的效用,比如,通过知识消费者的精神支付如承认引用和知识来源,和经济支付如货币来激励知识创新和传播。〔23〕
由于更加全面、及时地记录知识引用和继承关系,以及微量化、多元化和动态性的数字货币体系〔4〕,可以将以前只是理论探索的信息经济模型〔2〕,逐步变为现实。
4、 数字资源法律模型
与经济正、负激励系统模型配套的是一套与现实法律制度对接的法律系统模型,作为规范各种用户行为的强制配套手段,包括对内容进行自动过滤检查、版权监控、内容阅读权限和时限控制、数字化身份认证和数字签字体系等〔12〕,〔18〕。
网络超越了地域限制,为读者查询共享资源带来便捷的,同时一些不利因素也逐渐暴露出来。例如,地域法律差别可能造成的问题,诸如言论自由限制、诽谤、中伤、淫秽、隐私、仇恨、种族歧视和政府机密的信息〔1〕。因此,一个完善的数字图书馆系统,必须配备必要的自动和人工内容发布监控系统。
5、 管理平台
(1) 索引服务器
多种分布在各地数据中心服务器中的索引服务器,提供的检索形式包括:
l 特征限定检索,如题名、责任者、分类、主题等;
l 对多媒体文档建立元数据索引〔9〕;
l 更全面的全文检索,如词形、字型、语音、概念〔8〕、知识架构等。
(2) 内容检索服务器
内容索引相当于通常的全文索引,但比目前市面上流行的全文索引,作了较大扩展和界定。内容索引包括了:字形、词形、概念、语音、知识含意、问题、图形和音乐等。
字形包括了文字的笔划、笔画、偏旁,词形相当于任意组合字符串检索。
概念则是人们已经约定俗成的字串,比如说我们用“马克”作为词形检索时,可以检索出作为货币或者人名的“马克”,同时还可能检索出“马克思”、“马克西姆”等完全与“马克”这个词无相关意义的字串。但是如果用概念检索则,只会出现作为货币名称的“马克”或者人名的“马克”。如果作为知识含意检索时,则只检索出与预定含意相符的词,比如说作为货币名称的“马克”,则不应该检索出作为人名的“马克”。
问题检索采用的是目前一些优秀的软件帮助系统同样的机制。检索者既可以分类浏览问题,也可以输入若干个关键词挑选出相关问题在选择问题的方式,然后通过选择问题而获得答案。在选择其他相关或支持文献。
图形和音乐索引则是通过多个预定维度的归类选择组合进行检索。
(3) 资源和事务调度服务
索引服务器检索到数字资源后,必须通过数字资源调度服务以及用户事务调度服务获得最终的数字资源。
(4) 数据网关
为访问本系统之外分布在网络上的各种数据资源,实现与各种信息资源服务程序对接的访问服务智能代理〔21〕服务程序。
(5) 资源发布
提供多渠道的信息发布服务,如互联网、移动信息终端、语音终端、电视/电话图文终端等。
(6) 客户端服务
安装在客户端的一个数字资源管理引擎,实现读者的自助服务。
(7) 管理员平台
一个支持数据库管理员(DBA)维护数字资源管理系统的工作平台,主要负责数据字典、元数据、用户管理、系统调优和数据备份等工作。
(8) 应用开发平台
一个集成的、基于数字资源管理系统之上的应用软件开发平台。
6、 数字资源应用系统
一个在传统图书馆自动化系统基础上增加了数字资源管理的图书馆信息管理系统,主要包括信息采集,分编和读者服务等功能。
7、 读者服务系统
一个以读者为中心〔13〕的个人化数字图书馆系统,基于读者的个性化特征,以“服务”为宗旨,包括,信息采集、分编、阅读支持工具。以特定的读者为中心建立多种信息浏览和检索手段〔16〕。
面向读者的知识展现,为更有效地传递和转移知识,必须根据不同人的知识背景,采用不同的表达方式表达。同样的内容,在不同场景下,面对不同的人,应该采用相应的表达方式,提高知识传播的效率,通过对比目前市面上一些电子书和为了便于携带缩小印刷书籍看,很多做书籍的人并不是为传播知识而出版,而是仅仅为了存贮文字的印刷,也就是非常明显地不知道同样内容,如果呈现方式不同,读者所能获得结果有非常大的差别。比如,我们看到的表格形式和图形形式,或者另外的文本形式,他们从内容的角度看,可以是完全一样的数字/文字,但是给阅读者造成结果有着极大差别。正如“屡战屡败”和“屡败屡战”一样,虽然说陈述的事实是一样,但对接受者的心理印象完全不同。
四、 进一步发展展望
1、 信息对象资源工作流
(1) 一个不断改进和发展的工作流系统
一个网络化的协同工作资源加工系统,在初始定制加工模型的基础上,利用一个评价函数分析各个加工环节实际运行的机构,尤其是追踪读者的反馈信息,实现一个不断改进的资源加工流程〔6〕,〔7〕。
(2) 隐性知识开发
利用计算机支持下协同工作环境,可以最大限度地通过网上交流,开发保存在普通专家脑中的实际经验知识,即首先利用电脑搜集分散的知识片〔15〕,包括文字、语音和录像等形式,通过一个加工流程逐步对这些知识进行加工。
对读者利用知识行为的分析也是隐性知识开发的一个重要渠道〔17〕。
2、 人机协同智能
(1) 外脑库
根据每个人的动态知识结构,结合个人的发展和工作目标,提供一个配套的个人外脑库和知识网络〔14〕。
(2) 个人数字神经系统
与企业/组织的数字神经网络〔5〕对应的个人数字神经网络系统,包括将最新的社会数字信号传送给个人以及个人的行为反馈信息传送,根据反馈信息不断调整,改进,从而促进读者知识结构和能力增强。
参考文献
1 [美]William Y. Arms.著施伯乐 张亮等译. 数字图书馆概论 电子工业出版社 北京 2001
2 马费城.信息经济学. 武汉大学出版社武汉 1997
3 董晓英. 网络环境下信息资源的管理与信息服务.中国对外翻译出版公司 北京,2000
4 刘明晶 刘政权 数字化货币 海天出版社 深圳 1999
5 比尔•盖茨 未来时速 电子版下载自 http://www.ebook007.com/
6 Stefan Jablonski, Christoph Bussler, Workflow Management – Modeling Concepts, Architecture and Implementation, International Thomson Computer Press, 1988
7 史美林等著 计算机支持的协同工作-理论与应用 电子工业出版社 北京 2001
8 Chinatsu Horii, Masakazu Imai and Kunihiro Chihara, An Information Retrieval Using Conceptual Index Term For Technical Paper on Digital Library, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
9 Jongpil Yoon, Sung-Hyuk Kim,Sang-Wan Han A Multimedia Document Retrieval Technique in DigitalLibraries, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
10 Terry Kuny , An Introduction to Digitization Technologies and Issues, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm, October 1, 1995
11 Maria R. Lee, Context-Dependent Information Filtering, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
12 Duane E Webster, Copyright, Libraries, and the Electronic Information Environment: Discussions and Developments in the United States, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
13 Y.T. Chien, Digital Libraries, Knowledge Networks, and Human-centered Information Systems, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
14 Gary M. Olson and Daniel E. Atkins,Directions in Knowledge Networking: Advances and Opportunities, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
15 Francis L. Miksa and Philip Doty,Intellectual Realities and the Digital Library, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
16 Robert B. Allen Bellcore, Navigating and Searching in Hierarchical Digital Library Catalogs, http://202.117.24.173:808/ dlib/ires/dlibrary/dlibrary.htm
17 Kate Ehrlich,Debra Cash,Turning Information into Knowledge: Information Finding as a Collaborative Activity,http://202.117.24.173:808/dlib/ires/dlibrary/dlibrary.htm
18 Graham P Cornish,Electronic Copyright Management Systems: Dream, Nightmare or Reality? ,http://202.117.24.173:808/dlib/ires/dlibrary/dlibrary.htm
19 Emanuella Giavarra, European Copyright User Platform,http://202.117.24.173:808/ /dlib/ires/dlibrary/dlibrary.htm
20 Abdus Sattar Chaudhry, Exploiting Network Information Resources for Collection Development in Libraries,http://202.117.24.173:808/dlib/ires/dlibrary/dlibrary.htm
21 William P. Birmingham,An Agent-Based Architecture for Digital Libraries,D-Lib Magazine, July 1995
22
William Y. Arms,Christophe
Blanchi,Edward A. Overly,An
Architecture for Information
in Digital Libraries,D-Lib Magazine, February 1997
23 William Y. Arms,Internet Publishing and Beyond: The Economics of Digital Information and Intellectual Property,D-Lib Magazine February 2001
作者简介:83年起一直从事应用和系统软件开发工作,主持设计和组织实现过多个大型软件系统如,ILAS(88-90),网上银行系统(94-96),COBOL编译系统(92-93),排版系统(93-94),综合银行业务系统(98-99),办公自动化系统(97-98),CRM系统(99-00),数字图书馆系统(01-02)。参与开发了大型数据库管理系统(UniData)中的核心检索系统(91-92)。
e-mail:peter.liu.mj@gmail.com