对古籍数字化进程中若干问题的思考

来源:岁月联盟 作者:叶莉 时间:2014-06-25
  [摘 要]古籍数字化是伴随信息技术的进步而发展起来的一个新领域,它与古籍整理、文献保护、文化传承紧密相关。本文从古籍数字化的概念谈起,介绍了目前中文古籍数字化工程的现状,并针对古籍数字化进程中所存在的一些问题进行了思考和论述。
  [关键词]古籍数字化
  
  数字图书馆和大型电子文献资料库的开发和建设,近年来逐渐成为图书馆界和相关技术部门的一个热门话题。在这个话题中,古籍数字化也得到了高度重视。同时,科技的迅猛发展,促使电子产品日趋成熟和完善,数字化的电子古籍文献由此而生。
  1 古籍数字化概述
  古籍数字化是利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,并通过光盘、网络等介质进行保存和传播。随着数字技术及存储技术的不断完善和提高,古籍数字化将成为古籍整理和传播的未来发展方向,它除了有利于推动学术研究的良性发展以外,在加强文化遗产保护尤其是保存古籍善本方面也有着光明的前景和难以替代的功能。
  据有关专家测算,善本古籍每经人工翻阅一次,其寿命就要缩短30年左右。而由于技术方面的限制,以往保护古籍、减少阅读破损的方法便是拍成缩微胶卷。这种方式诚然对古籍善本的保护有着重大贡献,在一定程度上也加大了古籍善本传播的范围,但其缺陷也是有目共睹的,尤其是遇到那些翻拍抄写或刻印质量较差的书籍制成的胶卷,往往令人由于字迹模糊而望书(胶卷)兴叹,而在大屏幕显示器上阅读高分辨率的数码照片则不存在这样的问题。古籍数字化的处理方式多种多样,即使用最简单的方法——把用数码相机处理的古籍善本页面放在网上供读者随时调阅,也能大大节约社会成本和读者的时间和精力,既有利于保护古籍,也有利于使这些难得一见的稀世珍品得到广泛传播。所以,古籍数字化是古籍再生性保护的重要手段,与传统以古籍修复为主的延缓性保护法相辅相成,较好地解决了古籍保护与阅读使用之间的矛盾,极大地提高了工作效率和读者的资源利用率。
  2 蓬勃发展的古籍数字化工程
  目前,国内的古籍数字化工作主要依赖于学术研究机构(如社科院文献信息中心),学校(如北京大学),专门技术公司(如超星、北京书同文),出版社(如迪志、汉文化联盟),公共图书馆(如北京图书馆、上海图书馆),并且已经有了不少优秀的成果问世。目前正在开发的古籍数字化相关工程主要包括:
  (1)《中华再造善本》工程。以抢救、保护和发掘古籍善本为宗旨的《中华再造善本》工程为国家重点文化工程, 2002年 7月正式启动。该项工程通过对珍稀善本的“再造”,使之化身千百,分藏于各地,从而确保珍贵文献的传承安全并扩大流通,促进古籍善本最大限度的传播和利用。截至2008年,《中华再造善本》一期收录唐宋金元时期善本758种,29种二期工程“明代编”“清代编”的古籍也完成了试制。《中华再造善本》已初步实现了立项时“继绝存真、传本扬学”的目标。
  (2)中国数字图书馆工程(http://www.nlc.gov.cn/)。该工程由中国国家图书馆倡议于1998年,2001年10月经国务院批准正式立项。其工程的重要内容之一就是发掘历史遗产,目前已开发出包含甲骨文、碑帖等图文数据库。
  (3)北京大学 “中国基本古籍库”光盘工程(http://www.cn-classics.com/default.htm)。该工程1998年正式启动,全套光盘库共500张,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1~2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。
  (4)汉文化联盟 “汉文化资料库”工程(http://www.hanculture.com/)。内容涵盖历代重要古籍,按照经、史、子、集进行分类,精选底本勘校而成。与单纯的全文检索不同,资料库中包含《龙藏》(部分)、《历代书法全集》(图、文)和“汉文化考证检索系统”,极富特色。
  (5)台湾典藏数字化计划(http://digiarch.sinica.edu.tw/)。该计划于2001年启动,参加机构有台湾“中央研究院”、台湾“故宫博物院”、台湾“历史博物馆”、台湾大学等。目前已建立台湾原住民数字典藏、台湾史前及17世纪考古遗址出土文物、中原考古遗址出土文物、历史地图遥测影像及航照图、历代传世文献、近现代名人知识库、汉籍全文数据库等人文与自然等方面的高质量的内容。
  (6)中国历史地理信息系统(http://yugong.fudan.edu.cn/)。由中国复旦大学历史地理研究中心、美国哈佛大学、哈佛燕京学社、澳大利亚格林菲斯大学亚洲空间数据中心等机构合作开发。项目目标是建立中国历史时期基础地理信息系统数据库,使其成为中国历史GIS数据的基础平台。这是一个研究性、工具实用性都很强的开发项目,与单纯的把古籍转化成图片或检索文本的数字化不同,也显示出另一种古籍数字化的发展方向。
  (7)“国际敦煌学”项目(http://idp.bl.uk)。1993年由英国图书馆开发。项目中包括英国(并计划扩展到世界范围内)的敦煌文献数字化。目前可在线上查看英国图书馆收藏的30 000余件中亚写本和印本文件以及15 000余件残片的高质量彩色图片。
  (8)“古藤堡计划”(http://promo.net/pg/)。由美国伊林诺斯大学文理学院米歇尔•哈特倡议,始于1971年。计划对世界上的一些经典古籍进行数字化,其中包含了中国经典文学、历史和地图等方面书籍和资料的数字化内容,如《论语》《桃花源记》《三国演义》等。其中国境内访问的镜像站为ftp://ftpbook.dhs.org/mirrors/gutenberg/。
  此外,像超星数字化图书馆和一些公共图书馆也在其电子图书中不断增添新的古籍,一些古籍研究机构和个人也在工作中将相关文献变成电子文本,这也是古籍数字化队伍中不可忽视的力量。
  3 在古籍数字化处理过程中需注意的若干问题
  毫无疑问,古籍数字化的最终目的是更大范围、更便捷、更有效地让古籍文献为人们所利用。然而,由于用户群体的不同,其需求也存在较大差异,因此这个“用”也显示出不同的层次。为了满足多层次、多方面的需求,我们在研制和开发检索快、功能全、质量高的古籍数字化产品时,必须要注意以下几个问题。
  3.1 制订并规范古籍数字化的元数据标准
  元数据在不同的领域有着不同的定义和应用,在图书馆界和信息界被定义为:提供关于信息资源或数据的一种关于结构化的数据,其功能为描述数据本身之特征或属性,用以规定信息的组织结构,便于对数据进行标准化处理,也为与其他信息系统的对接和共享数据提供必要的接口。但由于古籍整理和古籍数字化属于比较特殊的种类,规模相对较小,目前尚无相关标准。因此,从事古籍数字化的图书馆必须主动与IT领域联合,共同制订并规范元数据标准。包括:1)版本信息,如版本类型、年代、版式、字体、刊刻地点、刻工姓名等;2)收藏信息,如该文献收藏于哪个或哪些图书馆,以方便那些从事版本学研究的专家到馆查看实物;3)作者信息,古籍数据库应该对其中的作者进行严格的辨析并提供相应信息,包括作者姓名、朝代、生卒年、籍贯、著述等;4)作品信息,如作品的作者、体裁、创作年代、字数等,便于读者统计、分析。

图片内容