对古籍数字化进程中若干问题的思考

来源:岁月联盟 作者:叶莉 时间:2014-06-25

  3.2 统一古籍数字资源的文件格式
  目前用于存储古籍数字资源的文件格式有纯文本(txt)、超文本(html)、便携式文档(PDF)、电子书e-book(CEB)、超星图书(PDG)等,名目繁多,甚至有些从事古籍数字化的专业机构或公司出于产权保护的需要自行开发数据系统并制订相应的文件格式。这无疑对数据共享是一个极大的障碍。因此,从古籍数字化的长远目标来看,我们应当统一其文件格式,这种格式既要适合汉字尤其是繁体字的存储,又要具备足够强大的加密功能,以保护各自的知识产权。同时,为保证数字化古籍的科学、严谨、规范,这种文件格式还应该能够方便地进行汉语拼音标注和人名、地名标记。另外,这种文件格式应有利于进行全文检索,并能够对检索出的字词予以凸显或标记。
  3.3 建立完善的汉字字符代码集
  汉字种数约有十万左右,其中常用字不过三四千,绝大多数字属于僻字,而这些不常见的僻字是计算机无法识别的。因此,在古籍整理及数字化处理过程中遇到无法录入的僻字时,常常用方框、黑块等符号表示空缺,或者用数字代替,链接到字形图片,或者说明偏旁的上下左右内外等,这就给阅读造成了极大障碍。目前,《国家“十一五”时期文化发展规划纲要》在“重大文化产业推进项目”中列有“中华字库”工程——建立全部汉字的编码和主要字体字符集,希望能够解决此类问题。
  3.4 尽量找 “全”、找“准”古籍文献
  以《国学宝典》为例,目前收录的电子文献已经不少,容量相当可观,但仍遗漏了许多应该收录的内容。比如“宋初四大书”,其他三种都已收录,唯独文学价值最高的《文苑英华》未收。又如,诗话类著作收了一些,但重要的《沧浪诗话》却未收录,尤其是别集类文献。对于研究者来说,事实上别集往往比总集更重要、更有用。总集通常用以检索,别集则是阅读和研究的依据,但大量收入别集,靠目前的录入法是很难实现的。可行的办法是挑选别集善本,尤其是经今人精校、精注的别集,通过扫描加以“复制”,就能又快又好地解决这个问题。
  3.5 建立功能完善的古籍全文检索系统
  古籍数字化最大的优势在于能够进行检索,所以有一个功能完善的检索程序是古籍数字化建设的重要标准。
  (1)检索速度要快。在几秒钟之内,应列出关键词所在页面的所有条目,并按一定顺序排列。
  (2)检索系统要符合学科特点。如上海人民出版社出版的《文渊阁四库全书》,在其电子版中若要查找宋代书法家、诗人黄庭坚的资料,由于黄庭坚自号“山谷道人”,而古人习惯上称号而不呼名,又经常省略姓氏,所以在进行关键词检索时,不仅要将“黄庭坚”作为关键词检索,更要以“黄山谷”和“山谷”作为关键词。当在这套电子版《文渊阁四库全书》中以“山谷”作为关键词搜索正文时,系统反馈8 592条信息,但其中有价值的信息不足十分之一。因此,在系统开发过程中,一定要有专业学者的深度参与,如对准备导入数据库的文献进行专业加工,对文献中出现的相关人名、地名进行必要的标注等。
  (3)满足多条件检索。古籍专家学者或古籍爱好者在互联网上搜索其所需的古籍资源时(特别是精确查找),往往需要选用能同时满足多条件查找的复合检索方式(比如按朝代、作者、文体……),即“A+B+C+……”条件组合检索,这些功能在学术研究上都是非常有用的,只可惜目前现有古籍软件的检索功能较单一,难以做到精确检索。比如电子版《文渊阁四库全书》有“与”“或”“非”三种组合选项,但当软件把“与”“或”“非”的出现条件限定在“一卷”而不是“一个页面”的范围时,“与”“或”“非”的检索基本上无意义。又如“中国基本古籍库”提供按朝代检索的功能,但一次只能选一个朝代,不能同时多选,使用起来也不方便。
  (4)检索结果应显示详细出处并能复制。一条完整的出处应包括作者、作者所属朝代、书名、卷数、篇名五项信息,这样的出处才符合学术需要,然而目前还没有符合这一标准的电子古籍。“中国基本古籍库”5.0以前的版本没有出处复制功能,最新的6.0版能在检索到的条目页面下显示出处,并提供出处复制,但只有书名和卷数,过于简单,使用者还得通过翻检补充朝代、作者、篇名等信息。
  3.6 合理选题、优化资源是建设高学术水准古籍数据库的质量保证
  由于没有统一规划,目前的古籍数字化成果能对历史和古代文学等学科发展有重要影响的数据库尚不多见。因此,建设一系列具备较高学术水准的专题数据库是未来古籍数字化的发展方向。中国社会科学研究院文学研究所数字信息室正在进行的“元代文献数据库”和“《红楼梦》研究资料数据库”正是根据这样的理念立项并建设的。这类数据库由于有相关专家学者的深度参与,可以保证在学术层面上达到较高水准。它不仅仅只提供检索功能,而首先是把这个领域或这个专题所涉及的文献全部网罗进来,在此基础上对文献作了必要的深加工,这将大大提高古籍数字化的建设质量及使用效率。
  [参考文献]
  [1]段泽勇.古籍数字化的回顾与展望[J].图书馆理论与实践,2004(2).
  [2]龚娅君.古籍文献数字化建设的几点思考[J].现代情报,2008(12).
  [3]毛建军.国外中文古籍数字化资源概述[J].数字图书馆论坛,2006(12).

图片内容