电子文件长期保存格式探析

来源:岁月联盟 作者:毛义春 时间:2014-03-26

  电子文件格式是指将信息以某种格式进行编码,而且只有依靠特定组合的软硬件方能对文件实施读写操作。随着信息化建设的发展,已有的电子文件格式很多,新的格式也不断产生。因此,为了确保电子文件的长期存取,档案部门作为永久保存电子文件的基地,应采取各种措施积极应对这种挑战。
  
  一、电子文件内容、形式及常见的格式
  
  电子文件是指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。它主要包括电子文书、电子信件、电子报表、电子图纸等等。按载体划分,可以把电子文件分为光盘文件、硬盘文件、软盘文件和磁带文件;以数据的表现形式为划分标准,有字符文件、表格文件、图文混排文件、数据库文件、图形文件、动态影像文件与声音文件等;以属性为划分标准,数据库文件又有FOXBASE(动态数据基地)数据库、FOXPRO(“京通”软件应用的)数据库、ACCESS(通路)数据库、ORCAL(“灵通”软件应用的)数据库等。
  按电子文件的格式划分,有数字文本文件 、数字影像文件、数字图形文件、数字语音文件、数字视频文件。文本文件常见格式有XML、TXT、UOF、RTF、WPS、PDF/A、CEB、SEP;图像文件常见格式有TIFF、JPEG2000、JPEG、GIF、PNG、DjVu;音频文件常见格式有WAV、MP3、WMA、OGG Vorbis 、FLAC;视频文件常见格式有AVI、MOV、MPEG等。
  
  二、电子文件长期保存格式选择存在的问题
  
  选择专用媒体或是专用存储格式将来会导致数字存储问题,例如媒体格式。选择专用媒体格式存储电子文件,必须考虑将来该格式的过时问题。再例如文件格式。为了确保电子文件的长期存取,如果采用专用的文件格式,会由此增添更大的复杂性。专用软件的应用常常升级至最新版本,然而软件的功能却没有像版本变化那么明显。随着时间的过去,文件格式累积的变化更为显著,甚至危及格式逆兼容。对遗产软件的维护显得很急迫,但是存在的问题颇多。就像应用软件一样,操作系统也得定期升级,随着系统基本体系结构的发展,将来不再支持遗产软件,不对遗产软件支持就意味着产生新的安全问题的风险也在增加。
  
  三、电子文件长期保存格式的选择标准
  
  1、按格式种类分析
  要作为文本型电子文件的归档格式,马春茂①认为应该符合下列条件:(1)应该是公开的格式,不依赖特定的系统和软件存在,能够在可以预见的时间内被正常读取;(2)应该保持文件生成时的排版格式,即使经过办公软件的不断升级,也能输出同纸质文件一样的格式;(3)应该便于数据交换、便于查找和检索;(4)应能保证电子文件在处理过程中不被篡改和窃取。
  为了对数字资源实施长期保存,对保存图像格式的选择尤其重要。叶新民②认为应满足格式使用的标准化和广泛性;格式应是公开的,而非私有的,而且应公开已出版的技术资料;格式应支持元数据;格式应对存储介质无依赖性等要求。
  对于数码录音的电子文件长期保存格式,张文浩③认为应支持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬件、格式自描述、格式自包含、易于存储、格式紧凑、信息安全、代价最小等要求。
  数字摄像(DV) 、数字电视(DTV) 和网络视频系统的广泛应用以及对现有模拟视频的数字化, 视频电子文件的数量和类型不断丰富。项文新等④提出从保证视频文件的原真性和档案保管利用的便捷性出发选择合适的视频电子文件归档格式,认为视频电子文件应尽可能保证视频文件的原真性。
  2、综合性分析
  对于长期保存人类文化遗产的档案馆、图书馆, 最关心的是数字信息的内容不得丢失。刘家真⑤针对电子文件保存格式的选择问题,认为该格式能在不同的环境下使用;应是通用的、非专用的格式;支持数据从专用格式的环境中移出;最好是标准格式;被业界或用户广泛支持;具有可扩展性;可真实完整地被用户读出并理解, 无论何时何地, 用户所查到的该文件信息都与该文件最初情况完全一致;具有自身的可证明性;具有可评价性。
  档案是历史的真实记录,具有凭证价值与情报价值。李泽锋⑥认为档案数字化过程中选用电子文件格式应考虑:保持档案原貌,利于网络平台下的传输交流,具有一定的标准性,具有较好的通用性和可移植性,选用电子格式的支持软件应支持数据从专用格式中方便地移出。
  为了应对电子文件长期保存的需求,Adrian Brown⑦对电子文件长期保存格式的选择标准进行了积极的探讨,认为应具备开放标准、普遍性、稳定性、对元数据支持、互操作性、可生存性、真实性、可处理性、固定显示等9个条件。
  3、笔者的理解
  电子文件的格式选择是由电子文件创建过程的操作要求和电子文件长期存取的要求所决定的。综合各位学者的观点后,笔者认为电子文件长期保存格式的选择标准应具有以下几点:(1)开放性。格式开放,有公开发表的相应标准和技术规范,有与产品无关的技术专家组和标准化组织支持该格式。(2)标准性。该格式被广泛使用,具有自由使用的技术规范,可转换性高,支持保存元数据。(3)稳定性。不会随着时间的推移而作重大的变更,而且新版本的格式也应该能够做到逆兼容。(4)广采性。数字格式的广采性包括个人电脑随机软件包、Web浏览器的本地化支持、数字产品格式易转换等。软件厂商对创建良好和广泛使用的格式往往要比仅仅瞄准新市场的格式具有更宽泛和更长久的支持。流行格式会尽可能多地受到软件厂商的支持,人们可能更喜欢采用。(5)软硬件平台的独立性。被多种操作系统和应用软件支持。支持多种存储技术,或与存储技术无关。当用户不能使用指定产品软件时,可使用已有的插件读取。使用与设备无关的颜色规范实现准确打印和再现,不必考虑软硬件平台。(6)真实性。电子文件的真实性要求保留“原貌”(例如字体、颜色和外观),数据迁移要求选取的文件格式能够保留文件“原貌”。(7)可利用性。要确保电子文件可读、可利用。
  
  四、几种适于长期保存的电子文件格式
  
  1、 PDF/A格式
  PDF格式规范已经公开,并可免费获取,具有广泛的支持性。该格式具有与平台、字体无关的特点,解除了电子文件与操作系统的依赖关系,用户可以通过它的通用浏览器Adobe Reader在Windows、UNIX、Mac等任一系统平台上原版原式地读取PDF文档,不受操作系统、网络环境、应用程序的版本、字体的限制,从而从电子文件自身的角度保证了电子文件的可读性。PDF格式所具有的高度兼容性使用户可以轻松地将任何文档原版原式地转换成PDF文档,进而固化信息,使之不易更改,保持了原文档信息内容和结构的完整、真实,为不同软件生成的电子文件提供了一个可完整迁移其信息内容的统一文件格式。PDF/A-1a实现了对文档逻辑结构的保存和以自然阅读顺序保存文本。PDF/A-1b可实现对文本和附加内容的正确显示。在各国政府机构包括美国、英国、德国、新加坡、印度、澳大利亚等的电子政务领域中,PDF格式也被广泛应用。综合来说,PDF/A格式的特点是支持数字签名、格式开放、不绑定软硬件、格式自包含、格式自描述、固定显示、不包含加密、可向其他文本格式转换等。
  2、TIFF格式
  TIFF(标记图像文件格式)是由Aldus和Microsoft公司为桌面出版系统研制开发的一种灵活的位图图像格式,用于应用程序之间和计算机平台之间交换文件。实际上已被所有绘画、图像编辑和页面排版应用程序所支持,而且几乎所有桌面扫描仪都可以生成TIFF图像。TIFF支持多种编码方法,其中包括RGB无压缩、RLE压缩、LZW压缩、ZIP压缩、CCITT压缩等,6.0版本又增加了JPEG压缩选项。TIFF 格式由于存储图像质量高非常有利于原稿的复制。另外,所有绘画、图像编辑和页面排版应用程序以及大多数扫描仪对TIFF 格式都提供良好的支持,这使得TIFF格式成为数字图像处理的最好选择。

图片内容