从档案学视角看网站文件的归档

来源:岁月联盟 作者:周文佳 张宁 时间:2014-04-25
  随着电子商务和电子政务的兴起,政府和企业以及其他机构纷纷建立自己的门户网站,将现实机构虚拟化,通过网站发布信息,提供服务,实现其管理和服务职能,极大地提高了办公效率,增强了办公的透明度。网站已经成为机构在网络空间开展业务活动的主要平台,网站开展业务活动的过程中形成许多具有原始记录性的电子文件,这些网站文件对于组织机构和人类社会来说都具有重大的意义。
  网站文件是指组织机构在处理业务活动过程中,通过网站形成的、具有原始记录性的电子文件,包括网页、后台数据库文件、程序文件等。网站文件能够真实地反映出组织机构通过网站进行的业务活动的轨迹,具有凭证价值和情报价值。
  
  一、网站文件归档的必要性
  
  网站文件是社会活动中直接形成的原始性信息记录。对于组织机构来说,网站文件是组织机构在进行业务活动的过程中直接形成的原始记录,属于组织机构活动的证明。对于整个社会来说,网站文件是构成社会记忆的重要组成部分,是沟通历史的桥梁,具有历史性。但网站文件具有更新快、寿命短以及惟一性的特点,这就使得网站文件的保存必须要及时、可靠。
  
  二、网站文件归档的可行性
  
  就世界范围来看,由图书馆来承担的网页收集项目对网页的捕获、归档、存储都进行了研究,并在实践中取得了可喜的成绩,但是鉴定的角度不同,图书馆更加关注的是网页的文化价值,而忽视了其原始记录性,对于元数据捕获也没有给予足够的重视。笔者认为,网站文件归档的任务应当由档案部门来承担,档案学理论可以借鉴到网站文件归档中来。
  1、电子文件管理对网站文件归档的借鉴意义。网站文件本身就属于电子文件的范畴,可以按照电子文件的管理方法进行管理,网站文件的生成、发布、捕获、归档、利用是一个完整的运动过程,应当对其全程控制,不仅保存网站文件本身,还要连同元数据、变化日志、插件程序等一起保存,才能保证网站文件的真实性和完整性。
  2、来源原则对网站文件归档的借鉴意义。面对浩如烟海的网站文件,最好的方式就是以网站为单位进行保存,同一个网站的所有网站文件保存在一起构成该网站的“全宗”。网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏。目前美国的互联网档案馆(Internet Archive)已经体现了“来源原则”。
  3、档案鉴定理论对网站文件归档的指导作用。早在20世纪80年代,法国档案学者罗尔德·瑙格勒提出了电子文件的“双重鉴定论”①,一方面要判断电子文件信息的有用程度,另一方面要判断电子文件有用程度实现的可能。网站上的信息以多种格式存在,并且具有多种表现形式,需要从技术上判断其有用程度实现的可行性。对于网站文件内容上的鉴定,可以借鉴加拿大档案学者特里·库克(Terry Cook)的“宏观鉴定战略”,从能否反映该机构的职能,能否反映当时的社会环境,能否满足人们的社会期望等角度进行鉴定。
  4、档案部门理应承担网站文件归档的责任,由机构档案室对本机构网站包括内联网和外联网上的网站文件进行归档,公共档案馆对所有的公共网站上有价值的文件进行保存。
  
  三、网站文件的归档策略
  
  1、网站文件归档范围的确定
  并非所有的文件都成为档案,同样,并非所有的网站文件都具有长期保存的价值,因而需要制定一个策略决定哪些需要归档,需要保存多长时间。
  从内容上来看,有两种基本的收集方法:广泛收集法(comprehensive approach)和选择收集法(selective approach)。广泛收集法是通过自动捕获软件收集网络上的一切资源。②选择收集法由人工进行鉴别有价值的文档然后再进行收集。③。
  从技术上来看,应当归档的文件包括:系统软件、自动化软件的结构文件、日志、cookies、索引、图形、文本、出版物、图像、音频、视频。
  2、网站文件的捕获策略
  捕获策略取决于网站的类型和复杂程度,最常用的两种捕获方式是:对象驱动法(object driven strategy)和事件驱动法(event driven strategy)④。适合于由HTML文件构成、不能实现交互功能的网站。事件驱动法主要是捕获网站和用户之间发生的事件或事务,适用于数据库驱动(database-driven)的动态网站。两种方法的最大不同就是着眼点不同,对象驱动法关注的是构成网站文件的对象,而事件驱动法关注的是网站和用户之间的单独的一个事件。
  以上两种方法讲的是什么元素需要捕获,并没有说明捕获时间。捕获的时间取决于网站变化的范围和频率。网站更新存在以下四种情况:(1)经常更新,更新间隔的时间是三个月以内;(2)不经常更新,更新间隔的时间是三个月以上;(3)有规律地更新,按照计划有规律地进行变化(例如一周一次,一天两次);(4)不规律地更新,没有按照计划进行更新,更新时间比较随意,更新间隔的时间也是不确定的。按照以上四种变化情况,网站可以分成以下四种类型:规律且经常更新的网站、规律但不常更新的网站、不规律但经常更新的网站、既不规律也不经常更新的网站。捕获网站文件的时间是由网站的变化情况来决定的,跟踪不规律但经常更新的网站难度很大。
  3、网站文件的保存策略
  由于计算机软件和硬件的不断更新,今天还存在的电子文件十几年或几十年后未必能够读取。除了HTML文本文件属于非专利的形式外,网站上包含许多专利格式,例如,Java程序、ActiveX程序、.jpg格式文件、gif格式文件、.tiff格式文件等都是网站的构成要素,所以仅保存HTML文本文件是远远不够的。网站的内容、结构、背景都要保存,脚本程序(Script)和插件程序(plug-in)也需要保存,对于网站文件来说,元数据和数据同样重要。
  网站文件的保存方法主要有数据考古(Data Archaeology)、仿真法(Emulation strategy)和迁移法(migration strategy)。数据考古是由格拉斯哥大学的Seamus Ross 提出的一种方法,也叫数字考古(Digital Archaeology)⑤,是将在当前软件下生成的且以当前格式保存的电子文件移动到电子文件管理系统中,直到将来利用的时候才将其转移到新技术环境下。仿真法是指用一个计算机复制另一个计算机的运行活动的过程,仿真计算机能够逼真地模拟原始计算机,并将其取代⑥。迁移法指的是把数据从一种过时的数据格式移动到当前使用平台,例如将word97格式保存的文件移动到office2007软件平台中。与数据考古和仿真法相比,迁移法在实际中的应用更为广泛。数据考古只能作为一种短期战略(大约五到十年),并非长久之计,而仿真法仍然处于理论探索阶段,并且对技术具有很强的依赖性。所以,迁移法是目前惟一的长久保存方法。⑦
  
  四、网站文件归档存在的问题
  
  虽然网站文件归档的项目已经展开,人们对网站文件的关注程度逐步上升,但是目前网站文件归档尚处于探索阶段,仍然存在许多问题,尤其是国内网站文件归档的有关研究还是相对滞后的。
  1、动态网页的捕获问题
  动态网页一般都有后台数据库做支持,具有很强的交互性,网页会根据用户的要求和选择而动态改变和响应,用户的客户可以在网站上留言发表疑问、建议和意见等。动态网页的组成要素(内容、结构、背景)都是通过数据库自动生成新的页面,无须手动更新,例如在线采购系统、商务交流系统中的订单都是自动生成的。

图片内容