电磁脉冲生物学效应共享数据库元数据标准参考框架的研究

来源:岁月联盟 作者: 时间:2010-07-12

             作者:白玉祥,徐勇勇,杜晓晗,李静

【关键词】  电磁脉冲;数据库;元数据;数据字典

  Establishment of a metadata standard reference frame for sharing database on biological effect of electromagnetic pulse

  【Abstract】 AIM: To establish a metadata standard reference frame for sharing database on biological effect of electromagnetic pulse (EMP). METHODS: In accordance with international and national standard basic form of metadata and in combination with the noun, terminology and information code standard of biological experiment, a metadata standard reference frame was established. RESULTS: The first level of metadata frame was composed of sign information, acquisition information, administration information, description information, visit information and metadata administration information. And description information was composed of leading unit information, range of time, experimental parameter information, tried object information, experiment design information, observation index information and statistical analysis information. CONCLUSION: The metadata standard reference frame could not only serve the sharing database of EMP biological effect, but also provide the specification of sharing data for other largescale researches.

  【Keywords】 electromagnetism pulse; database;metadata; data dictionary

  【摘要】 目的:建立电磁脉冲(EMP)生物学效应共享数据库元数据标准框架. 方法:参照元数据(metadata)的相关国际和国内标准基本格式,结合生物学实验的名词、术语、信息代码标准. 结果:一级元数据框架由标识信息、采集信息、管理信息、描述信息、访问信息和元数据管理信息六方面的内容组成. 其中描述信息由负责单位信息、时间范围、实验参数信息、受试对象信息、实验设计信息、观察指标信息、统计分析信息七个元数据实体组成. 结论:本研究所探讨的元数据标准参考框架不仅能够服务于EMP生物学效应的实验数据库共享,也可为其他大型研究信息共享提供元数据规范.

  【关键词】 电磁脉冲;数据库;元数据;数据字典

  0引言

  电磁脉冲(EMP)生物学效应的研究需要大量动物实验和医学观察数据的支持,由不同单位各自组成若干个实验分课题组,进行不同方面的研究. 大量实验数据分散在不同单位、不同实验者手中,造成了数据流通不畅、无法共享的局面,也为整个研究的进展造成巨大的障碍. 由于这些数据往往是相互关联的,例如在相同实验参数条件下,实验动物不同系统、器官在结构、功能、代谢方面的改变. 这样,就需要一个数据平台把所有实验数据(包括相关的图片、资料等)集中管理,以利于检索、查询、更新和统计分析. 为了使平台数据库的内容能够为所有EMP生物学效应的研究者提供数据服务,必须采用元数据(metadata)来描述信息资源的属性[1],并应用资源描述框架(resource description framework,RDF)作为携带元数据的工具实现信息交流和资源共享[2].

  1材料和方法

  1.1材料由于EMP实验研究均在同一实验环境、相同的实验参数条件下,各个实验小组统一进行,再各自研究实验对象不同脏器在结构、功能、代谢等方面的变化. 本研究的实验数据在某些方面,例如:实验参数、受试对象、实验设计类型、数据结构等,具有相同性或相似性. 因此,在元数据参考框架建立之初,首先收集某一实验小组的部分数据,对这些数据中涉及本研究的相关信息进行分析,并反复咨询实验者及实验组织者,从中查找出所有实验数据可能存在的共同的信息. 但各个分课题组因为研究内容的差异,相关的实验数据在具有共性的基础上又存在不同的特性,例如,有的实验小组只研究某一指标不同时间点的计量观察数据,而有的实验小组研究某一器官在形态、结构上的变化,就只需要图片的说明.

  为了对数据集的统一,规定所有测量资料均以SPSS统计软件数据格式录入并上交,这样,既保证了数据格式的统一,也为后续的统计分析提供了便利. 所有影像资料均以图片文件格式存储并上交. 在教科书中对元数据的定义并不是十分严格的,在实际操作中所收集和记录的元数据的具体内容和层次弹性很大,根据具体情况由元数据库的设计者根据需要确定. 元数据库存储的信息在范围上非常广,可以具有多个层次的内容. 元数据库可以帮助用户从众多机构管理的大量数据集中找到自己所关心的数据的位置,也就是说,找到这个数据所在的数据集,知道是谁建立的这个数据集,谁是这个数据集的监管人,数据监管人的地址和联系方式(www.sdinfo.net.cn/ngcc/sdinfo/prodtecteddoc/mt9.htm).

  1.2方法

  1.2.1本元数据标准参考框架设计原则国际与国内相结合,即一些通用的元素采用国内外成熟的元数据规定的标准元素,如都柏林核心元数据(dublin core)[3]. 对于具有专有性的元素进行自主定义. 简单与准确相结合,简单是指元数据元素要少、元数据著录过程简单,但过于简单毕竟会影响到数据描述不全面、检索不准确. 因此,本标准参考框架是在简单与准确之间尽量进行权衡,以达到最优的结合. 具有互操作性:设计本元数据,不仅要能方便的为自己建立的各相关应用系统所操作,还应尽可能的为其他组织或机构所建立的应用系统所操作. 即在所携信息损失最小的前提下,可方便的转换为其他系统常用的元数据. 具有可扩展性:允许使用者在不破坏已规定的内容下,扩充一些元素或属性值[4].

  1.2.2元数据结构设计元数据的内容结构是定义元数据的构成元素,包括描述性元素和管理性元素[5]. 描述性元素由两部分组成: ①引用DC的全部元素; ②结合EMP生物学效应实验的部分数据特点,通过增加限定词加以扩展和缩减. 本标准ISO 158362003版本(www.niso.org/internationgal/sc4/n515.pdf)中的15项元素作为基本对象(表1).

  表1都柏林核心元数据元素(略)

  2结果

  通过引用DC元数据项目的15个元素为基础,并结合EMP生物学效应实验的部分数据特点,通过增加限定词加以扩展和缩减. 所建立的一级元数据标准参考框架(数据集元数据)由标识信息、采集信息、管理信息、描述信息、访问信息和元数据管理信息六方面的内容组成. 针对收集的实验数据,拟定出的数据集的元数据描述信息包括负责单位信息、时间范围、实验参数信息、受试对象信息、实验设计、观察指标、统计分析七大部分,43个项目,共同组成了一个数据集的基本信息. 由于EMP生物学实验的特殊性,仅列出部分元数据的描述信息(图1).

  图1EMP生物学效应共享数据库元数据标准示意图(略)

  在建立一级元数据框架同时,参照医学名词、术语、信息代码标准,建立数据字典框架. 数据字典框架由数据集信息(基本信息以及图片信息)、数据字典管理信息、数据项信息三方面的内容组成.

  3讨论

  本标准参考框架的初步制定为EMP生物学效应实验的研究工作起到了极大的辅助作用. 实验研究者可依靠本标准,将各研究单位所提交的繁复的实验数据统一,为后续的总体研究分析以及信息共享奠定基础.

  针对医药研究方面积累的大量关于基础、临床、预防及中医药的科学研究和观察数据,由于这些数据资源分散在不同领域、不同单位和不同专家手里,存在着同种疾病科学数据分割、流通不畅、无法共享的局面,导致了许多研究重复和资源浪费. 本研究提供的共享数据库元数据标准参考框架不仅能够服务于EMP生物学效应的信息共享,也可为其他大型研究信息共享提供元数据规范参考.

  【参考】

  [1] 范敏,朱福成,吴勇军. 一种基于元数据的Web数据共享技术[J]. 绵阳师范学院学报, 2004, 23(2):34-40.

  [2] 陈虹涛,李志俊.  元数据的标准规范及其互操作性[J]. 情报杂志, 2005,(7):93-95.

  [3] 朱慧,劳瑞勤.  元数据的新贵:都柏林核心[J].  情报资料工作,  1999,(5):19-23.

  [4] 韩夏. 循证医学资源及其元数据[J]. 情报杂志,  2004,(8):117-119.

  [5] 徐维. 元数据管理理念在医学信息资源领域的应用[J]. 索引, 2005, 3(2):33-36.