数据元素理论研究及其在企业数据标准化中的应用

来源:岁月联盟 作者:安培 时间:2010-07-01
  摘 要:对数据元素理论涉及的关键技术进行了研究,具体包括数据元素的相关概念、数据元素结构模型、数据元素属性等,并结合实际项目的研究、提出了数据元素的元模型。认为数据元素方法论是指导进行数据标准化的重要的、的方法论,只有在这一方法论指导下规范的数据,才具有稳定性,才能为企业建立集成化的数据模型奠定坚实的基础,同时,也只有在这一方法论的指导下构建的企业数据模型才能够从根本上解决数据质量问题、才能构建出企业的真正字数据字典与元数据。也只有在这一方法论的指导下构建的企业元数据、才能真正实现系统间无缝的数据交换与共享。
  关键词:数据元素;数据;数据标准化;元数据;信息分类与编码
  
  1 数据元素基本理论
  
  1.1 数据元素及相关定义
  在数据元素理论研究中,下面的术语是很重要的,理解好这些术语是理解数据元素的基础。
  ①数据元素(Data Element):用一组属性描述定义、标识、表示和允许值的一个数据单元。
  ②数据元值(Data Element Value):数据元能许值集合中的一个值。
  ③数据项:数据元的一个具体值。
  ④同义名称: 与给定名称有区别但表示相同的数据元概念。
  ⑤限定词:帮助定度和呈递唯一性概念的术语。
  ⑥域:一种属性的可能数据值的集合。
  ⑦值域:允许值的集合。
  ⑧域名:将数据元的值域及度量单位利用一个统一的名称来表示。
  ⑨对象类:对象集,现实世界中的想法、抽象概念或事物集合,有清楚边界和含义,并且特性和其行为遵循同样的规则面能够加以标识。
  ⑩对象:可要想象或感觉的世界的任一部分。
  (11)特性:对象类的所有个体所共有的某种性质。
  (12)表示:值域、数据类型的组合,必要时也包括度量单位或字符集。
  (13)对象类词:数据元名称的成分,用于表示其所属的对象类。
  (14)特性类词:数据元名称的一个成分,用于表述对象类的特性,(数据元名称的一个成分,表述数据元所属类别)。
  (15)表示类词:数据元名称的成分,用于描述数据元的表示形式。
  (16)数据模型:以反信息结构的某种方式对数据组织的某种描述。
  1.2 数据元素规范与标准化框架
  1.2.1 数据元素的组成
  数据元由对象类、特性和表示三部分组成,其中对象类用于收集和存储数据的事物,例如,人、井、岩芯、管线、储罐都是对象类等;特性是用来区别和描述对象的,例如,颜色、性别、年龄、收入、地址、价格等均为特性;数据的表示部分中最为重要的方面是值域,值域是数据元允许(或有效)值的集合。对于值域,数据元中存在两种类型的值域,一种是所谓取值是固定的,即取值是可枚举的,例如,人眼睛颜色这个数据元,其取值可能包括:Brown、Gray、Green、Hazel、Blue,另一种是概括的,即数据元取值是有定义域约束的,其取值可能是有限的,但是无法列出全部值,例如人的年龄,其取值范围可能是1-200,并且每位要求是十进制表示。
  1.2.2 数据元结构模型
  (1)数据元概念(DEC):对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲,数据元概念是一个抽象意义上的数据元,但这类数据元的对象类已经限定,只有经过对数据元概念中的各个要素再进一步的限定,才使数据元概念变成真成有意义的应用数据元素。所以,数据元概念本身具有抽象性与分类性。
  (2)通配数据元:特性与表示联合在一起形成通配数据元,通配数据元素也具有抽象意义,对于这类数据元来讲,它的特性与表示已经确定,所以它具有通配性,如果将这类数据元与具体的对象类联系在一起,那么该类数据元就可以具体化为有意义的应用数据元。
  (3)数据元类型:数据元概念与通配数据元形成数据元类型。   数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时,就能够产生数据元。数据元和数据元概念间存在多对1的关系,也就是一个数据元必须对应一个数据元概念,而一个数据元概念可以有多个数据元,换句话说,多个数据元可以共享一个数据元概念。
  数据元与表示之间的关系是一对一的关系,也就是一个数据元需要一个表示。当数据元的概念模型相同而表示不同时就是两个不同的数据元,数据元中的表示是描述数据元中的数据元概念中的特性,即数据元中的特性有且仅有一个表示。
  在数据元概念中对象类和特性之间是一对一的关系,一个对象类需要只需要一个特性(或者特性类),一个特性(特性类)只描述一个对象类,当一个特性和一个对象类建立关联时就产生了一个数据元概念。
  同实体关系类的数据模型相比,模型中的实体相当于数据元中的对象类,而实体的属性本当于数据元中的特性和表示。
  1.2.3 数据元素的属性
  数据元素本身也是一个事物,既然是事物那么就需要属性来描述这一事物,通常我们也将描述属性称为描述数据元素的元数据。
  1.2.4 数据元结构模型
  经过对数据元理论的深入研究,我们抽象出图2的模型,该模型反映出了数据元概念、表示、基本数据元以及应用数据元间的关系。
  1.2.5 值域基本模型
  按照数据元素理论,给出了数据元的值域模型。该模型将数据元素的值域抽象为概念域,即所谓的“域名”,一个概念域可能会与多个值域有关系;概念域可能是枚举类型的,也可以是非枚举类型;同样,值域可能是枚举值域,也可能是非枚举值域。
  
  2 数据元的元模型
  
  经过对数据元理论与实际数据规范化应用的研究,我们提出了数据元的元模型。
  
  该框架模型是将对象类、特性类、分类模式由此演生的基本数据元和应用数据元、值域以及数据标准值、实例标准值以及标准实体有机的关联在一起。揭示了数据元与应用的紧密关系。整个模型高度概括了数据标准化的核心工作。
  
  3 数据元素与信息编码间的关系
  
  有些学者讲过,信息标准化实质是信息代码化的过程,周知,信息分类与编码在整个信息标准化中占有基础的不可替代的地位。因此如何对企业的各种信息进行有效的分类,并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系,在表1中给出了数据元素分析方法与信息分类与编码的对应关系。
  
  
  4 数据元应用的领域
  
  数据元素理论属于信息标准化的基础理论,即是数据规范化理论基础。数据元分析在信息分类、数据的集成模型、数据模型优化设计、数据元字典以及制订数据交换标准等方面得到应用。
  数据元的研究,目前在国际上相当流行,而在国内的研究还处于起步阶段。通过几年的研究,目前,我们已经将这一方法论用于石油上游的数据规范化中,并取得了良好的效果,目前,正在将这一方法论用于中石油的ERP数据平台中的数据规范化中。相信,随着这一方法论的在石油石化领域的不断应用,必将为石油石化信息化建设起到的指导与推动作用。
  
  参考
  [1]?袁满,高雪等.石油数据元设计指南(企业标准)[M].北京:石油出版社,2005.