不完备信息系统的Rough集扩充方法
来源:岁月联盟
时间:2010-08-30
表示个体对象集合,
表示属性集合,则对于任意
,
,属性值
总是存在的,即
。这个假设虽然是合理的,但是与很多现实情况有差异。在这些情况下,由于不可能得到一部分属性值,或者有些对象的某个属性值是肯定不可能得到的,这导致关于对象集合U 的描述是不完全的。因此,就导致了不完备信息系统的出现。然而,对不完备信息的理解存在两种语义解释,遗漏(missing)语意和缺席(absent)语意。遗漏语意下,认为遗漏值(或空值)将来是可以得到的并且可以与任意值相比较;而缺席语意下,认为缺席值(或空值)是无法再得到的,不能与任意值相比较。 为了使Rough集理论能适应于对不完备信息系统的处理,目前主要有两类方法。一是间接处理方法,这种方法有两种情形:第一种情形是删去带有缺失值的实例,但是将会丢失数据中很多有用的知识;第二种情形是通过一定的方法(通常是基于概率统计)把不完备信息系统转化为完备信息系统,即数据补齐,但是,补齐处理只是将未知值补以我们的主观估计值,或多或少改变了原始的信息系统,因此不一定完全符合客观事实。二是直接处理方法:其特点是对经典Rough集理论中相关概念在不完备信息系统下进行适当扩充。本文就直接处理方法目前的情况进行阐述与总结,有利于对不完备信息系统的Rough集扩充方法的认识,对在不完备信息系统下拓展Rough集有所帮助和参考。2 不完备信息系统的扩充方法
2.1 容差关系
基于遗漏(missing)语意,Kryszkiewicz给出了容差关系的定义。给定信息系统
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“*”,
,容差关系 T 定义如下: 定义2.1.1 容差关系 T 定义为:
表示在属性集合 B 上满足关系 T(x,y) 的个体对象y的集合,即对象x 的容差类。根据定义2.1.1得到上、下近似的定义: 定义2.1.2 不完备信息表
中对象集合X 关于属性集
的上近似
和下近似
分别定义为:
,
。 容差关系是目前面向不完备信息系统中应用最为广泛的一种Rough集扩充模型,它将缺失值的可能范围最大化,从而保证了后续算法可以挖掘到尽可能多的知识。但这种最大化的前提假设也同时增加了后续算法的难度和复杂度,在数据量较大,缺失值较多的情况下难以应用。2.2 非对称相似关系
Stefanowski和Tsoukias认为空值不是不确定的,而是当前不存在的,从而不允许比较空值,即缺席(absent)语意。基于这种观点他们给出非对称相似关系如下: 定义2.2.1 给定信息系统
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,记空值为“?”,
,非对称相似关系S 的定义为:
,可以定义两个非对称相似集合: 定义2.2.2 非对称相似于 的x 对象集合 J(x) ,x 与之非对称相似的对象集合
的定义为:
,
。 一般地,
。因此, 定义2.2.3 不完备信息表
中对象集合 X 关于属性集
的上近似
和下近似
分别定义为:
,
。 这种关系乍看起来似乎有点奇怪,但我们总是认为孩子象父母,复制品象真品,反过来人们难于接受。如果系统环境如此,非对称相似关系是合理的。2.3 量化容差关系
为了进一步刻画容差关系和非对称相似关系中两个实例之间的“相似”程度Stefanowski和Tsoukias在研究了容差关系和非对称相似关系后提出了量化容差关系。 人们可以用不同的比较规则来定义不同的量化容差关系。给定一个量化容差关系,对于个体对象全集U中的每个元素,Stefanowski和Tsoukias定义了“容差类”概念。容差类是一个用关于元素的“容差度”作为成员函数的模糊集。如果容差度的值为1,量化容差关系就变成容差关系。事实上,容差关系是量化容差关系的特殊情形。在Stefanowski和Tsoukias提出的量化容差关系中,需要预先知道信息系统中属性值的概率分布情况,这对于一个新的不完备信息系统来说是很困难的。2.4 特征关系
Kryszkiewicz基于遗漏(missing)语意提出了容差关系,Stefanowski和Tsoukias基于缺席(absent)语意提出了非对称相似关系。然而,在实际应用中经常的情况是在一个不完备信息系统中遗漏(missing)语意和缺席(absent)语意同时存在,使用上述模型进行处理将出现困难。于是,J.W.Grzymala-Busse提出了特征关系。 假设在遗漏(missing)语意下的属性值表示为”*”,而在缺席(absent)语意下的属性值表示为”?”,J.W.Grzymala-Busse定义了如下的特征关系R: 定义2.4.1 给定信息系统
,其中
是条件属性集合,d 是决策属性,对于具有空值的属性子集
,
,特征关系R定义如下:
表示在属性集合 B上满足关系 R(x,y)的个体对象 y 的集合,即
。根据定义2.4.1 得到上、下近似的定义: 定义2.4.2 不完备信息表
中对象集合X 关于属性集
的上近似
和下近似
分别定义为:(有三种形式) 第一种形式:
,
。 第二种形式:
,
。 第三种形式:
,
。 对于完备信息系统来说,这三种形式的定义是等价的。但是,对于不完备信息系统,情况就不是如此,应该根据实际情况进行选择。