关联规则在小样本临床资料中的应用

来源:岁月联盟 作者:段鲲 武建虎 贺佳 时间:2010-07-13

【摘要】  目的:探索关联规则在小样本临床资料中的应用。方法:采用数据挖掘技术中的关联规则挖掘方法,以列联表的确切概率和可信度的提高来进行规则剪除,结合实例并与 Logistic 回归分析进行比较。结果:应用关联规则分析冠心病发生的危险因素同 Logistic 回归分析的结果相近,但关联规则分析可以提供更多的信息。结论:使用 Fisher 确切概 率法作为度量函数对小样本资料进行关联规则分析是可行的,可以弥补 Logistic 逐步回归应用的缺陷,又可以较全面地揭示资料中蕴涵的信息。

【关键词】  关联规则;Logistic 回归;可信度

    〔Abstract〕 Objective  To  explore  the  application  of  association  rules  in  clinical  data  of  small  sample.   Methods  Using  the  analysis  of  association  rules  of  data  mining,  and  the  pruning  of  association  rules  is  based on  Fisher's  exact  test  and  the  improvement  of  the  confidence,  and  comparing  with  Logistic  regression  model through  clinical  data.    Results     The  result  of  association  rules  analysis  to  dangerous  factors  of  the  coronary occurrence  is  close  by  Logistic  regression  model,  but  association  rules  analysis  can  provide  more  information.   Conclusion     Using  Fisher's  exact  test  as  the  measure  of  association  rules  analysis  of  the  small  database,  on the  one  hand  it  could  overcome  the  limitation  of  Logistic  regression,  on  the  other  hand  it  could  discover  the full  information  of  the  data.

    〔Key  Words〕    Association  rules;  Logistic  regression  model;  Confidence

    关联规则挖掘是数据挖掘的一种模式,目的是寻找大量数据库中项集之间的有意义的关联或相关联系[1],主要应用于大的样本资料中[2],本研究使用列联表的确切概率法作为关联规则的度量方法也可以发现小样本中变量之间的关系,揭示样本中蕴涵的信息。下面通过实例说明关联规则在小样本资料中的应用并结合 Logistic 回归分析进行探讨。

    1    方法介绍

    本研究采用数据挖掘技术中的关联规则挖掘方法,以列联表的确切概率和可信度的提高来进行规则剪除,最后得到形如(支持度,可信度)的规则,支持度表示同时满足规则前件 A 和规则后件 B 的例数占总例数的比例即概率,可信度表示在所有满足规则前件 A 的例数中满足规则后件 B 所占的比例即条件概率,整个过程在 SAS 8.2 软件中实现。具体过程如下。

    1.1    数据转化    在医学数据库中,大部分数据存储是多维的,如表 1。

    而在 SAS 8.2 Enterprise Miner(以下简称 SAS/ EM)模块中的关联规则节点(Association Node)进行规则挖掘是针对事务数据库进行操作的,所以在挖掘之前先将数据进行转化,见表 2。

    Attribute 代表变量值的集合,对于如 name 一类的变量,因为对挖掘信息意义不大故省去,对于分类变量按其取值分为几个变量值如 sex 表示为 Sex_m 和 Sex_f,对于计量变量则将其离散再按分类变量对待。

    1.2    规则的实现    SAS/EM 采用 Apriori 算法,利用 k - 项集来探索(k+1)- 项集。然后再根据预先设定的最小支持度和可信度产生规则。所以,主要确定三个参数即产生规则的项集最大数目(items)、最小支持度(min_sup)和最小可信度(min_conf)。输出结果中包含满足要求的所有规则以及每条规则的支持度(sup)、可信度(conf)、期望可信度(exp_conf)〔规则后件项的期望概率即P(B)〕、作用度(lift)(可信度与期望可信度的比值)等一些信息。

    1.3    规则的剪除    对于规则,可以表达为列联表形式如下所示。

    A 表示规则前件中变量值的组合, 表示在所有数据中不满足规则前件的部分,B 表示规则后件中变量值的组合, 表示数据中不满足规则后件的部分,f11、f10、f01、f00 分别表示 A 与 B、A 与 B、A 与B、A 与 B 共同发生的频数。因为是小样本资料,所以判定属性 A 与 B 是否有统计学上的关联,可根据列联表的确切概率。如果属性 A 与 B 之间具有某种关联,其关联的密切程度如何?可通过 Pearson 列联系数 C。1 表示完全相关。

    本研究的方法:首先使用列联表的确切概率法检验所产生的规则中的所有两项规则,即规则的前件和后件均为一项,本研究中使用 SAS 软件计算可以直接得到列联表的确切概率 P 值和列联系数 C。根据研究者预定的判断界值,得到相对有意义的规则,再对这些规则利用列联系数 C 进行排序,对于变量较多的数据来说,这点很重要,因为产生的规则很多的情况下,研究者不可能对这些规则都进行研究。

    当两项规则确定后,在此基础上,进一步筛选多项规则,对于多项规则的筛选主要根据是可信度的提高满足一个界值。主要依据[3]:

    例如下面两条规则,

    对于规则 R1 来说,规则 R2 其实没有提供多少信息,可信度的增加或许是由于随机因素作用,但如果可信度的增加比较明显,则认为规则 R2 有意义,本研究设定可信度的增加在 0.05 倍以上可以保留。

    2    实例分析

    本研究选用《医学统计学》[4] 中 logistic 回归分析一章的资料“为了探讨冠心病发生的危险因素,对 26 例冠心病病人和 28 例对照者进行病例-对照研究,各因素的说明见表 3(具体资料略)。试用logistic 逐步回归分析方法筛选危险因素(α入=0.10,α出=0.15)”。

    2.1    Logistic 逐步回归分析    对该资料常规的分析方法就是使用 Logistic 逐步回归分析,其结果如表4,该结果提示冠心病的危险因素主要是年龄、高血脂史、动物脂肪摄入高和 A 型性格,并且从标准回归系数可以看出各因素的相对重要性。

    2.2    关联规则分析    对该资料进行关联规则分析,设置最低可信度 conf=0.60,由于样本例数较少,故设置最小支持度 support=0.05,最大项集数为 items=4,在规则的剔除中设置α=0.05,最后得到有意义的规则有 60 条(略),其中三项、四项规则中绝大部分规则后件是 x 9_1 和 x 9_0,说明冠心病的发病与多种因素有关,因为分析的目的是筛选冠心病的危险因素,所以设置规则的后件为冠心病发病者,具体规则见表 5,从中可以看出影响冠心病发病的危险因素主要有动物脂肪摄入高、高血脂史、A 型性格及高血压,另外规则 no.10 表明吸烟与其他危险因素一同出现时导致冠心病发病的概率提高,其可信度达到 0.92,并且该规则的支持度也高为 0.22、作用度 lift 为 1.92,说明某些因素联合存在时更具有危险性。同样规则 no.11 和 no.12 表明高血压家族史、高血压史和吸烟一同出现时危险性升高。

    另外,对冠心病危险因素之间做关联规则分析,见表 6,从中发现这些因素之间有很大的相关性,如高血压家族史与高血脂史、体重指数高与高血脂史、高年龄与高血压史等,从多项规则可看出高血压史和高血脂史都与多种因素有关。

    3    讨    论

    使用关联规则分析可以以规则的形式揭示整个数据中蕴涵的信息,本研究获得的冠心病主要危险因素同 Logistic 逐步回归分析结果相似,但给出的信息相对要多,揭示了数据中某些因素协同作用的影响,事实上,大多影响因素之间存在复杂的关系(如表 6),并不能绝对说哪些因素不起作用,本研究以简明易懂的形式说明了冠心病的危险因素及因素组合,为冠心病的预防提供。

    Logistic 回归属于概率型非线形回归,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法,由于其理论上的成熟性,已被广泛用于临床中疾病危险因素的筛选,但和其他统计方法一样,要求变量满足正态性和独立性的条件,并且由于 Logistic 逐步回归的所有统计推断都是建立在大样本基础上,因此要求有足够的样本含量[4]。

    综合以上,对于小样本资料应用关联规则分析,一方面其受限制的条件较少,可以弥补 Logistic 逐步回归应用的缺陷,另一方面可以揭示资料中蕴涵的全部信息,包括影响因素之间的相互关系,为进一步统计分析提供依据。所以,关联规则分析方法也是对传统统计学方法的一个很好的补充。

【参考】
  〔1〕Jiawei Han, Micheline Kamber. 数据挖掘概念与技术〔M〕. 范明, 孟小峰译. 北京:机械出版社, 2001. 149-150

〔2〕武建虎, 贺佳. 关联规则及其在肝癌病人资料分析中的应用〔J〕. 卫生统计, 2006, 23(1):34-38

〔3〕Liu BH, Wand MY. Pruning and summarizing the discovered association. In ACM SIGKDD International; Conference on Knowledge Discovery & Data Mining (KDD-99), August 15-18, 1999

〔4〕孙振球. 医学统计学〔M〕. 北京:人民卫生出版社, 2002. 268-269