数据挖掘及其在医学上的应用

来源:岁月联盟 作者:陈广 王强 陈景武 时间:2010-07-12

【摘要】  阐述了数据挖掘技术的原理、方法和工具,介绍了数据挖掘在当前医学领域的应用情况及应用前景。

【关键词】  数据挖掘; 原理方法; 医学应用

  1数据挖掘及其意义

  数据挖掘又称数据库中的知识发现(Knowledge Discov-ery in Database,KDD),是从大量的数据中,抽取潜在的、有价值的知识(模型或规则)的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中暂时未被发现的知识。现在,随着数据库技术的不断及数据库管理系统的广泛应用,人们面对前所未有的信息数量,目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,却很难发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。于是,人们利用数据库存储数据,采用机器学习的方法来分析数据,挖掘大量数据背后隐藏着的重要信息和知识。这两者的结合促成了数据库中数据挖掘技术的产生和发展, 实现了对数据库海量信息的更高层次的分析。随着数据挖掘技术的逐步发展和完善,近年来在、电信、零售、医疗卫生、研究等多个领域中得到成功应用,发挥了巨大作用。当前,KDD国际研讨会的研究重点逐渐从发现方法等理论研究转向系统应用研究,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,更为医疗卫生事业的发展及医学科研工作提供了有力的武器,开辟了新的广阔前景[1]。

  2数据挖掘常用的技术和工具

  数据挖掘常用的技术方法有特征化规则、关联规则、分类和预测规则、聚类规则。特征化规则是对数据库中原始数据进行分析,获得它们所拥有的共同特征,又称数据。其目的是对数据进行浓缩,给出它的紧凑描述。其方法是根据属性列的临界值和概括层次树,对原始数据进行概括,合并相同和相似的元组,最后得到一个或几个“抽象宏记录”即为所挖掘的知识。在特征化规则的发现中,概括的程度由一个合适的阈值来控制,规则的数量被控制在阈值以内。阈值越大,发现的规则越多,但规则的概括程度越小[2]。关联规则挖掘可以发现大量数据中不同的项目集之间存在的关联或关系,从所有对象中来决定哪些相关对象应该放在一起。依照不同的标准,关联规则可以分为布尔的和量化的、单维的和多维的、单层的和多层的关联规则。关联规则的算法有很多,其中,Apriori和 DHP是比较成功的两个算法[7]。分类和预测可以用于提取数据类别的模型或预测未来的数据趋势。通过对预先建立的学习模型进行有指导的学习,最终可以获得具有一定准确率的分类方法。数据分类在统计学、机器学习、人工智能等领域都有研究,方法包括判定树归纳、贝叶斯分类和贝叶斯、神经网络、遗传算法和模糊集方法等。预测是构造和使用模型评估无标号样本或评估给定样本可能具有的属性值或区间值,一般采用线性回归、多元回归、非线性回归等方法获得该连续值函数模型[7]。聚类规则是将不同的母体区隔为不同构型的组群,其目的是将组与组之间的差异分辨出来,并对个别组内的相似样本进行挑选。在聚类化技术中,没有预先定义好的类别和训练样本存在,所有纪录都根据彼此相似程度来加以归类。所使用的技巧有k-means法及agglomeration法[5]。一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。目前,比较著名的数据挖掘工具有IBM Intel-ligent Miner、SAS Enterprise Miner、SPSS Clementine等,它们都能够提供常规的挖掘过程和挖掘模式,在操作的简易性、工具的开放性和可伸缩性方面各有特点。其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据挖掘软件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等[6]。

  3数据挖掘在医学领域的应用及其前景

  近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、、器官移植、基因研究、图像分析、康复、药物开发、研究等方面都获得了可喜的成果。南加州大学脊椎病利用Information Discovery进行数据挖掘,该技术已应用到肿瘤学、肝脏病、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医学领域。Jiawei Han和Micheline Ka-mher从异构和分布式基因数据的语义集成、DNA序列间相似的搜索和比较、同时发现的基因序列的识别、发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用问题。Muggleton等人提出利用归纳逻辑编程,根 据氨基酸序列信息预测蛋白质第二结构。Igor kononko等从医学诊断的角度阐述了统计或模式识别方法、符号法则的归纳学习、人造神经3类机器学习算法在医学领域中的应用。MiroslavKubat等针对心电图、脑电图等医学推测信号的分析,提出使用决策树来初始化神经络,可以大大提高对测试样本的分类准确率。Vysis应用神经网络技术为药品开发进行蛋白质分析。Robeit Groth对聚类技术在患者术后康复问题分析的应用进行了研究等。在国内,中南大学的陈爱斌、夏利民等利用boosting机器学习方法对人脸检测进行了研究。第四军医大的陈雪峰[4]等利用数据库和数据挖掘技术建立的恶性血液病数据库分析系统,不仅可辅助医生做出初步诊断而且对数据具有强大挖掘和分析功能。富春枫[2,3]等研究了机器学习的分类方法logitBoost在判别分析中的应用及其在医学领域中的应用前景等。数据挖掘在医学上的应用有其自身的优势,因为医学上收集到的数据一般是真实可靠、不受其他因素影响的,而且数据集的稳定性较强。这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的条件。随着病历的推广,用机存储病案在医院已经比较普遍。如果各医院将收集的数据进一步汇总,数据总量是相当大的,而且都是病人的真实数据。从这样的数据集中运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的,各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。

  4结语

  本研究介绍了数据挖掘的意义、技术、工具及其在医学上的应用,展现了其广阔的发展前景。这为医学的发展开辟了一条新的途径,为广大医疗科技工作者提供了新的发展机遇,抓住机遇、勇于创新,就一定会在促进医学事业的发展中大有作为。

【】
    1 Michael J. A. Berry and Gordon S. Linoff. Data Mining Tech-niques. John Wiley & Sons,2004.

  2 富春枫,荀鹏程,等.Logitboost及其在判别分析中的应用. 卫生统计,2006,23(2):98~100.

  3 丁祥武,杨莹. 数据挖掘在医学上的应用. 郧阳医学院学报,1999,3:130~132.

  4 陈雪峰,蔡锋,王静.恶性血液病数据库分析系统的建立. 第四军医大学学报, 2005,25:252~254.

  5 数据挖掘系列讲座,中国计算机用户-赛迪网. http://publish-blog.blogchina.com/blog/tb.b?diaryID=2550666.

  6 数据挖掘学习笔记,吴晓玲博客. http://publishblog.blogchina.com/blog/tb.b?diaryID=2209178 .

  7 李逸波,于吉红,白晓明.合理选择数据挖掘工具.计算机与信息技术,2006,1.