当前位置：首页 > 论文 > 管理学 > 其它相关

数据挖掘在高校资产管理中的应用

来源：岁月联盟作者：袁谢媛时间：2014-05-28

Ａｐrｉｏrｉ算法是关联规则中最典型的算法，它通过对事务数据清单Ｄ的多趟扫描来发现所有的频繁项目集（强项集）Ｌ：
　　Ｌ１＝｛ｌａｒｇｅ１－ｉｔｅｍｓｅｔｓ｝；／／频繁１项目集
　　ｆｏｒ（ｋ＝２；Ｌｋ－１≠Φ；ｋ＋＋）
　　｛Ｃｋ＝ａｐｒｉｏｒｉ－ｇｅｎ（Ｌｋ－１，ｍｉｎｓｕｐｐｏｒｔ）；／／Ｃｋ是频繁ｋ项目候选集
　　ｆｏｒａｌｌｔｒａｎｓａｃｔｉｏｎｓｔ∈Ｄ
　　｛Ｃｔ＝ｓｕｂｓｅｔ（Ｃｋ，ｔ）；／／Ｃｔ是从候选集Ｃｋ中提取的包含在事务ｔ中的候选集元素
　　ｆｏｒａｌｌｃａｎｄｉｄａｔｅｓＣ∈Ｃｔ
　　Ｃ．ｃｏｕｎｔ＋＋；
　　｝
　　Ｌｋ＝｛Ｃ∈Ｃｋ｜Ｃ．ｃｏｕｎｔ≥ｍｉｎｓｕｐｐｏｒｔ｝；
　　｝
　　Ｌ＝ＵｋＬｋ；／／求所有频繁项目集Ｌｋ的和
　　Ａｐrｉｏrｉ算法中调用了函数ａｐｒｉｏｒｉ－ｇｅｎ（Ｌｋ－１，ｍｉｎｓｕｐｐｏｒｔ），是为了通过频繁（ｋ－１）项目集产生频繁ｋ项目候选集，即利用第（ｋ-１）趟扫描得到强项集集合Ｌｋ－１的候选集Ｃｋ。该函数先进行拼接，再剪枝。在拼接生成候选数据项集时，一个项集必须是频繁数据项集且它的所有子集也都是频繁数据项集，因此要删除所有含有非频繁项目子集的候选元素。如果ｋ项集Ｃ∈Ｃｋ的某（ｋ－１）子集不是（ｋ－１）强项集，则将Ｃ从候选集Ｃｋ中删除。
　　Ａrｐｉｏｒｉ算法中如果生成的候选项集太多，则多次扫描会使效率急剧下降，同时过多的候选项集还可能生成大量的规则，影响它的应用。本系统中采用数据属性归约，大大减少了生成的候选项集，能快速发现关联规则，提高使用效率。
　　４．２采用Ａｐｒｉｏｒｉ算法实现关联规则挖掘
　　本系统对建立的某高校资产数据仓库多维数据集进行数据挖掘，先对原始数据进行整理和特征化变换，设定资产管理指标中的资产质量评估值为规则目标。
　　采用Ａｐｒｉｏｒｉ算法生成频繁数据项集。设定最小支持度为３％，最小信任度为７０％，先构造１个属性的候选集Ｃ１，计算Ｃ１的支持度，去掉Ｃ１中支持度小于３％的属性，得到频繁项目集Ｌ１。再根据Ｌ１及２个属性的组合，构造候选集Ｃ２，计算Ｃ２的支持度，去掉Ｃ２中支持度小于３％的二维属性，得到频繁项目集Ｌ２。依次类推重复上述过程，直到所有属性组合完毕，形成频繁项集Ｌ＝｛Ｌ１，Ｌ２，…｝。
　　再研究资产数据间的关联性，挖掘满足最小信任度的规则。若Ｘ，Ｙ为项目集，且Ｘ∩Ｙ＝ ?准，蕴涵式Ｘ?圯Ｙ称为数量关联规则，Ｘ和Ｙ分别称为Ｘ?圯Ｙ的前提和结论。项目集（Ｘ∪Ｙ）的支持度称为关联规则Ｘ?圯Ｙ的支持度，记作ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ），即ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ）＝ｓｕｐｐｏｒｔ（Ｘ∪Ｙ）。数值关联规则Ｘ?圯Ｙ的信任度记作ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）：ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）＝ｓｕｐｐｏｒｔ（Ｘ∪Ｙ）／ｓｕｐｐｏｒｔ（Ｘ）×１００％。给定用户的最小支持度ｍｉｎｓｕｐｐｏｒｔ和最小信任度ｍｉｎｃｏｎｆｉｄｅｎｃｅ，如果ｓｕｐｐｏｒｔ（Ｘ?圯Ｙ）≥ｍｉｎｓｕｐｐｏｒｔ，同时ｃｏｎｆｉｄｅｎｃｅ（Ｘ?圯Ｙ）≥ｍｉｎｃｏｎｆｉｄｅｎｃｅ，则称数量关联规则Ｘ?圯Ｙ为强规则，即根据用户指定的最小信任度而生成的关联规则是满足最小支持度和最小信任度的强关联规则。表２是系统数据挖掘的强关联规则，它反映了资产购建价值、资产剩余使用年限率和资产每年使用率这3个指标与资产质量评估值之间的关联性。购建价值高，又在购建初期且很少使用的资产其性能变化不大，它的资产质量评估值肯定很高。数据挖掘时如降低最小支持度，会增加系统生成的频繁项目集数，这样挖掘出的规则会太多，因而会降低了规则的普遍性和代表性。
　　
　　５结束语
　　本文利用数据挖掘技术对高校资产作了深层次研究，通过采用Ａｐｒｉｏｒｉ算法生成频繁数据项集，进而挖掘出高校资产管理指标之间的关联规则，各规则的信任度均达到７０％以上，对关联规则进行分析得出的结论和决策建议在实际应用中取得了良好效果。
　　
　　主要参考文献
　　［１］［加］Jiawei Han,Micheline Kamber.数据挖掘——概念与技术[M].影印版.北京：高等教育出版社，2001.
　　［２］袁隽媛．试论数据仓库在高校网络教育管理中的应用［Ｊ］．发明与创新，２００７（５）：３６－３７．
　　［３］安利平，张松，仝凌云．基于决策树的ＯＬＡＭ及其应用研究［Ｊ］．计算机工程与设计，２００８，２９（１５）．
　　［４］陈安，陈宁，周龙骧．数据挖掘技术及应用［Ｍ］．北京：科学出版社，２００６．
　　［５］李新良，陈湘．数据挖掘中关联规则算法的研究［Ｊ］．计算机工程与科学，２００７，２９（１２）.