数据挖掘在高校资产管理中的应用

来源:岁月联盟 作者:袁谢媛 时间:2014-05-28
Apriori算法是关联规则中最典型的算法,它通过对事务数据清单D的多趟扫描来发现所有的频繁项目集(强项集)L:
  L1 = {large 1-itemsets}; //频繁1项目集
  for(k=2;Lk-1≠Φ;k++)
   {Ck=apriori-gen(Lk-1,minsupport); // Ck是频繁k项目候选集
  for all transactions t∈D
  { Ct=subset(Ck,t); // Ct是从候选集Ck中提取的包含在事务t中的候选集元素
  for all candidates C∈Ct
  C.count++ ;
  }
  Lk={ C∈Ck | C.count≥minsupport};
   }
  L= UkLk; //求所有频繁项目集Lk 的和
  Apriori算法中调用了函数apriori-gen(Lk-1,minsupport),是为了通过频繁(k-1)项目集产生频繁k项目候选集,即利用第(k-1)趟扫描得到强项集集合Lk-1 的候选集Ck。该函数先进行拼接,再剪枝。在拼接生成候选数据项集时,一个项集必须是频繁数据项集且它的所有子集也都是频繁数据项集,因此要删除所有含有非频繁项目子集的候选元素。如果k项集 C∈Ck 的某(k-1)子集不是(k-1)强项集,则将C从候选集Ck 中删除。
  Arpiori算法中如果生成的候选项集太多,则多次扫描会使效率急剧下降,同时过多的候选项集还可能生成大量的规则,影响它的应用。本系统中采用数据属性归约,大大减少了生成的候选项集,能快速发现关联规则,提高使用效率。
  4.2 采用Apriori 算法实现关联规则挖掘
  本系统对建立的某高校资产数据仓库多维数据集进行数据挖掘,先对原始数据进行整理和特征化变换,设定资产管理指标中的资产质量评估值为规则目标。
  采用Apriori 算法生成频繁数据项集。设定最小支持度为3%,最小信任度为70%,先构造1个属性的候选集C1,计算C1 的支持度,去掉C1 中支持度小于3%的属性,得到频繁项目集L1。再根据L1 及2个属性的组合,构造候选集C2,计算C2 的支持度,去掉C2 中支持度小于3%的二维属性,得到频繁项目集L2。依次类推重复上述过程,直到所有属性组合完毕,形成频繁项集L={ L1,L2,…}。
  再研究资产数据间的关联性,挖掘满足最小信任度的规则。若X,Y为项目集,且X∩Y= ?准,蕴涵式X?圯Y称为数量关联规则,X和Y分别称为X?圯Y的前提和结论。项目集(X∪Y)的支持度称为关联规则X?圯Y的支持度,记作support(X?圯Y),即support(X?圯Y)=support(X∪Y)。数值关联规则X?圯Y的信任度记作confidence(X?圯Y):confidence(X?圯Y)= support(X∪Y)/support(X)×100%。给定用户的最小支持度minsupport和最小信任度minconfidence,如果 support(X?圯Y)≥minsupport,同时confidence(X?圯Y)≥minconfidence,则称数量关联规则X?圯Y为强规则,即根据用户指定的最小信任度而生成的关联规则是满足最小支持度和最小信任度的强关联规则。表2是系统数据挖掘的强关联规则,它反映了资产购建价值、资产剩余使用年限率和资产每年使用率这3个指标与资产质量评估值之间的关联性。购建价值高,又在购建初期且很少使用的资产其性能变化不大,它的资产质量评估值肯定很高。数据挖掘时如降低最小支持度,会增加系统生成的频繁项目集数,这样挖掘出的规则会太多,因而会降低了规则的普遍性和代表性。
  
  5结束语
  本文利用数据挖掘技术对高校资产作了深层次研究,通过采用Apriori 算法生成频繁数据项集,进而挖掘出高校资产管理指标之间的关联规则,各规则的信任度均达到70%以上,对关联规则进行分析得出的结论和决策建议在实际应用中取得了良好效果。
  
  主要参考文献
  [1][加]Jiawei Han,Micheline Kamber.数据挖掘——概念与技术[M].影印版.北京:高等教育出版社,2001.
  [2]袁隽媛.试论数据仓库在高校网络教育管理中的应用[J].发明与创新,2007(5):36-37.
  [3]安利平,张松,仝凌云.基于决策树的OLAM及其应用研究 [J].计算机工程与设计,2008,29(15).
  [4]陈安,陈宁,周龙骧.数据挖掘技术及应用 [M].北京:科学出版社,2006.
  [5]李新良,陈湘.数据挖掘中关联规则算法的研究 [J].计算机工程与科学,2007,29(12).