基于数据挖掘的审计数据分析

来源:岁月联盟 作者:荆霞 时间:2014-01-04
3.2.2审计数据预处理
  数据挖掘时数据的选择是在二维平面上进行的,首先选择列(字段或属性),再选择行(记录或元组)。为了能够获得有效的审计证据得出正确的审计结论,有时候必须对源数据集进行数据转换。
  因为各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析结果,需要对财务数据进行预处理,一般进行比例变换。如将x轴定义为某公司某月营业收入与利润总额的比值,将y轴定义为财务费用与净利润的比值,这样处理的数据能更好地反映该企业的实际情况。这里的财务数据预处理都是由用户来定义的,可以根据不同的审计要求和审计目的来定义。
  建立一个新的二维表格数据至少包含4个属性项:记录号,x轴数据,y轴数据,标记。其中记录号保持对应源数据集DB中的记录号, x坐标和y坐标即为经过比例变换后的数值,标记字段初始内容为空。
  3.3算法描述及流程图
  给定一个计算机审计数据集,假设具有N个元组或者记录,利用DBSCAN算法思想构造出L个分组(L<N),每个分组代表一个聚类。且L个分组必须满足如下条件:
  (1)每个分组至少包含MinPts个元组。
  (2)每个分组中的任意两个元组直接的距离小于等于给定的距离d。
  (3)每个元组仅属于一个分组。
  图4为实现审计数据挖掘的算法(称为AUDBSCAN)的流程图。
  3.4 聚类算法的实现
  算法:审计数据挖掘聚类算法(AUDBSCAN)
  输入:根据数据集DB产生的二维表格数据
   //至少含有4个字段:rec 记录号,rx x坐标数据,ry y坐标数据,rno 标记
   半径d //度量密度的距离
   密度MinPts //簇中的数目
  输出:噪声数据记录
  Algorithm AUDBSCAN(data,d,MinPts)
  For each record in data do
  Ifeach reccord in data is marked
  Output noise reccord //输出标识为噪声的数据
  Else
   For each reccord in data is not marked noise or classer do
  P←Rand(a reccord is not marked noise or classer) //随机选取没有被标记的记录p
  L←Found(p,d,MinPts) //找到p关于d的MinPts密度可达记录
  If s=recount(L)<MinPts
   P is marked noise
   Else
  N←Found(p,d,MinPts)
  Each reccord in N is marked classer
  For each reccord in N do
  q←one reccord
   If q is a center record //q为核心记录
   N←found(q,d)
  Endif
  Endfor
   Endif
   Endfor
  Endif
  Endfor
  在AUDBSCAN算法中,利用Rand()函数产生第一个随机记录p,利用Found()函数产生p关于d的MinPts密度可达记录。该算法最后的结果和随机产生的第一条记录相关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。
  
  4 结论
  
  数据挖掘技术与海量数据下审计业务的有效结合是未来计算机审计的一个发展方向。本文主要介绍了审计数据的采集、数据的处理转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的DBSCAN算法来快速、准确、高效地输出噪声数据。该算法中涉及的二维平面x,y轴坐标可以根据实际审计需要由审计人员加以定义,因此可以应用到各类审计实践中去。另外,可以将DBSCAN算法扩展到三维空间上,只要再加上一个z轴数据,当然z轴数据也应该是和x,y轴数据相关的一个比例数据,此时聚类的结果将会变成一个不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。
  
  主要参考文献
  
  [1][加]Jiawei H,Michelline K.数据挖掘概念与技术[M].范明,译. 北京:机械工业出版社,2004.
  [2]陈伟,张金城,Robin Qiu.审计数据处理实验中的模拟数据生成系统[J].计算机工程,2007(19).
  [3]王琦峰,胡玲玲. 基于AO的审计数据采集方法 [J].计算机系统应用,2009(3).
  [4]米天胜,张金城. 面向数据的计算机审计中数据质量问题的探讨[J].审计与经济研究,2006(1).
  [5]王昊,朱文明. 审计数据质量研究:从审计取证的视角 [J].南京大学学报:自然科学版,2007(1).
  [6]杨磊,李建军,张志军,孙翠娟.谈数据挖掘中常用的聚类算法[J].中国成人教育,2008(4).
  [7]胡彩平,秦小麟.一种改进的空间聚类算法 [J].模式识别与人工智能,2007(3).
  [8][美]Margaret H Dunham. 数据挖掘教程 [M].郭崇慧,译.北京:清华大学出版社,2005.
  [9]刘蓉,陈晓红. 基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006(2).
  [10]李明华,刘全,刘忠,郗连霞.数据挖掘中聚类算法的新发展 [J].计算机

图片内容