数据挖掘技术在信用风险评估中的应用

来源:岁月联盟 作者:佚名 时间:2010-06-25
摘要:信用风险是市场中最古老,也是最重要的风险形式之一,它是体(特别是金融机构)所面临的主要风险。对于微观层次的信用风险评估来说,一个非常重要的问题就是指标的选择。指标选择的好坏直接影响到风险评估的准确性,为此文章提出使用数据挖掘技术选择信用风险评估相关指标,给出了指标选择算法,最后使用银行数据做了实证分析,验证了算法的有效性。
  关键词:信用风险;数据挖掘;指标选择
  
  一、 问题的提出
  
  信用风险是金融市场中最古老,也是最重要的风险形式之一,它是现代经济体(特别是金融机构)所面临的主要风险。信用风险直接影响到现代社会经济生活的各个方面,也影响到一个国家的宏观经济决策和经济,甚至影响整个全球经济的稳定与协调发展。
  我国已正式加入WTO,加入WTO不仅是我国经济融入世界,参与全球化竞争的标志,更重要的是要求我们在经济活动的意识和做法上要与国际接轨,要完全按国际惯例行事。对银行业来说,按国际惯例行事就是要遵守巴塞尔新资本协议的规定,公平竞争。由于国外和金融机构已经发展并采用了一系列的技术来度量和管理信用风险,我国企业和金融机构就必须在学习国外先进的、的度量和管理方法同时,结合我国实际情况,发展适合我国企业和金融机构的信用风险度量和管理技术,只有这样才能在与国外同行的竞争中立于不败之地。因此,对于我国来说,对信用风险度量和管理的研究具有重要的现实意义。
  
  二、 数据挖掘技术应用在信用风险分析中可行性分析
  
  数据挖掘出现于20世纪80年代后期,20世纪90年代有了突飞猛进的发展。数据挖掘是从大量数据中提取和“挖掘”知识。
  商业银行进行信用风险分析最重要的两个因素是高质量的风险分析及管理信息系统和高素质的风险分析人员。从某种意义上说,高质量的风险分析及管理信息系统比高素质的风险分析人员更为重要。国内银行界对这一点有充分地认识。制约商业银行风险分析及管理水平提高的“瓶颈”首先在于数据基础,而数据基础建设又是银行整个信息系统建设的有机组成部分。国内商业银行在这方面有过不少教训。随着信息时代的来临,信息技术在银行的应用取得了长足进展,国内商业银行在信息科技开发上投入力度都很大,但成效却不如想象中那么大,甚至可以说成本和收益比失调。这其中一个主要的问题就是系统开发缺乏前瞻性和连续性。比如许多银行在过去开发过程中,为了满足不同阶段、不同任务陆续开发不同的信息管理系统,而这些系统之间彼此信息冗余,且数据一致性很差,统计人员在不同口径数据如何统一问题上疲于奔命,不仅没有提高工作效率,反而增加了许多工作量,工作量的增加反过来又使统计数据质量难以切实保障,而基础数据的不统一和准确性差造成的严重错误是不仅高层次的风险分析(信贷资产组合分析)根本无法展开,即使是简单的分析工具也因为数据质量差而使分析结果缺乏可信度。因此国内商业银行风险分析及管理能力不高的根本原因之一在于缺乏高质量风险分析及管理信息系统。系统制约风险分析是一个普遍问题。
  根据西方商业银行的经验,风险分析及管理信息系统的结构基本由三部分组成:数据仓库、中间数据处理器和数据分析层。就信用风险管理而言,前台采集数据,将数据结果汇总到数据仓库之中,以备后台分析。数据仓库至少要容纳以下几类信息:与行业相关的宏观因素指标信息、客户基本信息、授信合同信息、信贷账务信息、担保品信息、清偿数据信息、企业财务信息等。中间数据处理器主要将前台收集到的原始数据信息进行分类识别和处理,并抽取其内在特征,按照不同的结构和类型将其分别存储到数据仓库相应位置。数据分析层是数据处理的最高阶段,它要根据风险分析及管理的不同需要从数据仓库中提取信息进行分析。
  由上面分析可知,随着信息技术的发展及我国商业银行对高质量信用风险分析及管理信息系统建设认识上的提高,我国的高质量信用风险分析及管理信息系统必将会科学合理地建立起来,而且会不断地得到完善和发展。这样就为解决现代信用风险分析中一些还没有解决的问题提供了必要的条件和一种新的思路。信用风险分析及管理信息系统的数据仓库中存有大量的事实数据,这些数据包括:信贷客户的基本信息、企业主要管理人员及主要家属基本情况、客户重大事项、企业大事登记、企业所属行业、破产日期、违约类别、债务结构等诸多数据信息,这些信息对信用风险分析来说是十分必要和珍贵的,那么这些数据如何被应用,如何从中寻找对信用风险分析有用的知识(规则),来解决数据丰富但信息贫乏的问题呢?我们想到了数据挖掘技术,在这样存有大量信息的数据仓库中挖掘隐含的知识正是数据挖掘技术的专长。这里举一个例子来说明数据挖掘技术可以怎样用在信用风险分析中(当然这只是它应用的一部分)。比如我们使用专家系统来进行信用风险的定性分析,专家系统进行定性分析的依据是抽象为规则的专家知识,也就是说系统依赖用户和领域专家人工地将知识输入知识库,因此这一过程常常会有偏差和错误,并且耗时,另外值得一提的是信用风险分析的专家知识或多或少都会有一定的主观性在里面,这样对评估结果的准确性是有影响的。而数据挖掘技术可以利用信用风险分析及管理信息系统的存有大量事实数据的数据仓库,从中客观地挖掘评估规则,然后将这些规则存入专家系统的知识库,从而为决策提供依据,而且这样的过程是自动的。根据这些规则产生的评估结果会更客观,更准确。
  由此可见,随着信息技术的,信用风险分析及管理系统的不断完善,数据仓库中数据的不断丰富,数据挖掘技术在信用风险分析领域的应用会有广阔的前景。
  
  三、 基于数据挖掘技术的指标选择
  
  微观信用风险评估的指标包括:财务状况、企业管理者素质、企业经营状况等。根据企业战略管理理论的外部、内部分析的思想:外部、内部分析并不是要列举无穷多的所有会影响企业经营的因素。相反,它只是要确认那些关键的、值得作出反应的变化因素。因此,我们要对影响企业信用风险水平的微观因素进行综合分析,首先我们要做的就是在微观因素的众多指标中找到对企业信用风险水平影响最大的指标(也就是说,找到与企业信用风险水平关联性最强的指标)。找到这样的指标,可以降低分析数据的维数,而且信用风险分析结果的质量不受影响。
 为了进行指标选取,我们使用数据挖掘功能中的关联分析技术。关联分析挖掘发现大量数据中项集之间的关联和相互联系。关联分析广泛用于购物篮和事务处理的分析。它挖掘的一个典型例子是购物篮分析,该过程通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。我们这里使用的算法是Apriori算法。Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法,由频繁项集可以直截了当地产生强关联规则。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apirori使用一种称作逐层搜索的迭代算法,k项集用于探索(k 1)项集。首先,找出频繁1—项集的集和。该项集记作L1。L1用于找频繁2—项集的集和L2,而L2用于寻找L3,如此下去,直到不能找到频繁k项集。找每个Lk需要一次数据库扫描。
  为了验证Apriori算法的可行性,我们根据某商业银行提供的数据,构造了一个数据库,该数据库包含有二千多项事实数据,数据库构造过程如下:将现有贷款样本的模糊化数据构成数据库,模糊化过程为:
  1. 领导者素质、企业实力和信誉状况三项由专家打分确定。
 2. 资产负债率、流动比率、速动比率、净利润率和销售增长值根据同行业的具体标准确定。
  这样,每项贷款的风险要素模糊化的表示如下:X1=资产负债率={X11好,X12中,X13差};X2=流动比率={X21好,X22中,X23差};X3=速动比率={X31好,X32中,X33差};X4=净利润率={X41好,X42中,X43差};X5=销售增长值={X51好,X52中,X54差};X6=领导者素质={X61好,X62中,X63差};X7=企业经济实力={X71好,X72中,X73差};X8=信誉状况={X81好,X82中,X83差};用Y1表示贷款风险分类为“正常”,用Y2表示贷款的风险分类为“损失”,在此基础上通过应用Apriori算法寻找数据库中的频繁项集,来找出影响贷款风险分类的主要因素。
  使用数据库一条记录举例如下,该数据库表示如下:Y1,X11,X22,X31,X41,X53,X61,X72,X81则意指为:
  信用风险分类为“正常”;资产负债率=好;流动比率= 中;速动比率=好;净利润率=好;销售增长值=差;领导者素质=好;企业经济实力=中;信誉状况=好;
  我们使用C++语言实现Apriori算法,通过Apriori算法扫描前面我们构造的事实数据库,算法找出与信用风险分类最相关的五个要素为:流动比率,净利润率,销售增长值,领导者素质和企业经济实力。上面的五个指标分别体现了企业的流动性、增长性、盈利性等方面的情况,这五个指标和进行信用风险评估时所使用的经典指标是基本一致的。因此可以证明基于Apriori算法选择与信用风险相关的关键指标的方法是可行的。
  
  :
  1.(加)Jiawei Han,Micheline Kamber著.范明,孟小峰等译.数据挖掘概念与技术.北京:机械出版社,2001.
  2.张维,李玉霜.商业银行信用风险分析综述.管理学报,1998,(3):20-27.
  3.朱明,杨保安.基于知识的银行贷款分类系统.CJCAI,2001:231-235.
  4.黄娟,冯玉强,王洪伟.基于联接归纳推理的信贷风险评估集成智能系统.机应用研究,1999,(9):74-16.
  5.王春峰,万海晖,张维.商业银行信用风险评估及其实证研究.管理科学学报,1998,(1):68-72.
  6.(美)约翰·B·考埃特,爱德华·I·爱特曼,保罗·纳拉亚南著.石晓军等译.演进着的信用风险管理.北京:机械工业出版社,2001.
  7.李志辉.信用风险量化度量和管理研究.北京:出版社,2001.