浅谈监管分析中的数据挖掘


 

浅谈监管分析中的数据挖掘
 
数据挖掘,又称为数据库中的知识发现(Knowledge Discoveryin Database,KDD),就是从存放在数据库、数据仓库或其他信息库中的大量的数据中“挖掘”或“找到”有趣知识的过程。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括行业监管、商务管理、生产控制、市场分析、工程设计和科学探索等。
有一个“尿布与啤酒”的故事,可以用来说明数据挖掘的作用。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。沃尔玛在这些原始交易数据的基础上,利用数据挖掘技术方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,发现美国的太太们常叮嘱她们的丈夫下班后到超市为小孩买尿布,而丈夫们中有30%~40%的人在买尿布的同时也为自己买一些啤酒。于是沃尔玛干脆将尿布与啤酒摆在同一个货架上,从而更方便了顾客,促进了销售。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术方法对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
那么,怎么样来挖掘数据呢?
首先,要解决员工动力问题。就是要教育员工坚持做到忠恕(推已及人)、紧跟(与时俱进)、创新(推陈出新)和兼顾(同心协力)等四项原则,从根本上解决员工的思想政治问题。
一是忠恕:忠者,心无二心,意无二意之谓,恕者,了己了人,明始明终之意。其关键是推已及人:“忠”,具有“尽己为人”之心,待人真诚之魂;“恕”,具有“以己度人”之意,待人宽容之道。把“忠”、“恕”这两方面合起来,就叫做忠恕之道。忠恕之道能够解决员工的政治思想问题,培育员工的忠诚感恩之心,提升员工的责任心和事业感,促进员工的工作激情,激发员工的生活情趣。
二是紧跟:就是紧追不舍,不放弃、不抛弃。在工作上、学习上、思想上能够坚持不掉队、不落伍,始终与上级保持一致,进而准确把握时代特征,其实质是具有与时俱进。“紧”,具有紧迫感特征,充满着拉力和压力。“跟”,具有不掉队精神,贯穿着耐力和毅力。把“紧”、“跟”联系在一起就叫做紧跟之心、紧跟之心能够解决员工的惰性和麻痹问题,促使员工不断改进工作方法,不断提升思想认识和理论水平,始终向先进者看齐。在观念上和行动上无限缩小与上级和同事的差距。
三是创新:是对于重复、简单的劳动方式的否定,是对于人类实践范畴的超越,其关键在于推陈出新。“创”,是知识经验等积累的肯定方面,具有广泛性和深刻性,是无限的。“新”,是对方式方法等形态的否定方面,具有逆向性,是一种“怀疑”,是永无止境的。把“创”和“新”结合起来就叫创新之举。创新之举能够解决员工的守旧情绪和熟视无睹的问题,激发员工变异思维,不断创造新思想、新工艺、新方法和新产品,在各个方面都会有所超越、有所发现,从而不断推进行业、社会、民族乃至全人类的进步。
四是兼顾:要除了做好本职工作以外,还要有大局意识,做到局部服务全局,能够克服困难,努力完成各级领导交办的其他工作。其核心是同心协力。“兼”,是一种承载,是一种胸怀,是同心协力的方向。“顾”,是一种完善,是一种包容,是同心协力的目标。把“兼”和“顾”揉合在一起就是兼顾之怀。兼顾之怀能够解决狭隘的个人主义、山头主义思想问题,不仅能够排除行业团结的障碍,而且能够增强行业的战斗力。从而不断整合人力资源,把局部胜利推向全局胜利,不断促使部门、行业及至更大范围内的胜利。
其次,要解决方法问题。就是要通过读活数据(传统方法)、知识运用(推理方法)、大海捞针(筛选方法)、专业软件(技术方法)等方法或手段,挖掘出有用数据。
一是读活数据——传统方法。通过阅读政策、理论和报表数据,运用政策传导和理论根据,去挖掘数据背后的真实状况。在阅读的基础上,进一步计算比较基础数据的增加值、增长率和标准值等变化规律,及时发现各指标在运行过程中发生的突变情况。在阅读、比较的基础上进一步分析。
分析实例一:利率对银行的影响。2007年12月21日到2008年12月23日,央行连续4次下调基准利率,假设在银行存贷款总额不变的情况下,存、贷款人和银行的利息收支变化情况如下表:
利率对银行的影响
单位:万元
一年期基准利率
应付利息
应收利息
利差
存款
贷款
 
 
 
20071221前
4.14
7.47
89250.87
114284.29
25033.42
20081223前
2.52
5.58
54326.61
85368.99
31042.37
20081223后
2.25
5.31
48505.91
81238.23
32732.32
余额
2155818.03
1529910.18
 
 
 
 
20071221
差额
-34924.25
-28915.30
6008.95
 
20081223
差额
-5820.71
-4130.76
1689.95
每下调27个基点的利息收入增加1689.95万元
-5820.71
-4130.76
1689.95
从银行的角度来看,当基准利率下调时,支付的存款利息和收到的贷款利息都会减少,而且在存贷比保持某个比例时,利差会增大,而不是通常人们认为的那样利差会减少。从消费者的角度来看,存款人少收的利息大于贷款人少付的利息,结果银行增加的收入来自存款人减少的收入。
二是知识运用——推理方法。通过理论知识实证或者预测现实世界。
分析实例二:奥肯定律实证分析。失业率每上升一个百分点,实际GDP的增长率就下降两个百分点。2008年,全年国内生产总值同比增长9.0%。如果2009年GDP增长8.0%,则实际下降1个百分点,根据奥肯定律,失业率应上升0.5个百分点,达到4.7%。
分析实例三:GDP与投资的关系。理论上,在投资拉动型的国家或地区,GDP增长一个点,需要投资增长2个点。因此,用GDP与投资总量之间的这种理论关系,可以推算出非信贷投资总额。2008年保山市GDP增长率为13.1%(G),从GDP增速倒推,与其相适应的投资增速应在26.2%左右,但本地银行贷款实际增长22.27亿元,增速仅为16.84%,少增9.36%,表明有其他资金投放在本地;年初贷款余额N=131.79亿元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37亿元。表明外地资金在本地当年投放12.37亿元左右。
分析实例四:金融危机与菜农的关系。美国金融危机后==>中国涉外企业十分困难,大多处于于关停状态==>大量农民工返乡==>返乡后自己种蔬菜(再说也无法买到原来吃的蔬菜)==>以往这些农民工日常消费的蔬菜没有人消费,形成消费链断裂==>河南菜农的蔬菜卖不出去==>河南菜农生产过剩。事实上,根据国新办于2009年2月2日上午10时举行新闻背景吹风会,离开本乡镇外出就业的农民工的总量大概是1.3亿人,大约有15.3%的农民工因全球金融危机而失去了工作,或者没找到工作。据此推算,全国大约有2000万农民工失去工作,或者还没有找到工作而返乡了。假设每个农民工日均消费1市斤蔬菜,返乡农民工有2000万,就意味着菜农每天有2000万斤蔬菜卖不出去。
三是大海捞针——筛选方法。通过Excel的筛选命令,可以从众多的数据中筛选出需要的信息。
分析实例五:异地贷款统计。在《非现场监管信息系统》中,没有对异地贷款信息专门统计,给异地贷款风险监管带来难度,可是,《风险预警系统》给我们提供了丰富的客信息资源。《风险预警系统》中包含了哪个银行在什么地方对哪个企业授信多少、发放贷款多少,以及现在贷款的质量怎么样等48项信息。当银行与企业不在同一个地方时,贷款就衍变为异地贷款,考察全省汇总数据,我们很快发现,可以用筛选方法,将异地贷款统计出来。方法是:分别用筛选命令,筛选出注册地在本地各县区的所有客户,并将其汇总在同一张Excel表中,再删除本地银行机构的客户信息,剩下的就是外地银行在本地客户的贷款信息。反之,也可以筛选出本地银行在外地客户的贷款信息。
四是专业软件——技术方法。通过《非现场监管信息系统》的查询方法和分析模型,进行“时间序列分析”和“同质同类比较分析”,可以挖掘出更多有用的监管信息;通过Excel中强大的函数库,可以获得更多的统计分析结果;通过《马克威分析系统》等专业分析软件,可以从海量信息和数据中寻找规律和知识,建立起概念模型,为决策者提供科学的决策依据。
分析实例六:2009年全国贷款总额预测。根据2002年至2008年一季度贷款余额和全年贷款总量,以及2009年一季度的贷款余额,可以用回归分析预测出2009年贷款总量。如下表所示:
金融机构人民币信贷收支表(单位:亿元)
年份
一季度贷款各项余额
全年各项贷款余额
一季度同比增加
全年同比增加
2002
116255.00
131293.93
 
 
2003
139436.56
158996.23
23181.56
27702.30
2004
167442.53
177363.49
28005.97
18367.26
2005
185461.32
194690.39
18018.79
17326.90
2006
206394.59
225285.28
20933.27
30594.89
2007
239585.58
261690.88
33190.99
36405.60
2008
275000.21
303394.64
35414.63
41703.76
2009
349554.82
382661.64
74554.61
79267.00
表中用回归分析预测函数FORECAST预测了2009年的全年贷款总量,FORECAST(x,known_y's,known_x's)中的x是2009年一季度贷款余额;known_y's是2003至2008年的贷款总量,是因变量;known_x's是2003至2008年一季度贷款余额,是对应的自变量。
在表中,如果计算同比增加量,2009年全年同比增加贷款8万亿元左右。
如果以时间作为自变量,全年各项贷款余额作为因变量,画出全年贷款余额折线图和三阶趋势线,我们发现,决定系统R2=0.9984,接近于1,表示线性拟合程度较高。
 
单考虑时间因素,设x=8,则y=365636.88(亿元)。表明:2009年贷款余额将超过36万亿元。同比年增加6万亿元。考虑到出口减少,外汇储备下降,货币生成机制发生变化,企业更加依赖银行贷款等因素,贷款余额将远不止36万亿元。