您好, 访客   登录/注册

基于关联规则的客户识别应用研究

来源:用户上传      作者: 田毅

  摘要:当今,竞争日益激烈,企业面临着前所未有的挑战。如何识别客户成为企业竞争发展的一项重要课题。基于关联规则的客户识别将有利于传统企业管理思想的创新。一个有效的客户识别方法应该可以进行探索性的数据分析,提高企业客户识别能力,发现更有趣的、更实用的和更特别的数据之间的关联规则。
  关键词:客户关系管理系统,数据挖掘,分类,聚类,关联规则
  
  随着经济的全球化趋势,市场竞争日益激烈。客户识别正是顺应这种发展的需求而出现的一种以客户为中心的新型商业模式。越来越多的企业将客户作为一切工作的出发点,比以往更加重视客户的满意度、忠诚度和客户利润贡献率的提升,客户识别日益得到了广泛重视和长足发展。进行有效的客户识别,就是要从储存大量客户信息的数据仓库中经过深层分析,使用关联规则,获得有利于商业运作、提高企业市场竞争力的有效信息。关联规则的支持,使客户识别的理念和目标得以实现,满足现代电子商务时代的需求和挑战。
  1. 关联规则
  关联规则的概念由美国r的Agrawal等人在1993年提出,是数据挖掘中一种简单而实用的规则。假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
  1.1 什么是关联规则
  在描述有关关联规则的一些细节之前,先来看一个有趣的故事:“尿布与啤酒”的故事。在一家超市里,有一个有趣的现象:尿布和啤酒竟然摆在一起出售。但是,这种奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购了深层分析,想了解顾客经常一起购买的商品都有哪些。沃尔玛数据仓库里集中了其各门店的详细的原始交易数据。在这些原始交易数据的基础上,沃尔玛利用关联规则对这些数据进行分析和挖掘。得出了一个令人意外的发现:“跟尿布一起被购买最多的商品竟是啤酒!”经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班以后要经常到超市去买婴儿尿布,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
  按照常规思维模式,尿布与啤酒风马牛不相及,若不是借助关联规则进行挖掘和分析,沃尔玛是不可能发现数据之间存在的这一有价值的规律。
  1.2关联规则在客户识别中的应用
  传统企业的信息管理系统由于缺乏数据挖掘功能,最多只能统计一些数据,从表面上似乎合理,但实际上根本不能反映出本质的情况,例如,通过传统的信息管理系统,我们得出某一种红酒在超市的销售额排名倒数第一位,按照以往的做法,该红酒肯定会停止销售,但是通过对所有销售数据进行关联分析,我们会发现消费额最高的客户中有25%常常买这种红酒,如果停止出售这种红酒,必然会引起这些高端客户的不满。
  关联分析就是发现交易数据库中不同商品之间的内在的联系,利用关联规则找出顾客购买行为模式,如购买了某一商品对其它商品的影响。例如,它能发现数据库中如“90%的顾客在一次购买活动中购买商品X的同时购买商品Y”之类的问题。发现这样的规则可以应用于商品货架设计、库存安排以及根据购买模式对用户进行分析等。
  用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是商品销售数据。如果对这些历史数据进行分析,则可以对顾客的购买行为提供极有价值的信息。例如,可以帮助商家如何摆放货架上的商品,如何帮助商家规划市场等。总之,从事务数据中发现关联规则,对于改进商业活动的决策非常重要。
  1.3实证研究
  以超市的购物系统为例,阐述关联规则在客户识别中的具体应用。某超市货架上有许多货物,例如,牛奶、水果、可乐等,我们应用关联规则就是为了发现当一个人已经购买了牛奶时,那他有多大可能还会买水果呢?一种简单的方法就是利用概率计算,其定义如下:设A, B是两个事件,且P(A) >0称P(B|A) =P (AB)|P(A)为在事件A发生的条件事件B发生的条件概率。
  首先,设定最小支持度为40%,假设该超市数据库中共有5条记录,如表1-1所示:(记录中1代表购买,0代表没有购买)
  L2为得出的最终频集。
  由条件概率可得“
  规则牛奶(水果(买牛奶后又买水果)的可信度为P(牛奶、水果)/P(牛奶)=40%/60%= 2/3。
  规则水果(牛奶(买水果后又买牛奶)的可信度为P(牛奶、水果)/P(水果)=40%/80%=1/2。
  由此可以看到买牛奶的人也买水果的可能性(67%)高于买水果的人也买牛奶的可能性(50%)。牛奶和水果关联的支持度已足够高了,意味着这是一条有意义的关联规则。
  由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。
  2 结束语
  本文主要探讨了关联规则的实现细节及其结合在客户识别中的实现过程,并通过对实际数据的分析提出有效识别客户的建议。
  为了进一步提高关联规则的实用性,改进与优化关联规则,使其能更快、更有效地产生频繁项目集,可通过两方面对该算法进行变形:一是利用减少其算法实现过程中的事务数来减少运算量;二是尽量地减少算法实现过程中对数据库扫描的次数。这样就可以进一步提高数据挖掘算法在客户关系管理中的实用性,提高数据挖掘的效率。
  
  参考文献:
  [1] 盛秋生,邵仲岩,张月武.大型商业零售企业共同成本的有效性分析[J]江苏商论,2006.8:5~6
  [2] 马金平.生产成本分析服务系统工具的设计与实现 [J]计算机工程与应用,2002.16:159~161
  [3] 李向宁,郝克刚.一种基本分类和预测技术的产品成本估算系统研究与应用 [J]郑州大学学报(工学版),2006,27(3):77~80
  [4] 梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006.
  作者简介:
  田毅,1983年生,男,江西九江人,助教实验员。主要研究方向:计算机技术、数据仓库等。
   注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”


转载注明来源:https://www.xzbu.com/2/view-423277.htm