您好, 访客   登录/注册

数据挖掘技术在商品销售预测方面的应用

来源:用户上传      作者: 刘金岭

  [摘要] 本文主要从商品销售的同周期或近期销售的海量数据出发,把每一条购买记录做为一个事物,构成事务数据库,给定一个频率阙值,利用Apriori算法或改进算法,求出事物数据库的频繁项集,在频繁项集中,一方面可以统计出频率高的商品,进而可以对这些商品销售做出相应策略;另一方面,笔者又对频繁项集构成的商品样本集合进行归类,为决策者提供商品销售周期短的一些分类商品数据。
  [关健词] 商品销售 频繁项集 Apriori算法
  
  在商品销售理论中的著名“自然选择论”,是以达尔文的“适者生存”为基础的,认为商品销售的发展必须与社会环境相适应,只有那些能够适应消费者需求,适应社会、文化和法律环境变化的销售商才能生存下来。
  一、引言
  市场之所以可以被预测,是因为人们通过长期的认识,积累起丰富的经验和知识,可以逐步了解市场变化规律;然后,凭借各种先进的科学手段,根据市场发展历史和现状,推演市场发展的趋势,做出相应的估计和推测。尽管市场瞬息万变,但这种发展变化在长期的过程中也存在一些规律性(如竞争规律、价值规律等),可以被人们所认识。任何事物都不可能孤立存在,都是与周围的各种事物相互制约、相互促进的;许多事物相互之间在结构、模式、性质、发展趋势等方面客观存在着相似之处。根据这种相似性,人们可以在已知某一事物的发展变化情况的基础上,通过类推的方法推演出相似事物未来可能的发展趋势。
  本文从零售商品销售的记录出发,把每一条用户购买的商品记录作为一个事务,将一连续的时间(时间区段可由具体商品系列而定)段的记录作为事务数据库,利用Apriori的算法或改进算法找出频繁项集的集合L。一方面由频繁项集的每个事务可以确定客户购买的商品的组合,以实现“购物蓝”预测(笔者在其它地方讨论);另一方面本文主要讨论将频繁项集的商品做为样品并入到同一个样品库K中(重复的去掉),用聚类的k中心点算法将K分成k个小类。给定一个距离阙值,利用距离函数将总商品全域M中的商品分成k(去掉距中心点距离超过阙值的商品)个大类,本模型比较适合于流动人口购买力弱的商业环境。
  二、使用事务数据库求频繁项集L
  顾客购买的商品在收款机打印出的一张票的全部商品的集合定义为一个事务,它作为一条记录存储到事务数据库中。一个事务内的一件商品定义为一个项,项的集合称为项集,包含k项的集合称为k-项集。把事物数据库做为候选项集找频繁项集的最有代表性的算法是Aprior算法,近几年该算法不断有人优化和改进,如N.Pasquier等提出了用于挖掘频繁闭项集的算法,优化了Apriori算法;M.J.Zaki等提出的基于内存的频繁闭项集的CHARM算法等。我们可以利用上述算法在事务数据库找出频繁项集的集合L。
  三、商品分类的定义及关键技术
  1.商品的向量化表示
  商品可以采用向量空间模型,其出发点是:每个商品都包含一些用概念词表达的揭示其内容的独立属性或者有些商品还标有其各种原料的组成成份及百分比,而每个属性都可以看成是概念空间的一个维数,这些独立属性称为商品特征项(常见的特征项类型有名称、组成成份、短语描述等,现有的研究认为以词为单位来进行处理比较合理) ,则商品就可以表示为这些特征项的集合。因此商品就可以表示成形如d =(t1,w1;t2,w2;……tn,wn),其中ti为特征项, wi为其对应的权重(在商品组成成分中可以看做所占百分比)。权重值大的特征项对区别商品具有重要的意义。如酒类商品中的酒精度,糖类商品中的糖份,衣服商品类中的面料、做工、品牌、式样。
  2.特征抽取与选择
  特征抽取一般是通过构造一个特征评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中的值对每个特征进行评估,它可以看作是从测量空间到特征空间的一种映射或变换。特征选择就是根据特征评估结果从中选出最优的且最有代表性的特征子集作为该类的类别特征。因此,特征提取与选择是训练集中商品共性与规则的归纳过程,是商品分类中最关键的问题,它可以降低特征空间的维数,从而达到降低计算复杂度和提高分类准确率的目的。
  常用的特征评分函数有:互信息、信息增益、期望交叉熵等等,大量的研究表明采用互信息算法效果明显优于其它算法。互信息是统计学和信息论中一个重要的概念,它表征了两个统计量间相互关联的程度,关联程度越高,互信息越大,反之亦然。
  3.商品分类的方法
  基于向量空间模型的分类方法有类中心分类法,贝叶斯算法、KNN 算法和神经网络算法等。其中类中心分类法应用地比较广泛,在向量空间模型中,我们把商品和类别都表示为空间中的一个点向量,商品向量和类别向量之间就存在空间上的距离远近,而这种距离就可以采用向量间夹角的余弦来度量,定义如下:
  (1)
  其中d=(d1,d2,…,dn)为商品d的特征向量, c=(c1,c2,…,cn) 为类别特征向量,即用两个向量之间的夹角的余弦来表示商品与类别之间的相似度,夹角越小,距离越近,余弦越大,相似度越大,反之相似度越小。计算出商品与所有类别的相似度后,将其归入相似度值最大的类别中。本文中我们将以此方法的分类结果为基准,进行研究商品分类方法。
  四、频繁项集L的分类方法
  将频繁集L中的所有商品组合成一个商品样品库进行分类,一般来说类中心分类法简单直观,但对于类别界限不明显时,该方法性能不高。KNN算法的较好,该算法的基本思路是:在给定新商品后,选定在训练集中与该新商品距离最近(最相似) 的k个商品,根据这k个商品所属的类别判定新商品所属的类别。距离判别一般也采用向量间夹角的余弦来度量,具体定义如公式(1)。如果有多个商品同属于一个类,则该类的权重为这些相似度之和。在新商品的k 个邻居中,依次计算每类的权重,计算公式如下:
   (2)
  其中d为新商品的特征向量,SC(d,di)为相似度计算公式,而y(di,Cj)为类别属性函数,即如果di属于类Cj,那么函数值为1,否则为0。最后比较类的权重并进行排序,将商品分到权重最大的那个类别中。这里k值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整k值。详细算法如下:
  1.对待分类商品进行预处理和商品向量化处理;
  2.采用类中心分类法对新商品进行粗分类,依次计算该商品与各类别的相似度;
  3.若相似度结果排序的前几位相差较大,则将其归入相似度值最高的类别中;
  4.若类别相似度值很接近,满足一定的范围条件时,则在这几个相近类别的训练集中采用KNN 算法来进行细分类。
  五、结论
  任何一家商业市场不可能处于完全市场中,在市场信息不对称的情况下,大量的经济信息借助市场迅速传递和反遗,具有极强的时效性。一旦商业决策者对需求信息把握有差异,将会带来灾难性的后果。商业销售的周期性特别强,因此对同时期或近期大量销售数据做进一步全面、系统分类、整理、研究和评估,经过去粗取精,去伪存真的筛选活动后,提炼出可使用的市场信息。本文利用数据挖掘的先进技术,对商场销售的海量数据进行了分析,给出了同周期内或近期顾客购买力的需求,为决策者提供了科学依据。笔者下一步的工作是在商品分类的基础上给出商品购买顾客的消费水平,以待为新商品上市提供科学数据。
  
  参考文献:
  [1]Jiawei Han等著范明等译:数据挖掘概念与技术.机械工业出版社,2007.3
  [2]朱光喜吴伟民:一种基于前缀树的频繁模式挖掘算法.计算机科学,2005(4):34~36
  [3]路松峰等卢正鼎:快速开采最大频繁项目集.软件学报,2001,12(2):293~289页
  [4]周钦亮李玉忱:公爱国.一种新的高效生成FP-tree条件模式的算法.计算机应用,2006,26(6):1418~1422
  [5]黄萱菁吴立德等:独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1~7
  [6]秦进陈芙蓉等:文本分类中的特征抽取[J].计算机应用,2003,23(2):45~46
  [7]Yiming Yang,An evaluation of statistical approaches to text categorization[J].In:Journal of Information Retrieval ,1999,1(2):67~ 88
  
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。


转载注明来源:https://www.xzbu.com/3/view-1493646.htm