二手车交易系统中数据挖掘技术应用研究
来源:用户上传
作者:杨维娜 姜军霞
摘 要:将基于FP树的频繁项目集挖掘算法思想运用到某二手车交易系统数据挖掘中,选取2020年3月―2022年5月中旬所有订单信息、车辆管理信息、车辆拍卖信息及二手车基本信息等。通过数据准备、预处理、删除、整理、归类和转换,输出频繁项集,经数据整理、汇总、对比和分析,发现二手车交易规律,可为用户购车卖车提供决策参考。
关键词:二手车交易系统;FP-growth-tree算法;数据挖掘;关联规则
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2022)16-0142-03
Research on the Application of Data Mining Technology in Second-Hand Car Trading System
YANG Weina, JIANG Junxia
(Xi'an Vocational University of Automobile, Xi'an 710600, China)
Abstract: The algorithm idea of frequent item sets mining based on FP tree is applied to the data mining of a second-hand car trading system. All order information, car management information, car auction information and second-hand car basic information from March 2020 to mid-May 2022 are selected. Through data preparation, preprocessing, deletion, sorting, classification and conversion, frequent item sets output, after data sorting, summarization, comparison and analysis, the rules of second-hand car transaction are found, which provides decision-making reference for users to buy and sell cars.
Keywords: second-hand car trading system; FP-growth-tree algorithm; data mining; association rule
0 引 言
近年来,随着交通事业快速发展,二手车交易市场日益火爆,在互联网时代背景下,二手车交易信息系统逐渐成为买卖双方彼此进行交易的重要平台,但在二手车交易系统中,往往存在诸多复杂、大规模的冗余信息,如车辆出售信息、拍卖信息、交易信息等,这些信息对于某些特定用户来讲,都有着重要参考价值,基于此,本文希望通过二手车交易系统中数据挖掘技术应用研究,挖掘掌握其中的数据规律,为二手车交易提供参考。
1 “数据挖掘”技术概述
1.1 “数据挖掘”的概念
数据挖掘是指从大规模、海量的数据中提取或挖掘有价值的信息或知识,数据挖掘的过程可以理解为从数据集中挖掘潜在有用信息并对其进行高级处理的过程,其中包含了大量规律、模式、概念、规则、约束、条件等内容,通过数据挖掘,可以帮助用户进行决策[1]。
1.2 “数据挖掘”的步骤
数据挖掘是一项系统的工程,它一般分为数据选择(从逻辑数据库中选择被挖掘数据)、数据预处理、数据转换、数据挖掘和数据分析几个步骤,首先在数据挖掘前需要定义业务对象,然后根据关联规则,从不同数据源中整理数据,在数据准备阶段,需要进行数据选择,数据的预处理,数据的转换,最终才能实现知识的同化。其中,关联规则为用户进行数据筛选提供了合适的支持度和置信度,以便于在数据挖掘中可以发现和找出所有频繁项集,根据预设条件自动生成强关联规则,并输出关联规则集合[2]。
2 基于FP树的频繁项目集挖掘算法分析
2.1 算法思想
基于FP树的频繁项目集挖掘算法又称“FP-growth算法”,它是由韩家炜等人在Apriori算法基础上提出的一种新的算法,这种算法的基本思想和原理是,在同一棵FP树上压缩所有的原始数据集,并进行二次扫描。与传统的算法相比,FP-growth算法在数据挖掘中,并不产生候选项目集,所以数据挖掘效率和质量更高[3]。
2.2 算法描述
FP-growth算法在数据挖掘过程中,通常分为两个阶段,首先需要对数据库D进行扫描,并构造FP-tree,得到结果集L,其次,要对根节点null进行创建,选择频繁项进行结果集排序,然后再进行FP-tree挖掘[4]。这种数据挖掘方法基于频繁模式进行递归挖掘,省去了数据挖掘中的候选测试环节,数据库无须重复扫描,结构紧凑,搜索开销较低,数据挖掘效率较高,因此将其运用到二手车交易系统数据挖掘中是切实可行的,具体步骤流程如图1所示。
3 二手车交易系统中数据挖掘技术的具体应用
本研究采用的二手车交易系统数据挖掘技术操作工作平台为“Windows 11”系统,使用的数据挖掘计算机处理语言为“C#”语言,应用的计算机开发平台为Microsoft Visual Studio 2015,算机处理系统的实际运行内存为4 GB,CPU为intel 2.6 GHz,在数据挖掘过程中,本研究主要采用FP-growth算法(基于FP树的频繁项目集挖掘算法),对某二手车交易系统数据库中的相关使用年限、行驶里程、车载人数、车辆价格、车辆品牌等相关数据进行挖掘[5]。
nlc202211011352
3.1 数据准备
本研究在数据挖掘前,搜集整理了某二手车交易系统数据库从2020年3月―2022年5月中旬的所有数据信息,这些数据主要包含订单信息、车辆管理信息、车辆拍卖信息以及二手车基本信息等。
3.2 数据预处理
在数据挖掘前,本研究考虑到该二手车交易平台中交易系统数据库中的相关原始数据信息均未经过数据处理,因此有些数据存在信息冗余和失真情况,比如二手车的颜色、类型、品牌、价格、年限、出售人姓名以及车载人数、车辆使用年限、保养状况等,这些信息中,有些数据并没有实际的使用价值,如二手车出售人的地址、姓名、电话信息等,均毫无数据挖掘价值,对于这些无用的数据信息来讲,如果不加以排除和预处理,必然会影响到数据挖掘的效率和准确性,因此在数据挖掘前,必须要针对这些冗余无用信息数据进行预处理。以下为具体应用步骤。
3.2.1 将无效数据删除
(1)将二手车交易系统数据库中无用的数据属性删除,如二手车出售人模块中的出售人姓名、地址、电话及购车人模块中的购车人姓名、地址、电话等,这些数据信息对于本研究数据挖掘工作而言,没有实际意义,因此可以将其从无效数据字段中予以删除。
(2)将二手车交易系统各表中的脏数据、无用数据及不一致数据、不完整数据全部删除。例如,购车人、车辆出售人等相关用户注册信息模块中前后不一致、错误及不完整的数据信息均可删除。
3.2.2 对部分数据进行整理、归类和转换
在数据预处理阶段,需要针对某二手车交易数据库中的部分数据进行整理、归类和转换,其中包含二手车车辆品牌、颜色、类型、里程、价格、人数、保养状况、年限、购车人职业、性别和年龄等。考虑到该二手车交易数据库中的原始数据表中的有些数据不属于“布尔型”数据结构,因此与关联规则挖掘算法基本规则明显不符,为了确保数据库中的相关数据信息与本研究采用的关联规则挖掘算法保持对应和一致,需要对其中的原始数据进行离散化转换处理[6]:
(1)二手车交易数据库中原始数据量化属性区间化和离散化。“FP-growth关联规则挖掘算法”要求将二手车交易数据库中的部分数值型原始数据进行量化属性区间化和离散化处理。比如,根据“布尔型”二手车交易数据库中原始数据的实际取值分布规律,对二手车交易数据库中数值型的属性行驶里程进行区间化和离散化,即表示为:20(≤3万千米)、21(3万~7万千米)、22(7万~11万千米)、23(11万~19万千米)、24(19万~29万千米)、25(29万~39万千米)、26(39万~49万千米)、27(49万~59万千米)、28(59万千米以上),由此类推,本二手车交易数据库中的其他部分数值也可按照此方法进行数值属性转化,将数值型的属性数据划分为分别包含几个区间的布尔型数据,最终均转化为数字。
(2)二手车交易数据库中原始数据类别属性转化。在数据挖掘过程中,二手车交易数据库中原始数据的“备选属性”同样也需要进行类别转换,例如,二手车交易数据库中的性别属性原始数据,在数据挖掘前,也需要全部转换为包含几个具体区间的布尔类型数据,如67(男)、68(女),按照此方法由此类推,本二手车交易数据库中的其他部分数值也可按照此方法进行数值属性转化,将数值型的属性数据划分为分别包含几个区间的布尔型数据,最终均转化为数字[7]。接下来,本文就此举例展开具体分析和说明,本二手车交易数据库中一些备选项属性记录的字段名含义、属性名称对应关系以及经数据转换后的事务数据统计如表1至表3所示。
3.3 数据挖掘结果与分析
基于上述算法关联对应规则,本研究通过对经整理与转换后的二手车交易系统预处理数据进行数据挖掘,以上数据经合并、整合和数据预处理,分类为消费者行为偏好、满意度、忠诚度、个人信息四部分,如图2所示。
我们研究所需要的挖掘数据除了部分客户个人统计特征数据、行为偏好数据、满意数据、忠诚度数据之外,还需将转换后的事务数据输入数据挖掘计算机系统中,分别设定最小支持度s和最小置信度c,其中s=7%,c=28%,由此基于FP树的频繁项目集挖掘算法输出频繁项集,并得到如表4所示的数据挖掘结果。
通过数据挖掘整理,根据表4中数据统计结果可以看出,二手车交易数据挖掘关联规则A表示黑色奔驰MPV汽车行驶里程在5~9千米范围之内的二手车比较受二手车购买车主的欢迎,而二手车交易数据挖掘关联规则B表示宝马SAV行车年限在3~5年之内的汽车比较受男性车主的欢迎,规则C表示行驶里程在3~7年的路虎轿车更受女性购车主的青睐,规则D表示行驶里程在50~90千米的白色捷达轿车更受男性购车者的青睐,规则E表示行驶年限在3~7年,并且汽车行驶里程在30~100千米之内的银色别克轿车更受女性购车主的欢迎,规则F则表示行驶年限在1~2年的MPV红旗轿车比较受男士的青睐,而且在二手车交易市场中成交数量较大。
4 结 论
本研究基于P树的频繁项目集挖掘算法,对某二手车交易系统中的车辆品牌、颜色、类型、行驶里程、行驶年限、买售人性别等相关数据信息进行分析和对比,基于FP-growth和FP-tree算法关联规则,挖掘和总结其中的数据分布规律,从而为二手车市场中售车主与购买者双方的信息交互提供了良好的价值载体。本研究认为,在数据挖掘过程中,基于算法关联规则对二手车交易系统中的数据信息进行挖掘时,必须要充分做好数据挖掘前的数据筛选和数据准备及数据选择工作,结合数据挖掘目标,通过设定核实的最小置信度和支持度,从而为合理地进行数据挖掘提供基础。如果数据挖掘的参数值设定过大或过小,都会对最终的数据挖掘结果产生影响,从而不利于关联规则的运行,由此可能会导致资源浪费,数据冗余,只有基于数据挖掘原理与算法进行数据预处理,经过数据量化属性离散化、类别属性转化,才能对整理和转换后的二手车交易信息进行有效性挖掘。
参考文献:
[1] 毛国君,段立娟,王实.数据挖掘原理与算法 [M].北京:清华大学出版社,2005:42-48.
[2] 孟维成.计算机数据挖掘技术的开发及其应用分析 [J].电子世界,2022(1):76-77+86.
[3] 王艳雨,刘萍.基于云计算与物联网技术的数据挖掘分析 [J].科技创新与应用,2021,11(35):94-97.
[4] 王丽丽.大数据背景下数据挖掘技术的应用 [J].计算机与网络,2021,47(20):45-47.
[5] 张博.大数据时代的数据挖掘技术与应用 [J].数字技术与应用,2020,38(12):35-37.
[6] 吕国,肖瑞雪,白振荣,等.大数据挖掘中的MapReduce并行聚类优化算法研究 [J].现代电子技术,2019,42(11):161-164.
[7] 李,曾春秋,周武柏,等.大数据时代的数据挖掘――从应用的角度看大数据挖掘 [J].大数据,2015,1(4):57-80.
作者简介:杨维娜(1984.10―),女,汉族,陕西西安人,工程师,本科,研究方向:汽车服务工程;姜军霞(1982.10―),女,汉族,甘肃白银人,工程师,本科,研究方向:汽车运用工程。
nlc202211011352
转载注明来源:https://www.xzbu.com/1/view-15441646.htm