您好, 访客   登录/注册

基于标签的数据挖掘技术的研究

来源:用户上传      作者:

  【摘  要】近年来,数据呈指数级增长,人们对数据的利用能力越来越高,特别是近几年兴起的大数据、云计算、人工智能等新兴技术汇集了人类有史以来最多最全的数据,但是如何从数据中发现各种关系与规则,从海量数据中找到更有价值的数据,是人们急需解决的问题。数据挖掘技术是解决这一问题的根本方法,而基于标签的数据挖掘技术是完整刻画描述人物特征的基本方法。
  【Abstract】In recent years, the numbers have grown exponentially. People's ability to use data is getting higher and higher, especially in recent years, emerging technologies such as big data, cloud computing and artificial intelligence have collected the largest and most complete data in human history. However, how to discover all kinds of relationships and rules from data and find more valuable data from mass data is an urgent problem that people need to solve. Data mining technology is the fundamental method to solve this problem, and the data mining technology based on tag is the basic method to describe the characters completely.
  【關键词】数据挖掘;大数据;标签
  【Keywords】data mining; big data; tag
  【中图分类号】TP311                                                    【文献标志码】A                                   【文章编号】1673-1069(2020)02-0156-02
  1 引言
  目前,关于人员标签的研究主要集中在人物画像,所谓人物画像[1]就是将人物的行为特征标签化,是描述人物的数据,是符合特定业务需求的对人员的形式化描述。人员标签的应用主要体现在商业营销领域,各大购物网站通过记录用户的操作数据,对用户进行建模,给用户建立标签,再给用户推荐其可能会购买的商品,从而达到促进消费的目的,如京东、淘宝、拼多多等。标签技术在公共安全领域的研究起步比较晚,仅做到描述层级,无法实现深度的挖掘和关联,与具体业务的结合比较松散,对于需要从海量情报信息中串并深挖、预测预警的业务工作来说,仍需要进行定制化的研发。
  从数据中“淘金”,从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据技术和人智能智能技术的综合。
  2 技术背景
  2.1 标签
  标签[2]是根据人物的行为、属性与具体的时间、地点、事件等数据结合后给出的人物的特征,如有相同属性的人群,性别(男或女)表示同性别的人员等。近年来,在消费、金融等领域,普遍利用标签对人物进行画像,经过特征分析,对人物进行合理分类,从而帮助用户改进工作流程和工作模式。公共安全行业在标签系统的建设中起步较晚,已经开展了一批标签系统建设,但是并没有形成统一的方法论对实体标签进行数据挖掘,对标签的实际应用分析比较少。
  2.2 数据挖掘
  数据挖掘[3]是指在海量的、复杂的数据中,挖掘出隐藏其中的、未知的、有用的信息的过程。数据挖掘涉及比较广泛,融合了数据分析、决策支持、大数据、人工智能、云计算等内容。源数据的结构比较复杂,可以是结构化的如关系型数据库等,也可以是非结构化的如图片、音频、视频等,或者是半结构化的如网页等。数据挖掘可分为直接和间接数据挖掘。直接数据挖掘就是利用现有的数据,建立模型,然后利用该模型对剩余的数据进行分析和描述,包括分类、估值和预测等。间接数据挖掘是在所有的变量中寻找某种关系,事先并未选出某一具体的变量[4]。
  3 核心内容
  3.1 数据挖掘技术
  数据挖掘技术包括分类、聚类、预测、时间序列分析、关联分析等。分类是根据已知的一些样本包括属性与类标号来得到分类模型,即得到样本属性与类标号之间的函数,然后通过此目标函数来对只包含属性的样本数据进行分类,是一种有监督的学习。最常见的分类方法是逻辑回归或者逻辑分类。聚类分析是一种无监督学习,目的是通过某种方法将一组未知数据划分成若干种类,事先并不知道源数据的类别。预测是在历史数据的基础上,找出其中的某种规律,建立模型,并通过该模型对未来的数据种类及特征进行预测。时间序列分析是通过时间序列搜索出重复发生概率较高的规律或者模式。关联分析主要用于发现变量取值之间的相关性规律[5]。
  3.2 数据治理
  数据治理是对数据的有效处理。通过数据采集,将各类数据汇集,并进行数据清洗,将其中无用的、重复的数据清除、精简,再通过标准化、结构化之后,分类存储,形成结构化、规范化的资源库,为实体标签分类和生产提供了可靠的数据基础(见图2)。
  3.3 标签开发和应用
  从数据中发现有用信息是数据挖掘技术的重点。通过算法分析,将人、车、物、事件和时间空间相结合,按照分类方法划分相应的标签,根据标签组合实现对实体的行为的基本判断。实体标签是基于标签引擎开发,标签开发和应用流程如图3所示。
  标签根据人员的属性分为行为属性标签、人员特征标签、基础属性标签以及社会属性标签。标签一般按照实体进行分类,例如,人的基础属性包括姓名、性别、出生日期、出生地、血型等;社会属性标签包括职业、年龄、所在城市、会员等级等;行为属性标签包括出行行为、异常经历行为等。人员特征标签包括是不是重点人员等。
  4 结语
  通过数据挖掘技术的应用,对收集到的各类数据进行处理,形成标签体系,投入标签市场,并发布到标签中心,下一步将对标签进行进一步分析、同步、管理等,并提供给上层应用,如标签查询、标签统计、标签地图、情报研判等。
  【参考文献】
  【1】席岩,张乃光,王磊,等.基于大数据的用户画像方法研究综述[J].广播电视信息,2017(10):37-41.
  【2】李思男,李宁,李战怀,等.多标签数据挖掘技术:研究综述[J].计算机科学,2013(04):14-21.
  【3】杨雪.浅析数据挖掘技术[J].华南金融电脑,2005(08):83-85.
  【4】邱国伟.移动通信中数据挖掘技术的有效运用[J].通讯世界,2017(08):76-77.
  【5】靳延安.社会标签推荐技术与方法研究[D].武汉:华中科技大学,2011.
转载注明来源:https://www.xzbu.com/4/view-15223323.htm