数据挖掘技术在科研机构情报分析工作中的应用研究
来源:用户上传
作者:
摘 要 在我国的科研情报服务中,对数据的挖掘技术还存在很多的问题,本文分析大数据对信息的挖掘功能以及目前情报分析中存在的问题,并给出了相关的解决方案。
关键词 数据挖掘;科研机构;情报分析
引言
在当今信息时代,信息技术被广泛应用在企业、科研院所和政府部门等机构,随着各项工作的开展,积累了海量的、不同形式的数据资料。而在科研机构开展科研活动过程中,需要通过大数据的技术手段,对这些隐含着各种各样有用的信息数据进行采集、分析、处理、存储等工作,将其转化为有价值的信息,为决策服务,并指导科研人员研发更多的产品,不断提升技术,提升科研成果的价值和科研机构的影响力。基于这种需求,数据挖掘技术开始出现并得到了广泛的关注和应用。
1 数据挖掘技术概述
1.1 数据挖掘的定义
数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程[1]。数据挖掘在科研领域也称为数据库中的知识发现,是一个利用各种算法和工具在海量数据中发现有效知识的过程。在科研机构中数据挖掘基于的环境是大型科技文献数据库和专利数据库,它应用的对象是大规模数据集,处理的数据往往以GB、TB计,甚至更大。
1.2 数据挖掘技术概述
数据挖掘技术主要包含统计学、数据库、人工智能等专业学科领域。数据挖掘技术有数据库、対象、任务、方法与技术、应用等几类。其中数据库技术包含:关系、历史、空间、模糊四种数据挖掘类型;数据挖掘对象包含:文本、多媒体、Web数据挖掘三类;按数据挖掘任务分类包含:关联分析、时序模式聚类、分类、偏差检测、预测等技术;按数据挖掘的方法和技术分类包含:归纳学习、仿生物技术、统计分析、公式发现、模糊数学等类别。
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。目前,数据挖掘技术有两种主要的类型,一种是对象类型,另一种是功能型。前者主要是针对多媒体数据、时间序列数据、空间数据。后者主要有描述和预测的模式,描述模式分为、序列、聚类、关联模式,预测模式主要时间序列模式、分类模式、回归模式等。
1.3 数据挖掘技术研究现状
数据挖掘技术近年的研究方向主要集中在基础理论研究、大数据挖掘研究、图挖掘研究及社交网络分析等领域。在基础理论研究中,大多是根据实际的应用改进或提出新的分类、算法,以新技术解决现实问题;大数据挖掘是当前的研究热点,其研究领域的进展体现在可扩展性算法、并行性算法、分布式算法等几个方面;图挖掘研究主要集中在图模式挖掘和基于图的学习算法研究方面;社交网络分析研究主要集中在网络结构分析、群体行为和影响力、建模以及网络信息传播分析四个方面,近几年情报研究人员在社交网络研究方面开展的研究比较多,例如社交推荐、社交搜素等。
2 数据挖掘在情报分析工作中的应用
2.1 成果查新
在科研项目评估过程中,为了尽量避免单纯依靠同行主观评议,在决策过程中将基于数据釆集的技术预测与同行评议相结合,通过针对大型科技文献和专利数据库的数据挖掘方法的研究,在同行评议过程中提供数据和知识支持[2],使评议专家可以从众多信息中提取出有用信息,做出正确有效的判断,从而增强科研项目评估的科学性,提高科研管理水平。
2.2 专利情报分析
文本挖掘(Text Mining)作为近年来的新兴技术:已经广泛地应用于各个领域,特别是在专利情报分析可视化方面有集中体现。文本挖掘的主要目的就是发现在大文件资料中的隱含及有用的信息据知识库中的知识源数据。文本挖掘基于知识库中的知识发现理论(KnowledgeDiscovery in Database)提出,主要应用在结构化或半结构化的文本中如网页、电子邮件等,文本挖掘运用了多种计算机辅助分析技术如文本分制、摘要提取、特征选择、词语关联、聚类、主题识別及信息映射等( text segmentation, summaryextraction: feature selection: term associationcluster generation, topic identification: andInformation mapping)[3]。
2.3 竞争情报分析
数据挖掘技术还应用在企业竞争情报分析工作中。科研机构要想获得最新的研究方向、潜在的科研合作信息、了解本领域的各研究机构组织构成,基于大数据、web网络的竞争情报分析是数据挖掘技术的另一项重要应用。随着科研领域的不断细分和专业化程度的加深,表面上看没有联系的文献,如不存在互引、共引或其他相关文献条件的文献,经过数据挖掘,却可能找出某种能引致新知识产生的潜在的关联关系,基于非相关文献的知识发现方法可用来挖掘科研机构潜在的合作趋势,发现科研机构之间潜在的合作和交流活动。
2.4 科研管理
目前,在科研机构的科研管理过程中使用数据挖掘技术主要体现在以下几个方面:①挖掘整理单位科技研究过程中的有价值数据,建立自编数据库,通过大量数据的统计分析得出图表和趋势图,对科研课题数据进行分析,判断经费执行得是否满足序时进度,有的放矢地进行整改,提高科研管理效率;②对历年科研用品采购数据的分析,提前预估需求,预算下一年的采购金额,按分类提前做好常规物资的储备;③对实验数据的挖掘能掌握实验规律,降低失误率,减少试验次数,节约科研经费;④全面分析用户需求和使用习惯,科研数据管理人员还可以立足于数据运维服务,提供并衍生多种服务,给科技人员带来全新的使用体验。
3 结束语
随着科技的进步,信息挖掘技术的研究和应用将会产生更多新的理念和思想,这些技术都将为情报分析服务,为科技研发服务。未来的数据挖掘和情报分析,将在科研机构发挥更加重要的作用。
参考文献
[1] 刘维.数据挖掘中聚类算法综述[J].江苏商论,2018,(07):120-125.
[2] 朱东华,杨丹丹,袁军鹏.数据挖掘技术在科研成果评估系统中的应用[J].科学学与科学技术管理,2003,(01):31-33.
[3] 李慧,师洪波.专利情报分析在科研项目立项中的应用研究[J].图书馆学研究,2011,(21):90-93.
转载注明来源:https://www.xzbu.com/1/view-14900450.htm