您好, 访客   登录/注册

面向电力生产管理系统非结构化数据检索系统

来源:用户上传      作者: 陈晔桦 郗君甫 陈晓纪

  摘 要:如何使电力生产管理系统给用户提供更高效的信息检索服务,是电力行业存在的一个问题。本项目参照传统的Web搜索引擎模式,结合本体、索引、预处理、模式图技术,开发的面向电力生产管理系统非结构化数据检索系统,系统采用B/S架构,用户输入关键字,发出检索请求,向用户返回根据排序策略发回的top-k分级的检索结果,提高了电力生产管理系统的查询效果。
  关键词:本体;索引;top-k
  中图分类号:TP315
  基于关键词的搜索引擎是目前信息检索的主要方式,现有的互联网搜索引擎主要针对静态网页进行索引,而企业级搜索引擎则更多地关注于文档、视频、图像等非结构化数据的检索。对于电力应用而言,往往同时需要结构化数据和非结构化文本,两类信息的融合成为一个核心问题。而目前的企业级数据都存储于关系型数据库中,查询这些数据,通常需要结构化的查询语言来访问,SQL访问方式需要查询用户知道理解数据库模式,也要懂得复杂的T-SQL查询语句,因此一般适合专业用户。普通用户查询一般通过定制的程序查询接口来访问后台数据库的数据,此种查询方式虽然不要求用户书写复杂SQL查询语句,但是也要求用户知道理解数据库模式[1-4]。对于电力行业,企业级非结构化数据存储于后台关系型数据中,鉴于关键词检索在非结构化数据检索中的直观易用性,本文将关键词查询技术应用到电力生产管理系统中,像使用百度那样通过提交关键词来获取数据库中的相关数据,使用户可以方便、快速地获取所需要的查询结果,同时为了满足市场多样化需求,该系统设计时,对关键词检索进行语义检索扩展。
  1 系统研究与设计
  1.1 总体设计
  根据关系数据库和关键词查询技术特点,参照传统的Web搜索引擎模式,结合本体、索引、预处理、模式图技术,系统划分检索模块、语义检索扩展模块、预处理模块。
  检索模块:实现电力生产管理系统非结构化数据检索,采用B/S架构,用户输入关键字,发出检索请求,向用户返回根据排序策略发回的top-k分级的检索结果。
  语义检索扩展模块:结合本体、索引技术,实现电力生产管理系统非结构化数据检索具有语义检索功能。
  预处理模块:采用预处理技术,实现电力生产管理系统非结构化数据检索系统具有预处理功能,提高系统查询效果。
  1.2 检索模块
  该模块主要有关键词处理器、元组集生成器、候选网络生成器、候选网络生成器组成。关键词处理器:把用户提交的关键词集进行分词、消词等相应处理,使连续的字序列按照一定的规范重新组合成词序列,消除其中冗余关键词和重复关键词,从而得到更合理的查询关键词集。
  元组集生成器:利用数据库管理系统提供的全文检索功能建立IR引擎,将后台关系型数据库中的具有文本属性的每个关系生成元组集,将那些与处理后的关键词相关的非空元组集保留下来,当且仅当关系中元组和处理后的关键词相关大于零时,该元组才被插入元组集。
  候选网络生成器:利用元组集生成器生成非空元组集对关系数据库模式图进行扩展,形成元组集图,采用相应算法扩展元组集图,生成结点不超过预定最大允许结点数的候选网络。所谓候选网络,也称元组集连接树,也是可以看做是要用来产生关键词查询潜在结果的JOIN表达式[5-6]。
  候选网络执行器:候选网络执行器采用搜索算法执行候选网,依据评分函数排序策略,计算出查询关键词和检索结果的相似度值,依据相似度的大小,生成最终top-k查询结果返还给用户。
  1.3 语义检索扩展模块
  该模块结合本体、索引技术,使用户可以通过SQE自由选择是否对查询关键词集进行语义扩展,将其转变为具有语义关键词检索,将该模块应用到项目电力生产管理系统非结构化数据检索系统中,可使得该系统具有语义检索功能。此方法可有效的提高检索结果的查全率,并改善查准率[7]。
  1.4 预处理模块
  该模块主要有关系选择器、元组集生成器II、元组集图生成器、候选网络生成器、TSCN索引组成。
  首先生成数据库模式图,根据生成的业务数据库模式,关系选择器通过特定方法选择出存储非结构化数据的关系,并将此关系看做一个元组集,根据关系的主外键依赖关系,将组合列表的每一种情况进行处理,通过元组集图生成器模块生成相对应元组集图,在最大允许候选网络的大小的限制下通过候选网络生成器模块广度优先遍历元组集图生成候选网络,并将预处理后的候选网络预存到CNs数据库中,并建立相应的TSCN索引。只要数据库结构不变,预处理只需要执行一次。
  2 结束语
  面向电力生产管理系统非结构化数据检索系统,可是改变用户访问关系数据库的方式;能够有效降低非专业用户获取后台业务数据库的检索门槛,更有效地使数据产生价值;降低业务数据检索的复杂性,使用户方便、快捷地获取有价值的数据信息,综上所述,面向电力生产管理系统非结构化数据检索系统的应用开发研究具有重要的意思和电力企业强烈的应用背景。
  参考文献:
  [1]H.He,H.X.Wang,J.Yang, et.al.BLINKS:Ranked Keyword Search on Graphs.The 2007 ACM SIGMOD InternationalConference on Management of Data,Beijing,China,2007:305-316.
  [2]G.L.Li,B.C.Ooi,J.H.Feng,et al.EASE: An Effective 3-in-1 Keyword Search Method for Unstructured, Semi-structuredand Structured Data.The 2008 ACM SIGMOD International Conference on Management of Data,Vancouver,BC,Canada, 2008:903-914.
  [3]L.Qin, J.X.Yu,L.J.Chang,et al.Querying Communities in Relational Databases.The 25th International Conference onData Engineering, Shanghai,China,2009:724-735.
  [4]L.Qin,J.Yu,and L.Chang.Ten Thousand SQLs:Parallel Keyword Queries Computing.In Proc of the 2010 ACMSIGMOD Conf.on Management of Data(SIGMOD 2010).Beijing:ACM,2010.58-69.
  [5]Ju Fan,Guoliang Li,Lizhu Zhou.Interactive SQL Query Suggestion:Making Databases User-Friendly.In Proc of the 25thInt’l Conf.on Data Engineering(ICDE 2011),1189-1204.
  [6]Yanwei Xu.Scalable Top-k Keyword Search in Relational Databases. Database Systems for Advanced Applications -17th International Conference,DASFAA 2012,Busan,South Korea,April 15-19,2012:65-80.
  [7]J.Zhang,Z.Peng.Si-SEEKER: Ontology-based Semantic Search over Databases.The 2006 Knowledge Science,Engineering and Management,First International Conference,Guilin,China,2006:599-611.
  作者单位:邢台职业技术学院 信息系,河北邢台 054001
转载注明来源:https://www.xzbu.com/8/view-6084474.htm