Python在标准查新中的应用
来源:用户上传
作者:
摘 要:检验检测机构传统手工标准查新的方法,工作量大,效率低,且查新周期长,为提高工作效率,文章提出了一种基于Python的标准查新方法,并以实例描述其工作过程,实现了一种高效的标准查新方式。
关键词:标准查新;大数据;Python;网络爬虫
Abstract: In order to improve work efficiency, a new method of standard search based on Python is proposed in this paper, and its working process is described by an example. An efficient method of standard search is realized.
标准是检验检测机构开展工作的主要依据之一,检验检测工作需要标准的支持。执行现行有效的标准才能保证检验检测工作的准确性、有效性和公正性,而对标准的查新则有效保障了使用标准的现行有效性,降低了检验检测过程中的风险。检验检测机构查新员传统的手工查新方法对查新人员的经验及技术有着较高要求,且查新时间周期长,工作量大。随着大数据时代的发展,为减轻检验检测机构标准查新的工作成本及负担,本文运用Python程序实现互联网自动匹配搜索查询,从而实现标准的自动查新,缩短标准查新周期,极大提高检验检测机构标准查新的效率。
1 实施标准查新的必要性及常用方法
1.1 实施标准查新的必要性
1.1.1 资质认定的要求
《检验检测机构资质认定能力评价 检验检测机构通用要求》(RB/T 214-2017)4.5.3款规定:“检验检测机构应建立和保持控制其管理体系的内部和外部文件的程序,明确文件的标识、批准、发布、变更和废止,防止使用无效、作废的文件。”[1]
《检验检测机构资质认定评审准则》4.5.4款规定:“检验检测机构应建立和保持控制其管理体系的内部和外部文件的程序,包括法律法规、标准、规范性文件、检验检测方法,以及通知、计划、图纸、图表、软件、规范、手册、指导书。这些文件可承载在各种载体上,可是硬拷贝或是电子媒体,也可是数字的、模拟的、摄影的或书面的形式。应明确文件的批准、发布、变更,防止使用无效、作废的文件。”[2]
1.1.2 标准化体系建设推动发展的要求
2015年12月,国务院办公厅发布了《国家标准化体系建设发展规划(2016-2020年)》,明确指出 :“完善标准制定程序。优化标准审批流程,落实标准复审要求,缩短标准制定周期,加快标准更新速度。”[3]在这个大背景下,老标准的修订和新标准的制定工作步伐大大加快,检验检测机构使用标准更新周期明显加快,为保证检验检测机构工作的准确性、有效性和公正性,实施标准查新工作作用更为突出。
1.2 实施标准查新的常用方法
检验检测机构标准查新的方法主要有委托专业机构查询和自行手工网络查询两种。
(1)委托专业机构查询:检验检测机构委托具有查新资质的标准信息研究机构,对其使用的标准内容的有效性进行审验和确认,并最终出具标准查新报告。
(2)自行手工网络查询:检验检测機构查新员手工以网络查证的方式对其使用的标准内容有效性进行查证,并根据查询结果形成书面记录。目前,标准查新的网络资源主要有:国家标准化管理委员会网站(http://www.sac.gov.cn/)、中国标准化研究院网站(http://www.cnis.ac.cn/)、中国标准服务网(http://www.cssn.net.cn/)、国家标准全文公开系统(http://openstd.samr.gov.cn/)、中华人民共和国生态环境部-科技标准(http://bz.mee.gov.cn/)、水利部国际合作与科技司-标准查询(http://gjkj.mwr.gov.cn/jsjd1/bzcx/)、中华人民共和国农业部-农业标准(http://jiuban.moa.gov.cn/zwllm/nybz/)、工标网(http://www.csres.com/)、标准认证与检验检测公共服务平台(https://www.scidcn.com/)、之江标准信息平台(http://www.zjsis.com/)等等。
2 基于Python的标准查新方法
随着信息产业的飞速发展,网络信息规模急剧膨胀,大数据时代已然来临,网络已成为人们获取信息的重要来源,检验检测机构标准信息的来源也绝大部分来自于网络。
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。[4]它可以通过网页链接地址抓取网页内容,并根据用户需求返回所需信息数据,而不需要人工登录浏览器查询获取信息。Python中的urllib、requests、urllib3、scrapy、lxml和BeautifulSoup4 等第三方库被广泛应用于爬虫开发[5],因此,在大数据时代应用Python程序完全可实现对检验检测机构标准的互联网自动匹配查询工作,实现标准查新工作的自动化,快捷更高效。
下面以之江标准信息平台(http://www.zjsis.com/)为例,介绍Python程序标准查新实现的过程。
2.1 查新标准整理
工欲善其事,必先利其器。标准查新前,必须对正在使用的标准进行系统梳理,将需要查询的标准进行整理,填入相应的excel模板,以备Python程序标准查新使用。相应的excel模板见图1。
图1中,第一列为关键字查询,可以填入需查询的相应标准名称,如总磷的测定方法,可填入“钼酸铵分光光度法”或者“总磷”;第二列为标准号查询,如总磷的钼酸铵分光光度法标准号为“GB/T 118393-1989”,可填入相应的标准号即可。两列填写一列即可。 2.2 查询网页分析、抓取
(1)打开之江标准信息平台网页,分析其API接口数据,得到请求头部信息,包括目标地址(GET)、主机域名(Host)、用户代理(User-Agent)、Cookie信息(Cookie)等信息。(如图2)
根据API接口分析结果,网页内容抓取的请求头代码如下(部分):
(2)导入上述已整理好的需标准查新的excel模板文件,实现相关标准网页信息检索及相关网页内容的抓取,网页抓取过程界面见图3。实现代码如下(部分):
2.3 标准信息整理保存
對上述抓取到的网页数据,通过正则表达式,提取有用的信息,主要包括标准号、标准状态(现行或作废)、标准中文名称、标准英文名称、标准中标分类、标准ICS分类、标准分类标号、标准语种、标准页数、标准发布日期、标准实施日期、标准作废日期、被替代标注号、代替标准号、采用标准、引用标准、起草单位、归口单位、标准范围、标准查询的网址等25项内容。取得相应的查询信息后,数据以excel文件类型进行保存。实现代码如下(部分):
保存的excel文件可直接作为检测检测机构的标准查新报告。同时为方便检验检测机构人员,查询作废的标准进行了标记处理,并提供了相应的替换标准号,提醒检验检测机构人员及时对相应标准进行替换更新。标准信息查询成果见图4。
应用Python程序进行标准查新,可完全实现计算机自动查询,检验检测机构工作人员仅需整理好需查新的标准方法名称或者标准号,且该方法查询速度快,50条标准信息仅需3-5分钟就能查询完成,大大提高了标准查新的工作效率。
3 结束语
本文针对传统人工标准查新工作,工作量大,查询周期长等问题,利用Python的第三方爬虫库实现检验检测机构标准查新,并通过实例描述了其工作流程及应用效果。通过实际应用,基于Python的标准查新方法,具有自动化、快捷、高效的特点,在检验检测机构标准查新工作中能大大提高其工作效率。
参考文献:
[1]中国国家认证认可监督管理委员会. 检验检测机构资质认定能力评价 检验检测机构通用要求:RB/T 214-2017[S].2018:5.
[2]中国国家认证认可监督管理委员会. 国认实[2016]33号 关于印发《检验检测机构资质认定评审准则》及释义和《检验检测机构资质认定评审员管理要求》的通知[S].2016.
[3]国务院办公厅. 国办发〔2015〕89号 关于印发国家标准化体系建设发展规划(2016-2020年)的通知[S].2015.
[4]谢克武.大数据环境下基于Python的网络爬虫技术[J].电子制作,2017(9):44-45.
[5]胡松涛.Python 网络爬虫实战[M].北京:清华大学出版社,2017.
转载注明来源:https://www.xzbu.com/1/view-15193878.htm