共享环境下的图书馆编目数据整合研究
来源:用户上传
作者:
摘 要:文献编目是图书馆服务的基础,直接影响图书馆各项服务工作的开展。尤其在信息共享迅猛发展的时代,编目工作的好坏直接影响到信息共享的质量。本文对纺织高校图书共建过程中遇到的编目数据缺失、著录错误等问题进行汇总,并提出了通过人工清洗加计算机自动匹配的数据整理方案,实现了编目数据的归一和整理。
关键词:纺织高校;资源共建;共享目录;数据整理
中图分类号:G250
随着信息技术的不断发展,资源共享、互通已经成为必然的趋势。有效的实现资源的共知、共建、共享不仅可以提高图书馆资源的利用率和也可以提高读者的满意度。[1]近年来,“中国高等教育文献保障系统”、“中国高校人文社会科学文献中心”等资源共享平台不断建立,但是纺织学科的资源共享一直没有得到应有的规模。[2]为实现纺织类图书的共知、共建和共享,笔者对全国9所纺织高校馆藏进行分析,但是各个高校编目数据的不规范,为数据的共建共享带来了很大的困难。[3]
1 编目数据的收集和整合
1.1 编目数据来源
研究工作数据来源于武汉纺织大学,东华大学,江南大学,北京服装学院,苏州大学,天津工业大学,盐城工学院,浙江理工大学,西安工程大学提供的TS1和TS9大类OPAC数据,共计113509条。其中TS1大类35573条,TS9大类77936条。
1.2 编目数据问题分析
由于各个高校编目的详简级次及编目规定不同,质量差别较大,书目数据编目较为混乱,随意性大。对计算机辅助程序的自动识别和匹配造成了很大的困难。主要的问题有:
(1)目录中存在冗余数据、测试数据以及信息极度不全的记录。
(2)字段缺失严重:很多关键字段如ISBN号、题目、作者、出版社缺失,造成很多书目无法准确辨识。
(3)详简级次不一致:① ISBN号的著录,部分带有连字符“-”,部分没有,ISBN号位数不同,简写程度不同;②对机构名称著录时全称简称并存,且简称程度不同。
(4)著录风格不同:①同一责任者著录形式不同;②多个责任者的著录数量有差别;③对个人著者名称的附加和复分成分没有优先顺序。
(5)著录存在错误:①字段混淆,作者和出版社字段颠倒;②中外文著录存在拼写错误或者落写等问题。
(6)著录不够细致:题目录入过于简单,不标注上下册或分册,如果同时缺少其他可识别字段,将难以被判副本和分册。
1.3 编目数据处理流程及方法
项目组采用了人工与计算机相结合的方法实现编目数据的清洗和归一。先通过科学的方法,在最小化人工工作量的情况下,对编目数据进行归一化,再利用计算机进行自动匹配。
数据处理的总体流程如右图所示。
(1)EXCEL数据清洗:去除各个高校自身的空记录和测试记录;
(2)建立庫表:提取各个高校数据共有字段,分别在SQL SERVER中建立数据库表;
(3)计算机第一次匹配:建立初步的总库表。将数据量最大的高校记录(武纺)导入到总表中,其他高校的数据,逐条跟总表数据进行比对,总表中没有的数据进行增减,已有数据进行标注;
(4)人工清洗:将汇总后的数据导出为EXCEL,将相似记录排列在一起,通过人工进行识别,按照手工清洗的原则,将相似记录的题目、作者、出版社黏贴一致;
(5)计算机二次匹配:将人工清洗过得数据,导入到数据库中,建立新的汇总表。,通过计算机进行二次匹配,去重,标注每条记录所属高校,以及副本数量;
(6)计算机统计:通过算法,标注馆藏总量以及每本书所在的图书馆;
(7)结束。
2 数据处理结果
按照以上方式对9所纺织高校自身的书目数据进行清洗,计算出副本数目,并对各个高校数目数据进行归一和匹配。如下表是数据清洗及匹配后的结果。
3 总结与展望
纺织类高校图书的异质性很高,对纺织类图书进行共建共享,不仅有利于资源的合理流动也有利于推动纺织行业的发展。加强编目工作的规范化,选择适宜的著录标准、著录详简级次,确保目录质量,有利于实现数据发现、加强资源流通,促进资源共建和共享。
参考文献:
[1]王广三.图书馆联盟知识共享影响因素及策略研究[J].图书馆工作与研究,2017(10):37-41.
[2]尹方屏,谷秀洁.构建跨区域“大纺织”学科联盟共享域的可行性研究——CALIS示范馆建设启示[J].图书馆学研究,2012(10):91-94.
[3]冯雷.信息时代高校图书馆编目工作研究[J].太原师范学院学报(社会科学版),2018,17(01):93-96.
转载注明来源:https://www.xzbu.com/1/view-15003090.htm