数据挖掘技术在电子病历系统中的应用研究
来源:用户上传
作者:
摘 要:本文主要研究数据挖掘技术在电子病历系统中的应用,首先探究数据挖掘技术应用的具体规则,从数据信息的目标、数据预处理、创建数据模型、聚类分析、分析关联规则五个方面进行总结,然后讨论数据挖掘技术在电子病历系统中的应用现状,接着研究基于数据挖掘技术的电子病历系统数据特点,最后讨论在电子病历系统中的应用数据挖掘技术的效果。
关键词:数据挖掘技术 SQL程序代码 电子病历系统
中图分类号:TP301.6 文献标识码:A 文章编号:1674-098X(2019)02(c)-0136-02
现如今中国的医疗领域正在致力于数字化医院的建设,不断引进计算机技术。在迈向无纸化办公的过程中,电子病历系统应运而生。电子病历覆盖丰富的医患活动数据信息,在运用数据挖掘技术应用病历中的信息资源时,要提取其中对医疗事业有帮助的信息,也要挖掘其中隐含的医学诊断规则,辅助疾病诊断,为治疗工作提供正确的决策信息。
1 数据挖掘技术的应用
1.1 数据信息的目标
以冠心病为例,在研究病人、疾病的相关指标时,需要对冠心病进行分类。在此基础上才能深入研究探讨检查结果与用药之间的关联性,总结检查结果与用药之间的相关规律。这些信息能够在制定冠心病临床诊疗方案时提供价值的参考意见。在分类冠心病时,要收集大量包含冠心病的基本信息,此外还有入院记录和病程记录。在《内科学》、《临床体征诊断学》中有与冠心病治疗有关的内容,除了要查阅这些文献之外,还要向心血管疾病的专家征求意见。在基本信息中,有价值的信息包括住院号、性别、年龄、入院时间、入院时的病情、住院的天数、治疗费用、出院时病人的情况、出院时间,要为这些信息制定相应编号。入院时的病情要从特定的角度入手进行询问,除了冠心病的情况之外,还包括既往病史,选取糖尿病史、肝炎病史、结核病史、高血压病史[1]。
1.2 数据预处理
在数据挖掘的工作中,数据预处理是十分关键的一项工作内容,需要经过数据清洗、数据集成、数据转换三个阶段。在gxbxx库中还原已经完成备份的表格信息,而且还要对这些表格信息进行重新命名的操作。比如将病程记录命名为bcjl,将药品医嘱命名为ypyz,将检查检验命名为jcjy。冠心病共有54个病状体征和并发症,检查检验的项目数量为50个,用来治疗冠心病的药品共有50种,要将这些信息全部导入至gxbxx数据库中,并重新命名。通过重新命名实现数据信息转换环节使用。在对原始数据进行预处理时要用到SQL Server2008,并编写SQL程序代码。在清洗数据的工作中,也要用到SQL技术,需要注意的是在编写SQL相关语句时要把拼音字段全部转换成相应的中文字段,方便用户使用。此外还要将与研究内容无关的所有字段删除。存在一些字段其名下内容为空,或者是字段内容相当于无记录,对于这些字段的处理是全部删除。除此之外,还要将其中一些重复的字段内容删除。
1.3 创建数据模型
在创建模型的工作中,需要与聚类分析和分析数据相对应,为此要创建聚类分析模型和关联规则挖掘模型。在聚类数据模型中共存在68个属性,在关联规则数据模型中,共有两个属性,分别是住院号和编号。在后续的挖掘过程中,模型分析有可能会发生改变,针对这一情况,需要返回到数据预处理的环节中,对数据模型加以调整,使得调整后的数据模型能够适应新的分析模型。如表1所示为聚类数据模型部分。
1.4 聚类分析
在聚类分析的过程中,要先按照某种特定的方法将数据合理分类,聚类分为3种,分别是系统聚类、快速聚类、变量聚类。在分类观测值和样品时可以使用系统聚类,在分类大样品时要使用快速分类这种方法,要聚类分析变量时用到的过程是系统聚类。另外K-Means聚类、两步聚类、Kohonen网络聚类是经典的聚类方法。为了保证获得准确的聚类结果,在做聚类分析时向心血管疾病专家咨询相关信息,并以数据的特征为依据,将体征、交替脉、白细胞增高、红细胞沉降速率增快这些没有出现的数据信息删除[2]。
1.5 分析关联规则
在关联分析的过程中,涉及到一项关键的技术,就是关联规则。在判断规则有效性的环节中,关联规则的置信度和支持度是十分常用的指标。置信度同时也是概率,比如用来说明患者同时服用JJJG和药品Y的概率。如果有着较高的支持度,则说明该规则有较高的普遍性。关联规则有效性和实用性强的特点是具有较高的置信度,不仅如此,还具有较高的支持度。在数据挖掘关联技术中Apriori是最为核心的算法,该算法共有两个阶段,分别是频繁项集阶段和依据频繁项集产生关联规则阶段。
2 数据挖掘技术在电子病历系统中的应用现状
世界范围内美国、日本、英国这些发达国家在电子病历方面技术先进,中国的技术水平与之相比仍然有一定差距。《卫生部关于开展电子病历试点工作的通知》于2010年陆续下发,相关内容奠定中国电子病历发展的基础。在智慧养老产业中,开始应用电子病历技术。由于该产业尚处于起步和发展阶段,能够提供的服务功能也比较有限,主要集中在老人需求的被动相应方面。在管理和挖掘相关信息的工作中仍有缺陷。可以发现在大部分的智慧养老系统中,只记录了单一的老人健康信息,包括老人的基本信息、用药记录、体检记錄、就诊记录。而且不同系统的记录方式也各不相同。因此医务人员也不能在智慧养老系统中实现有效的信息检索和信息录入操作。 3 基于数据挖掘技术的电子病历系统数据特点
3.1 多样性
患者病历记录患者在医院就诊的关键事项,运用电子病历系统保存这些数字化信息。数据库包含丰富的病历内容,不仅有临床诊疗记录,还有各种类型的管理数据,这些数据深刻体现医学数据的独特性。多样性是其中十分显著的特征,信息有着不同的表现形式,其中文字包含的内容有患者信息、患者病史信息、医生的查房记录、患者的病程记录。数字也是一种信息表现形式,涵盖的内容有体温、血压、脉搏等等[3]。此外还图形图像,比如心电图、CT图和DR图,最后还有音频,心音就是通过这种形式来展现。电子病历数据的多样性意味着在挖掘信息时难度较大,不仅要预处理数据,还要转换部分数据的格式。
3.2 动态性
存在一些电子数据具有明显的时序性特点,也就是说这些数据会随着时间的推移而不断产生变化,其中心电图像和24小时血压测量数据就属于这一类信息。甚至患者整个的病情发展过程也有时序性特点,在不同的诊疗阶段中,诊疗的结果也在不断发生变化,病程的记录信息也会发生变化,呈现出明显的动态性特征。
3.3 隐私性
在电子病历系统中,病历记录着患者在医院诊疗时的全部信息,在这些信息中有很多都属于患者的隐私,不仅身份信息是患者的隐私,患者的病情也属于患者的隐私。隐私信息暴露,会给患者的生活带来很大的困扰,比如引发一些伦理纠纷,甚至是法律纠纷。所以在应用数据挖掘技术时应当充分考虑到如何保护患者的隐私。
3.4 不完整性
电子病历会如实记录患者的病情,记录病历的目的是治愈患者,而不是研究患者。所以在采集病历数据的过程中,会使用一些完整性较弱的处理手段,采集的数据也不会完全包含需要研究的信息。此外,对于患者而言,疾病本身就具有比较强烈的模糊性,患者在描述疾病时也会受到其自身表达能力的影响,而且医护人员的理解能力也会导致病历信息不够完整,在记录数据时出现偏差,记录数据不够完整。
4 在电子病历系统中的应用数据挖掘技术的成果
4.1 在诊疗结果和用药方面发挥关键作用
对构建的模型进行有针对性的评估,发现建立的模型有着良好的聚类效果,而且其中的关联规则也发挥了一定的作用,能够有效指导临床诊疗方案的制定。医师在为患者诊病时以医院的实际情况为依据,对患者进行分类临床诊疗,在制定治病方案时,强关联规则也能在诊疗结果和用药方面发挥关键作用。专家分析相关领域发现的模型,并给出新颖的评价,有效应用给出的模式,优化医师的诊疗流程,或者是为医师提供有益的决策意见,使得诊疗的效率有所提升。
4.2 数据信息的代表性较弱
数据挖掘技术在病历系统中的应用也存在一些不足之处。在应用数据的过程中,如果使用了最小的支持度,就会出现强规性弱的问题,如果设置了较大的支持度,就会出现很多实用性差的规则。临床的实际工作时间非常紧迫,通常情况下只会记录一些关键的属性信息,导致电子病历中出现大量空缺值。由于在对数据进行预处理的工作中,存在重复记录的情况,使得数据挖掘最终出现了很多与病历无关的属性,使得预处理的速度明显降低。另外属性的涵义难以理解也是应用数据挖掘技术体现的不足之处[4]。属性代码都是用第一个字母组合而成,只有内部人员和使用这些信息的医院工作人员才能理解,对于其他人来说,则完全无法理解这些特殊符号的涵义。这意味着数据挖掘对象选取受到极大阻碍,也使数据挖掘技术的使用效果受到影响。在应用SQL数据库技术方面,虽然能够实现高效灵活处理电子病历数据,但是由于病历本身存在缺陷,导致预处理后的数据信息不具备代表性。
5 結语
综上所述,数据挖掘技术在电子病历系统中的应用能够助益我国医疗卫生事业的发展,该技术给出的分析意见具有很高的应用价值,但是其中也存在一些问题,就是无法保证客观性和普遍性,在实际应用时还需要仔细甄别。挖掘电子病历数据工作涉及到很多技术问题,在未来要致力于有效算法模型的构建,提高疾病预防的有效性,提高医疗卫生专业水平。
参考文献
[1] 生慧.大数据背景下中医电子病历关键问题研究[D].山东中医药大学,2017.
[2] 胡金海,谭钦红,李晗琳.电子病历与数据挖掘技术在智慧养老中的应用研究[J].广东通信技术,2016,36(11):72-76.
[3] 王昱.基于电子病历数据的临床决策支持研究[D].浙江大学,2016.
转载注明来源:https://www.xzbu.com/1/view-14805508.htm