2月2015

小数据革命
作者:Greg Chittim
郑重声明
第27卷第2页

大数据应用的力量推动了有效的医疗保健分析,有可能彻底改变人口健康管理。随着医疗服务提供商向电子病历系统过渡——2013年,近六成(59%)的医院至少采用了基本的电子病历系统,比2012年增长了34%——很明显,HIT可能正处于大数据的风口上。问题是大数据假设源数据是准确的。换句话说,数据质量与提供的护理质量相匹配。

由于每天产生数百万与健康有关的记录,医疗卫生信息系统中保存的数据的可靠性受到质疑,而核实这些不同来源的质量的标准尚未出现。医院要管理复杂的人群,就必须利用全面可靠的患者健康和人口统计数据。不幸的是,卫生保健生态系统中的许多参与者对其护理人群只有不完整或不精确的了解,因此很难描绘出患者健康的清晰图景。组织必须简化流程,以更好地组织患者数据,使提供者能够在护理点做出更好的决策。

在专注于大数据系统之前,医疗保健组织必须正确处理小数据。大数据系统依赖大量准确的数据来直观地了解联系和因果关系,而不需要大量的人为编程。确保电子病历准确地捕获数据,有效地存储数据,并直接传输数据是有效的大数据计划的必要前提。

小数据的应用
美国东北部一家拥有2000多名医生的大型医疗服务提供商发现,其数据来源存在巨大差异,这些医生参与了许多基于价值的合同。为了识别现有临床测量报告基础设施中的缺陷,每家诊所将其电子病历的数据馈送到第三方分析工具,该工具计算一组用于报告目的的质量测量。这些数据馈送根据供应商定义的连续性护理文件(CCD)规范进行格式化,这是分析工具唯一的临床数据来源。

顾问和客户主题专家检查了组织内的四种做法,共有5800名患者由50家供应商服务,所有供应商都使用相同的电子病历平台。

数据质量可以意味着很多事情,从可预测的数据编码错误到完全损坏甚至没有数据。该组织侧重于可能导致报告的度量和捕获的数据之间缺乏对应关系的过程。因此,该团队主要关注一致性、合理性和流通的维度,因为它试图确定EHR是否在报告时提供了对患者状态的有效、合理和相关的表示。

在研究潜在数据质量差距的过程中,研究小组根据医疗保险和医疗补助服务中心发布的负责任的医疗机构质量措施的子集测试了现有的电子病历数据。每个指标由一组指标定义(例如,有多少45岁及以上的男性患者?),这些指标是计算指标分母(适用于该指标的患者数量)和分子(符合该指标的患者数量)的基础。

为了隔离测量报告错误的来源,该团队使用三层纳入标准来计算指标,旨在模拟数据流中每个步骤的可用临床数据。这些分级或“削减”是基于以前的数据质量评估经验、对患者记录的人工检查以及对临床工作人员的访谈。

所报告的削减只包括可用于外部报告的数据要素。该组织的标准是基于供应商特定的CCD馈送,这是填充外部分析和报告工具的主要机制。尽管CCD馈送遵循标准规范,但供应商可能会定义如何填充馈送。由于现有的分析平台仅限于来自CCD馈送的临床数据,因此报告的切口是最有限的数据集。

结构化切割只包括结构化数据元素。该组织的结构化数据元素标准包括由代码(例如,国家覆盖范围确定、ICD和供应商特定代码)、数字或日期表示的任何元素。这一级别的检查增加了纳入或依从性的患者,这些患者的数据被映射到结构化字段,而CCD馈送通常不会捕获这些字段进行报告beplay最新备用网站。

非结构化切割包括所有可用的、适当的数据元素,包括结构化的和非结构化的。非结构化数据元素,包括自由文本和注释字段,以已知模式的形式包含数据(例如,“乳房x光片NOT ordered”)或格式不正确的字符串(例如,7.6%而不是7.6)。对于测量计算中包含的任何数据,数据必须由临床工作人员以某种形式输入,在已知位置,并以可预测的格式或措辞输入。尽管如此,可能存在不符合上述标准的情况,并且可能表示本过程无法量化的数据质量差距。

在报告的削减和有组织的削减之间确定了一些最普遍的数据差距。例如,结直肠癌和乳腺癌筛查报告显示,使用报告切割的依从率为0%,而结构化切割的依从率在80%至95%之间。beplay最新备用网站未能报告系统中结构正确的信息表明数据传输存在问题。然而,结构化和非结构化切割之间也存在显著的数据质量差距。例如,与非结构化削减相比,报告的和有组织的削减都少报了流感疫苗接种20至30个百分点。

建议
根据这一分析,顾问们确定了对保障数据流中的数据质量至关重要的几点,包括以下几点:

•捕获代表临床专业人员和/或自动化系统将数据输入电子病历的阶段。有效的数据捕获要求发生了临床事件,并且结果被准确地输入到系统中(即,患者遭遇或返回的实验室结果)。

•结构表示将捕获的数据存储在适当格式和位置的过程。有效的结构取决于输入数据的方式以及EHR平台的配置。如果在文本字段中输入数字,则降低了报告和分析的可访问性。

•运输表示从存储中提取数据并使外部系统可用于报告或分析的过程。提取哪些字段以及如何选择包含记录是影响传出数据质量的传输机制的特征。

在描述了所有指标的特征,消除了空白的类别,并结合了重叠的类别之后,团队得出了六类数据元素来源:诊断、生命体征、实验室/订单、药物、程序和禁忌症。每个来源都与分析期间确定的数据质量差距的最重要根本原因以及受这些差距影响最大的措施相关联。

虽然成功的人口健康管理取决于专门和有效的临床护理,但它最终也依赖于准确和全面的卫生保健数据。强大的数据挖掘工具对于推动大数据革命至关重要,但如果没有小数据的成功,大多数工具都将失败。通过识别和纠正卫生保健数据中的质量差距,提供者离有意义和有效的基础设施又近了一步。

具体地对故障点进行分类,并为这些故障确定最普遍的数据元素类型,使组织能够了解何时、何地以及在多大程度上产生了数据缺口。它还阐明了可以采取哪些措施来解决问题。通过结合潜在人群的知识,提高数据质量可以提高护理质量。

- Greg Chittim是Arcadia Healthcare Solutions的高级主管。