11月/ 12月2018

利用数据
萨拉·埃尔金斯
郑重声明
第三十卷第十页

能够收集数据的组织将从其内在价值中获益最多。

世界已经变成了一个巨大的数据集合。每一件可感知的事物,从金融到欲望,现在都被分解成最小的可识别成分,并被赋予了价值。似乎每一个可变的项目都可以被追踪,甚至可以追踪到人体每一个细胞中每一个基因的活动。

这些数据唾手可得,而且还在不断增长。事实上,根据IBM Marketing Cloud同年发布的一份报告,“到2016年,全球90%的数据都是在过去12个月内创建的”。

在短时间内,数据科学家们争先恐后地想出了新的方法,把数据从可识别的变成可操作的。推动大数据发展的一个大问题是:我们可以用这些信息做什么?

犯罪分子正在利用大数据进行诈骗。金融机构也在用同样的工具阻止它。数据是每场战斗双方的武器,它们已经潜入我们最亲密的关系中。例如,Netflix比你的配偶更能预测你今晚想看什么电影。

大数据给我们的现代虚拟生活带来了轻松和偏执,但它还有潜力做得更多。

利用数据给人类带来的好处在医疗保健领域的潜力最大。从更好的预约安排到更有效的癌症治疗,数据分析正在彻底改变可能发生的事情。

以下是三个组织及其各自的专家如何通过数据推动医疗保健向前发展。

临床资料障碍
在数据可以用来解决任何问题之前,它们必须可用。在最基本的层面上,这就是Diameter Health正在做的事情。它的工程师和科学家团队开发了一个平台,可以汇总和规范电子病历数据,用于无数的临床和分析应用。

行业专家估计,数据科学家将80%的时间花在手工和半手工的“数据整理”上,或者只是组织不规律的数据,为分析做准备。在Diameter Health,我们把这种情况称为“临床数据紊乱”,该公司首席执行长埃里克•罗索(Eric Rosow)说。

这就是Rosow团队的切入点。他说:“通过规范化和丰富临床数据,医疗保健数据分析师可以减少数据争论的时间,将更多时间用于提供分析成果和见解。”

但是数据规范化是什么意思呢?Rosow解释说:“在多个编码系统中,有91种不同的方法来编码心力衰竭。如果一位分析师被要求使用原始临床数据来研究心力衰竭,那么分析师将需要寻找心力衰竭的所有变体。”

这就是大数据的问题所在——它太大了。像Diameter Health这样的组织利用技术来进行“狩猎和啄取”,这样分析师、研究人员和提供者就可以达到他们的最终目标:改善心力衰竭患者的治疗效果。

从Diameter Health为医疗保健组织、医疗信息交换、负责任的医疗机构和其他技术供应商提供服务的角度来看,他们对数据的多种使用方式有着广泛的了解。根据Rosow的说法,客户正在解决诸如“识别阿片类药物处方模式,预测慢性肾脏疾病,使用整个连续护理的临床数据进行门诊质量报告,以及不完全风险调整”等问题。

通过技术,Rosow能够看到“混乱的临床数据”演变成“可操作的分析,以更低的成本支持更好的护理”。

一些涉及Diameter Health的最值得注意的可操作分析项目已经产生了合作发表的同行评议研究。例如,与VA合作,Diameter Health发布了“认证卫生信息技术的互操作性进展和剩余数据质量障碍”。罗索说,该合作伙伴关系的目标是“提高从退伍军人事务部代表900万退伍军人的贸易伙伴那里收到的临床数据的质量和一致性”。

如果生成和分析数据是数据分析的前两个p,那么第三个p就是预测。一旦大型数据集能够以有意义的方式可靠地传递和组织起来进行分析,下一个合乎逻辑的步骤就是寻找联系并遵循趋势进行预测。

这正是波士顿布里格姆妇女医院(Brigham and Women's Hospital)在使用统一的临床文档架构互操作性标准提取电子病历数据以预测肾衰竭风险时所想到的。

为了实现这一目标,Diameter Health协助开发了初级保健提供者使用的应用程序。该研究结果题为“使用C-CDA和应用程序编程接口实现可扩展的、基于web的、自动化临床决策支持慢性肾脏疾病风险预测工具”,发表在2017年11月的《肾脏病杂志》上美国医学信息学协会杂志

数据分析并不是一门完美的科学,因为数据——至少当它们来自电子病历时——充满了空白和错误。“从不完美的数据中可能得出有用的结论,但增强数据可以提高所有分析工具的价值,”Rosow说。“虽然你不能说不完美的数据不能得出正确的结论,但我们可以说,不完美的数据可能会得出错误的、甚至可能有害的结论。”

为了解决数据不完善的问题,Diameter Health开发了一个应用程序,可以测量临床数据的完整性和准确性。因此,它可以评估一个数据集是否有价值。

从长远来看,Rosow相信大数据将使医疗保健有更好的机会实现其崇高目标。他表示:“(大数据)将使我们更接近以更低成本改善患者预后的行业既定目标。”“我们将看到更好的资源分配,医生将从临床决策支持中获得更多价值,我们将继续从系统中消除浪费。”

提供者归因
Dignity Health的官员们正致力于通过应用数据分析来改善患者的治疗效果。医院管理层发现了几个使用离散EHR数据字段“主治医师”引用医生归因的医院指标的问题。这些信息给该组织评估重要指标(如患者满意度、死亡率和手术并发症率)的努力带来了阻碍。

对于内部基准和质量分析,领导层求助于尊严健康洞察(DHI)部门,帮助创建一种算法,称为替代医疗方法和可重复使用技术(SMART)提供者归因,这将有助于确定哪个提供者对患者的护理负有最大责任。通过这样做,关键指标可以归因于特定的提供者。

“因为能够准确识别负责患者护理的提供者有助于更清晰地描绘医院指标,医院需要有更好的方法来归因于护理。”“这是算法的催化剂,”尊严健康公司的临床分析师、医学博士Angelia Chanco-Larios说。此外,“病人在住院期间可能会见很多医护人员——医生、执业护士、医师助理。病人的住院时间可能很复杂,涉及多个专科,也可能在有多位住院医师、研究员和顾问的教学医院住院。”

简而言之,确定患者的主治医生具有挑战性的原因有很多,但DHI部门决定提出一种算法方法来解决这个问题。SMART提供者归因被证明在预测提供者归因于病人的护理方面非常有效。

正如数据分析师所习惯的那样,Chanco-Larios和她的团队很好奇如何进一步利用SMART提供商归因。“我们想知道我们是否可以利用它背后的思想来创建[算法],预测患者住院时间的归因提供者。令人高兴的是,该算法的表现也令人钦佩,”她说。

开发算法只是成功了一半。数据仍然需要以易于理解的格式汇编,以便确定需要改进的领域。DHI团队的下一步是建立一个内部应用程序,该应用程序可以提取数据并识别异常情况,例如住院时间超过预期的患者。

Chanco-Larios解释说:“通过仪表板,我们能够将这些长期住院的患者分成与诊断相关的组,按付款人类型查看他们,评估这些患者是否因医生实践或安置问题而成为异常值,并深入到更细粒度的层面,以确定具有特殊指标的提供者。”

通过这样做,尊严健康能够衡量地区、医院和医生个人的表现,并了解成功和失败的关键。

Chanco-Larios并没有忽视数学背后的人性。她说:“这项数据工作必须考虑到人的因素,因为数据分析提供的答案必须用于非常人性化的情况。”“最后,数据应该得到正确的解释,在战略上和道德上得到实施。这样做将对患者和他们的护理团队产生不可估量的影响,使他们的生活更轻松、更安全。”

癌症的预测
在降低全球癌症发病率的努力中,医疗保健中的人为因素也许最引人注目。根据世界卫生组织2018年9月发布的数据,今年将有近1000万人死于癌症。Elana Fertig博士是约翰霍普金斯大学肿瘤学、生物统计学和生物信息学副教授,也是应用数学和统计学副教授,她比大多数人更了解癌症难题的挑战性。

“癌症会随着时间而改变。这不是一个恒定的、静态的系统。”这是对一个复杂问题的简单分析,但费蒂格的工作并不简单。作为约翰霍普金斯大学Sidney Kimmel综合癌症中心定量科学研究项目的助理主任,她帮助实验室开发和应用新的癌症生物学定量方法。他们指尖上的大数据是人类基因组,人类DNA序列中的所有3,088,286,401个碱基对。

例如,Fertig试图了解哪些T细胞会对免疫疗法产生反应,以及这种反应如何随着时间的推移而变化。实验室监测癌细胞如何变化,然后将记录的变化与新的计算工具结合起来。该团队检查了单个细胞内的基因活性。“最终的目标,”她说,“是能够预测癌症将如何变化。”

有趣的是,Fertig将天气预报的背景带到了她的免疫学工作中。从这个角度来看,她对癌症研究有了更大的欣赏。“生物学来自于一个命名、描述和将事物简化到最小部分的领域。气象学来自一个更为抽象的领域。(天气)受限于四五个变量,”她说。

Fertig认为,生物学将在未来10到20年内进化,最终从天气预报的角度出发,对连接系统如何协同工作有一个更大的认识。

“我们真的需要把这些系统结合起来。在这两个领域,我们都在以越来越小的尺度获得大量数据。诀窍是将数据给我们的微观视图与系统如何工作的更大的基本规则结合起来,以便清楚地了解正在发生的事情。在任何一个领域,都不可能是非此即彼。”

现在,费蒂格有很多事情要做。她与研究人员和从业人员一起工作,他们向她提出了他们最棘手的问题,她称之为“用现有工具无法回答的问题”。

“这就是我工作的切入点,”费蒂格指出。

有时她对同事的问题有一个快速的回答。他们提供数据,她通过一个标准的分析管道运行这些数据。其他时候,费蒂格被迫发展数学来分析数据。在这种情况下,一个问题可能会变成一个长期的项目。

目前,Fertig最感兴趣的是不同的系统和生物过程的规模如何在治疗反应中协同工作。

“所有这些不同尺度的数据如何结合在一起,让我们了解癌症的情况。这既带来了生物学上的挑战,也带来了真正有趣的数学挑战——什么是正确的数据?”

随着医疗保健提出了更多有趣的方法来使用数据来回答复杂的问题,最大的挑战可能是在扩大我们对可能性的看法的同时,把注意力集中在最重要的事情上。

“大数据领域的每个人都想要一个正确的答案。这就是数据告诉我的,”Fertig说。“现实情况是,如果我们有这些大数据集,这些数据就有能力告诉我们很多事情。问题是你应该把调查重点放在哪里。哪个是最关键的?你如何过滤这些信息?”

萨拉·埃尔金斯是西弗吉尼亚州的一名自由撰稿人。