2013年3月

挖掘未开发的数据
大卫·耶格尔
郑重声明
第25卷第5页

有几个障碍阻碍着医疗机构成为信息新兴城市。

与任何类型的挖掘操作一样,在发现任何有价值的东西之前,数据挖掘需要大量的基础设施和基础工作。但作为这部热门电视剧的粉丝淘金热要知道,一旦运作正常,投资可以收回很多倍。尽管在医疗保健领域还有很多工作要做,但数据挖掘技术可以为供应商带来好处。

医疗保健行业的许多人将数据挖掘视为一种潜在的范式转换技术。它不仅为临床医生提供诊断、选择治疗方案和预测预后等任务的决策支持,而且还允许医院和其他提供者预测长期趋势,如人员配备和库存需求、人口变化和市场变化。它也可能导致开发工具,病人可以用它来监测自己的健康行为。

与统计分析不同,统计分析严格依赖于数字数据并使用数据抽样来检验假设,数据挖掘分析数字、分类和多媒体数据,如ct和mri,并完成数据集以揭示潜在模式。毫不奇怪,数据挖掘算法比对应的统计分析算法更复杂,与统计分析的一行代码相比,数据挖掘算法经常占据整个页面。数据挖掘也会产生更多的数据。

“最近,我的数据挖掘只有6 mb的文件,”哥伦比亚密苏里大学医学院健康信息学副教授Illhoi Yoo博士说。“在运行了整整两天后,我的64 gb工作站出现了内存不足错误(表明系统内存不足)。统计分析从来不会出现这样的错误。”

Yoo是2012年8月发表在《科学》杂志上的一项关于医疗保健数据挖掘的研究的主要作者医学系统杂志他说,三种最广泛使用的数据挖掘算法对数据进行分类、聚类和关联。分类用于将数据分组到预定义的类别中,这些类别有助于根据症状和健康状况定义诊断和预后。聚类用于对数据对象进行分组,以便集群内的对象具有许多相似性,而来自不同集群的对象具有很少的相似性,例如根据属性对植物和动物进行分组的生物分类法。聚类对于具有大量未定义数据的探索性研究是有用的,例如DNA和基因表达的微阵列研究。

关联用于发现大型数据库中的隐藏模式,例如销售模式或所购买物品之间的关系。出于医疗保健目的,关联可能能够揭示症状、健康状况和疾病之间的关系,使研究人员能够对疾病及其并发症的形成方式提出基于证据的假设。

Yoo的研究包含了一些数据挖掘被用来防止医疗欺诈的例子,通过开发预测模型来检测异常的索赔数据模式,通过在治疗成本较低的情况下发现诊断不足的患者来改善医疗保险报销,并通过识别和分类可能从有针对性的干预和疾病预防计划中受益的高危患者来降低医疗成本。该研究还指出了数据挖掘在医学研究中的许多潜在用途,例如预测医疗状况的存活率或患者患癌症的风险。它还可以识别潜在的药物相互作用和某些医疗条件之间的关系。

尽管具有巨大的潜力,但数据挖掘通常被认为是一种未充分利用的资源。这项技术在很大程度上仍未得到开发,原因有几个。

提出索赔
一个常见的障碍是访问权限。当前管理受保护健康信息(PHI)的规则使得共享数据变得困难。Curaspan Health Group首席技术官兼高级副总裁Joe Alea表示,HIPAA的部分内容需要修改,以更好地反映当今的医疗环境。

“在我们生活的世界里,通过传真机发送PHI仍然是可以接受的,这是非常不安全的,当有更好的,符合hipaa的选项来发送数据时,”Alea说。“除非你在符合hipaa的平台上共享数据,否则很难实现你真正想要的全方位数据交换。”

即使解决了HIPAA问题,某些数据存储产品中的专有数据格式也会限制访问。Alea说,生产数据存储产品的公司有时不愿意分享完整的数据集。这可能会使组织范围内的数据挖掘变得困难,但当患者使用具有不同类型数据存储系统的多个提供商时,这是一个更大的问题。他指出,这些系统之间更好的集成将使数据挖掘更加有用和高效。

在一个组织中,谁应该被允许挖掘数据的问题可能是小收益和大收益的区别。通常,数据挖掘是严格意义上的IT部门的工作,但是将临床医生和研究人员排除在外的组织可能会错过一个很大的机会。Yoo表示,由于隐私和法律问题,数据挖掘研究人员经常被拒绝访问数据。尽管隐私和安全问题必须得到解决,但Tableau Software的产品管理总监弗朗索瓦•阿延斯塔特(Francois Ajenstat)表示,更多地关注数据将提高生产率。

他说:“如果有更多拥有不同经验、各种技能和知识的人来研究数据集,那么,也许集体组织实际上可以推动更好的结果。”“如果只有数据科学家——统计专家或高端编程专家——才能访问数据,你就限制了你可能获得的潜在影响。你可能会对这些数据有一个非常非常惊人的见解,但想象一下,如果你能让100名或1000名医生根据他们的需要,为他们的研究挖掘这些数据。你会有更广泛的集体利益。因此,数据的自由,一开始可能会让人害怕,但实际上它更有权力,并将导致更好的决策。任何可以使用数据回答问题的人都应该被授权访问这些数据。”

傻瓜的金子?
近年来,越来越多的医疗保健提供者已经转向电子病历。与此同时,数据存储成本不断降低。这些因素导致数据量呈指数级增长,而且看不到尽头。

有这么多数据需要存储,而且每天都有越来越多的数据堆积起来,如何存储这些数据,以及短期和长期数据是否应该存储在不同的地方,这些问题正成为热门话题。虽然双方都有各自的观点,但对于数据挖掘而言,“在哪里”不如“如何”重要。为了实现数据的全部价值,需要允许最终用户回答问题的工具。

“想想护士或医生。他们理解这些数据,但他们不一定有工具或手段来访问这些数据,并真正理解这些数据,”阿延斯塔特说。“所以就出现了这种二分法:有更多的数据,但需要访问这些数据的人却无法获得它们。”

临床医生需要的工具类型将使他们能够在护理点访问整个患者记录。但数据需要的不仅仅是可用;它们需要以易于理解的格式呈现。可视化技术允许用户快速、轻松地查看患者信息,例如先前存在的状况、实验室报告、药物以及最后一次治疗的时间,这有助于改善患者护理。

然而,即使有了更好的工具,医疗服务提供者也需要更加关注数据质量。持续的数据意外之财似乎是数据挖掘的福音,但通常情况下,质量胜过数量。目前收集的大量信息是非结构化的,因此难以挖掘。

“这是目前医疗保健的根本问题,”阿莱亚说。“之所以会发生这种情况,是因为所有这些患者数据的聚合,无论是实时使用还是长期使用,都不会很好地实现,因为数据结构没有发生。此外,从病人的角度来看,数据存在缺口,所以对病人的整个连续护理过程没有一个清晰的图景,这意味着你的信息是滞后的。对病人的零敲碎打会导致错误。你的生产力下降了。”

临床数据和账单数据之间的脱节构成了一个重大障碍。由于医疗保健提供者需要对其服务进行补偿,因此数据捕获系统通常强调计费方面。将账单数据转换为临床洞察需要大量的工作。

“最大的障碍是数据质量,”Yoo说。“这是因为目前的电子病历系统(主要)是为计费目的而不是临床目的而设计和开发的。这意味着,对于医疗保健数据挖掘,不能直接使用原始数据。相反,需要大量的数据提取(如临床记录等文本)和转换。这个过程需要很强的领域知识,并且非常劳动密集型和耗时,这意味着即使有大量的原始数据,可用于数据挖掘的实际数据最多也只有几百条记录。”

阿莱亚说,为了在医疗质量上取得重大飞跃,需要一个全面的、以病人为中心的数据模型。供应商需要以标准化的方式将信息以数字方式输入到他们的系统中,而不是将信息扫描到电子病历中,以便在不同的技术之间共享。此外,在结构化环境中分析非结构化数据的方法,如实验室报告的pdf和医生笔记,将增加可挖掘数据的存储。改进数据结构还将减少医疗记录错误的数量,并可能使医疗保健提供者更快地做出决策,降低再入院率,并缩短住院时间。

回报
尽管存在这些障碍,但医疗保健行业中的许多人正在使用数据挖掘来改善患者护理和简化业务流程。Teradata医疗保健和生命科学项目主管大卫•维金(David Wiggin)表示,医疗服务提供者和医疗计划正在利用数据挖掘以新的方式吸引患者。在某些情况下,他们利用这些结果来提高患者病史的透明度。在另一些国家,他们正在引导患者获得更好的护理和成本效益。

“从分析的角度来看,我们的客户正在做的最有趣的事情之一是与他们的会员互动,就像零售业通过多种渠道与客户和未来客户互动一样,针对客户偏好的渠道,”Wiggin说。“因此,健康计划和医疗机构开始与消费者接触,了解他们的健康和健康行为,这是一个改变游戏规则的因素。”

Wiggin表示,无论是直接邮件、电子邮件、短信、推特还是Facebook广告,数据都将成为医疗机构提高患者满意度和吸引客户的重要组成部分。这些类型的基层努力可能会大大降低成本并改善公共卫生。Wiggin认为,云、移动、社交和大数据趋势在HIT领域的融合可能会为医疗保健服务系统的真正改革打开大门。

但到什么程度呢?上世纪90年代中后期在其他行业看到的互联网推动的生产率提高,是否有可能很快在医疗保健领域实现?Wiggin说,巨大的变化即将到来,很可能很快就会到来。

他说:“我认为,这才刚刚开始,但它正在进入医疗保健领域。”他说:“如果你想到银行业务、自动取款机的简单和便利,以及全天候管理银行业务,这就是今天的筹码。它正在成为医疗保健的筹码,我认为分析和运营分析将在改善这个国家的医疗保健服务方面发挥关键作用。”

大卫·耶格尔是宾夕法尼亚州罗伊斯福德的一名自由撰稿人和编辑。