五月2019

模糊的注释阻碍了癌症研究
苏珊·查普曼
郑重声明
第三十一卷第五页

利用医疗记录数据的持续努力正试图深入了解癌症治疗。然而,获取这些信息对研究人员来说可能是一个挑战。

这是癌症研究的一个激动人心的时刻,其中很大一部分是由前所未有的有价值的数据引发的。然而,过高的期望必须在认识到令人印象深刻的障碍仍然存在的情况下得到缓和。

查看医疗记录
有可能将遗传数据与医疗记录联系起来,例如对特定患者群体(如雌激素受体阳性或BRCA基因阳性的患者)进行高级分类。

“然而,随着知识的扩展,在病人和癌症的序列数据中捕获的大量信息不能轻易地存储在电子病历中,”Andrew S. Kanter医学博士,公共卫生硕士,智能医疗对象的首席医疗官指出。“最初在医疗记录中记录的内容之间存在很大差距;使用临床界面术语可以在记录中捕获重要的表型,但实际的序列数据本身不能。

“目前存储在基因组存档和通信系统(GACS)上的基因测序数据非常精细,是一个巨大的数据桶,”坎特继续说道。“它必须被识别、解释并转移到电子病历中,才能对临床医生有用。”

虽然已经有人尝试通过机器学习将GACS服务器和EHR连接起来,但挑战仍然是将临床医生所了解的高级信息转换为可被EHR捕获的正常语言。“这个过程对GACS服务器来说是极其困难的,”坎特说。

“将基因数据与医疗记录联系起来的过程实际上取决于数据本身,”美国国家癌症登记协会(National Cancer Registrars Association)主席、注册医学博士珍妮特·雷诺兹(Janet Reynolds)说。“当你切除一个肿瘤,发现它有一个可以治疗的突变时,你就有了这个信息。然而,你可能在癌症登记数据中有它,但在医疗记录中没有,因为并不总是要求它在记录中。如果都是关于肿瘤的测试,那是医疗记录和病理的一部分。并不是所有这些突变都有编码,因为每年都会发现额外的可操作突变。”

雷诺兹指出,除了癌症研究的不断发展,患者隐私也是一个重要的考虑因素,因为基因数据会影响患者的保险。“患者特异性检测是保密的,如果鉴定出的突变没有离散编码字段的支持,而不是隐藏在叙述文本中,则肿瘤特异性检测可能会出现在医疗记录中,也可能不会出现在医疗记录中。”

Jennifer Ruhl, MSHCA, RHIT, CCS, CTR (NCI SEER),监测,流行病学和最终结果(SEER)项目质量控制部门的认证肿瘤注册师,认为理论上可以将遗传信息与EHR联系起来,但该技术尚未能够实现这一目标。

“其他部门能够在索赔数据和实验室方面与电子病历联系起来。人工智能医学已经将医疗记录和病理报告联系起来,”鲁尔说。“SEER……使用所有标准制定者使用的记录布局,因此所有内容都以相同的格式返回。该记录布局由北美中央癌症登记处协会(NAACCR)维护。目前,格式是HTML,但是有人建议实现XML格式,这是目前使用的更常见的格式。一旦这种情况发生,建立更多联系就会容易得多。一些较大的医院可能已经有了这些联系,但这是一种混杂的情况。总的来说,技术和流程还没有到位。”

数据收集的当前和未来发展
雷诺兹说,必须收集哪些数据的要求是不断变化的。“一旦研究人员和流行病学家对某件事感兴趣,我们就开始收集信息,”她解释说。“在2018年,我们看到了许多与大数据有关的新领域的出现,并影响了我们收集的信息。一旦我们提交,其他信息将被识别。我们仍在收集有关烟草使用和BMI的信息,这是已知可以预防癌症的患者可采取行动的因素。那些从事大数据研究的人利用这些信息找到可采取行动的项目来帮助预防癌症,并将这些数据与癌症患者的阶段相结合。”

其他收集数据的方法包括自然语言处理,它从图表中提取信息,并破译所收集的数据。雷诺兹说:“但即使是从病理学和放射学报告中提取数据也需要一些时间。”“癌症登记员和研究人员将需要整理这些数据,以确定它们是否可用。这很有挑战性,因为完全理解信息需要细微的差别。”

坎特认为,医学专业人员越来越擅长从基因组序列信息中获取翻译。他说:“在整合和吸引临床医生首先使用技术方面,在护理方面取得了巨大进步。”“护理提供者现在更有可能与卫生信息系统互动,并清楚他们正在捕获的内容-例如,高级表型。

“解剖病理学结果和其他信息被用来诊断癌症——这些值集可以用来寻找数据,帮助计算机判断一个人是否有风险。这是治疗或预后的高级分类,已经进行了大约100年。使用记录中的现有数据可以更好地完成这些决策,最终以界面术语的形式出现在医疗记录中。在医疗记录中有分组和数据汇总,这是新的。通过这些过程,决策支持和工作流程得到了改进。也就是说,我们还没有进入基因组学的这些过程。”

开源标准
开源电子病历软件对缺乏资金的机构,如个体诊所,尤其有益。其他开源技术也取得了自己的成就。“例如,SEER提供SEER*RSA,它提供有关癌症分期的信息,”鲁尔说。“我们还提供其他功能,例如新实施的特定站点数据项(ssdi)。这些信息是免费提供给供应商的,这样他们就可以把信息拉到他们的软件注册表中。特别是,我们的开源信息提供了大量关于编码的信息。NAACCR拥有SSDI,但SEER是存储库,NAACCR SSDI工作组为编码提供指导。”

其他开放资源包括CAnswer论坛,它允许注册者发布问题。(除癌症注册商以外的个人必须获得访问论坛的许可。)Registry Plus和癌症登记处也为癌症登记员提供了大量的信息。注册者也可以联系医生,如果他们需要帮助。

Ruhl说:“有了所有这些来源,患者的隐私得到了保护,因为一旦数据提交给SEER,就没有患者标识符了。”

SEER*Stat需要一个帐户,它存储所有数据。最新的数据是2016年的数据,已于上月公布。“在这个数据库中,你可以访问注册商收集的数据。同样,你也不会得到病人的身份标识,”鲁尔说。“医院或中央登记处的癌症登记员可以访问特定的患者标识符,如姓名、地址等,但这些信息不会传输到SEER。因此,当我们访问SEER*Stat中的信息时,我们无法确定被诊断患有癌症的具体个体。”

搜索特定案例信息的研究人员可以自定义数据请求。鲁尔说:“他们实际上可以做额外的研究,但他们永远不会知道病人的名字。”“此外,美国疾病控制与预防中心的国家癌症登记项目提供了一个数据库,让人们可以进行癌症统计研究。”

虽然有很多不同的统计程序允许不同的统计数据表示,“很多时候我们无法收集信息,因为它没有清晰的记录,”鲁尔说。“例如,病理学家会提交一份‘残缺’的报告。糟糕的文档,缺失的文档,这些是任何研究人员都会遇到的问题。

“有时你可能会有一个被诊断出来的病人,然后消失了。有些是在死亡证明或尸检中诊断出来的。或者他们被诊断出来并立即死亡。你也可能有一个病人,他经历了整个治疗过程,然后存活了几年。你的信息是大杂烩。这解释了我们在癌症登记数据中的许多未知。你真的不知道你会遇到什么。我们可以从大医院得到很好的信息,但不能从小医院得到这么有用的信息,因为小医院往往没有提供全面治疗的设备。正因为如此,患者将转移到更大的医院接受他们需要的治疗,然后我们就不能总是通过医疗记录来追踪他们。”

有些癌症直到病情明显恶化才被诊断出来。例如,鲁尔回忆起一个案例,一名妇女注意到乳房肿块,但没有采取行动,几个月后才因呼吸困难来到急诊室。她说:“这是四期乳腺癌。尽管医生对她进行了积极的治疗,她还是在六个月后去世了。

其他的例子还包括那些最初没有保险但后来能够获得医疗补助的病人,以及那些不相信看医生的富裕病人,他们后来出现了第四期癌症。

信息交换
癌症研究工作可能会遇到困难,因为在交换医疗记录数据时,往往缺乏详细程度。“临床文件架构(CDA),医院给你的记录格式,告诉你你正在阅读的内容和你必须使用的代码,但它不一定包括所有详细的代码-例如,你患有III期乳腺癌,”坎特说。“大多数电子病历使用cda的方式基本上是通过不捕捉所有细节来简化事情。机器学习和人工智能系统失败的一个原因是,它们正在接受训练或正在触发的数据不完整。看起来所有的乳腺癌都是一样的;事实上,他们不是。”

快速医疗保健互操作性资源(FHIR)标准允许以紧凑的方式在信息系统之间移动患者数据。“你可以把它想象成一个装着数据的盒子。它并没有在盒子上说,盒子里的东西都是详细的,因为他们需要,”坎特解释说。“当你谈论基因变异时,当你打开盒子时,你无法确定它们是什么。目前数据被标记的方式,我们不知道如何解释盒子里是什么。人们解读基因序列的方式多种多样。一个非常有趣的事情是病人有一个基因癌细胞也有一个基因。但是有关于癌细胞的医疗记录吗?例如,患者体内有BRCA基因。如果患者得了乳腺癌,那么该基因对患者的亲属而不是患者本身来说更重要。

“另一个重要的患者基因与患者如何代谢化疗药物有关。如果我给那些不能很好地代谢药物的人服用高剂量的药物,我可能会给他们服用有毒剂量的药物。在癌症本身,可能有基因序列可以帮助确定最佳治疗或暗示不同的预后。跟踪所有这些基因可能是相当具有挑战性的,而且这种程度的信息在不久的将来不会轻易自动化。”

人们正在努力规范基因序列的记录方式。例如,通过人类基因组变异协会(HGVS),可以通过解释HGVS的名称和使用其他标准,如FHIR和CDS Hooks(一个开源的临床决策支持标准),将EHR与序列信息联系起来。

这一发展具有深远而重大的影响。坎特说:“如果你有一个记录在HGVS格式中的基因,医生给你开了一种受该基因影响的特定药物,你可以警告医生,应该避免使用这种药物,或者使用更小的剂量,因为病人没有分解药物的机制。”

最近的一项研究调查了这些类型的相互作用。“基于FHIR和CDS Hooks的药物基因组学临床决策支持服务”着眼于药物基因组学(PGx),药物-基因相互作用,以确定PGx是否“有朝一日能成为电子病历中与药物-药物和药物过敏检查一样重要的商品”。

研究人员发现,基于FHIR和CDS Hooks的PGx CDS似乎代表了基因组学- ehr整合的一种有希望的方法。更多真实世界的测试,以及一系列用例驱动的GACS接口需求,将使我们更接近美国国家人类基因组研究所对插件PGx应用程序的愿景。”

坎特说:“也有一些方法可以用病人的话来捕捉病人的结果和事件。”“人们用来与医疗保健系统互动的设备,如智能手机和平板电脑,允许患者输入有关潜在不良事件的信息,然后这些信息可以输入电子病历以提供帮助,或者警告临床医生发生了意想不到的事情。”这种情况甚至可能在病人回到诊所之前就发生了。

“包含患者生成的信息如何工作的另一个有趣的含义是,医生可能会在一定时间内为患者安排检查。然后患者可以在记录中插入一些影响该规则的内容,比如‘我在其他地方做过手术’、‘我生病了’或‘我有令人担忧的症状’。”

坎特指出,癌症试验有许多正式的监测系统,允许患者与技术互动。他说:“有一些创新组织给人们开了一个处方,让他们使用一款交互性更强的应用。“不过,他们目前是少数。”

最终,癌症研究人员通过电子病历获取重要数据的能力——尽管正在取得进展并显示出巨大的前景——仍有很长的路要走。

-苏珊·查普曼是洛杉矶的自由撰稿人。