冬天2023

癌症登记处在数据抽象中使用自然语言处理
作者:苏珊·查普曼,文学硕士,文学硕士
郑重声明
第35卷第1页

自然语言处理(NLP)正在成为整个医疗保健的重要工具。在过去的几年里,医疗保健行业越来越多地在癌症登记处使用这种人工智能来帮助完成从每天流入癌症登记处的大量文档中提取数据的挑战性任务。

癌症登记在医疗保健中的作用
位于康涅狄格州纽黑文的耶鲁-纽黑文医院于1926年建立了第一个癌症登记处,其功能现在被认为是今天收集、管理和分析被诊断为癌症的患者信息系统的先驱。在过去的一个世纪里,癌症登记已经成为帮助医疗专业人员和其他人更多地了解癌症及其治疗的不可或缺的一部分。

实际上有三种不同类型的癌症登记处。有一些是在医疗保健系统或设施内。这种类型的登记处的作用是收集和存储在该组织或机构内诊断和治疗癌症的患者的信息。第二种类型是中央登记处,即在特定区域收集和存储癌症信息的登记处。第三种是实现特定功能的注册中心,也称为专用注册中心。这种登记收集某一特定类型疾病的信息。

癌症登记处收集的信息包括诊断;癌症类型;患者的病史和人口统计资料;治疗和疗法;患者随访,后者可包括疾病复发和持续治疗

在癌症登记处收集数据后,他们根据各州的报告法律和要求将这些信息报告给各自的州。反过来,各州将数据发送到国家癌症数据库(NCDB),该数据库产生全国范围的统计数据和报告。在整个过程中——从最初的数据收集到NCDB接收这些数据——所有患者信息都必须按照HIPAA要求保密,并且在数据发布或分析中不使用任何标识符。

虽然国家被认为是一个癌症事件登记处——重要的是这些事件可以帮助识别癌症——NCDB提供了治疗的比较数据。国家统计局的数据分析可以帮助设施了解它们是否达到了国家质量指标。例如,国家癌症数据库提供的信息包括癌症存活率,这可以指导医生选择适当的治疗方案。

由于癌症登记在整个公共卫生中的重要作用,它们也在更广泛的范围内提供帮助,帮助公共卫生官员在研究资金的分配、筛查项目的安置和公共教育方面做出关键决定。同样重要的是,癌症登记处收集的信息在提高对治疗效果、癌症发病率和疾病存活率的了解方面发挥着至关重要的作用。

癌症登记员负责监督癌症登记的信息管理工作,他们提取大量信息,并与医生、研究人员和卫生管理人员合作。登记员收集整个癌症经历的数据,基本上是癌症的所有方面,从患者诊断到治疗。癌症登记员的职责是确保数据的完整性,并确保所有信息报告符合州和联邦标准

NLP和癌症登记处
NLP可以通过从电子病历中提取疾病相关数据来支持癌症登记员。这些信息“然后可以整合到疾病登记处,允许数据丰富的登记处前瞻性地用于临床试验,并回顾性地利用现实世界的数据对疾病干预作出明智的决定。

Inspirata Inc .的首席技术官兼工程副总裁乔治•塞尼尔(George Cernile)和CTR的临床产品专家米歇尔•a•韦布(Michele A. Webb)表示,他们公司最近对癌症登记机构进行的调查结果显示,四分之三的受访机构希望实现病例查找(识别被诊断患有癌症的患者)的自动化。大约有一半的组织希望将案例跟踪自动化,五分之一的组织希望将NLP应用于抽象。

Inspirata团队表示:“NLP解决方案可以显著增强与病例查找和自动提取病例抽象中使用的数据元素相关的癌症登记任务。”“NLP引擎可以在几毫秒内处理人类需要几个小时才能完成的事情。一旦确定了病例的可报告性,并使用适当的标准和指南从电子病历中提取了预定义的数据元素或属性,登记员就可以快速有效地验证病例记录的准确性和完整性。”

除了电子病历之外,还有其他更细致的文档形式,可以从中收集有价值的信息,NLP也可以从中发挥作用,技术仍在不断发展,以便能够收集和分析这些信息。Cernile和Webb说,在过去的五年里,NLP对癌症登记工作的帮助已经得到了发展,特别是在深度学习等新模型方面。“直到20世纪80年代,计算机数据管理系统才出现,”他们解释说。“今天,我们受到科学和医学快速变化的挑战,这些变化影响了多个标准制定机构的报告要求。为了向最终用户交付支持这些变化的软件解决方案,供应商不得不缩短他们的开发和质量控制周期。虽然在聊天机器人和搜索查询等更通用的应用中显示出有希望的结果,但就破译离散医疗数据的准确性而言,这项新技术并不那么强大。医学报告中有很多东西让这种NLP系统感到困惑。为了破译医疗信息,系统需要访问有关如何解释数据的领域知识,然后使用这些领域知识进行推理。”

在2019年发表的研究《利用自然语言处理从电子病历中提取临床癌症表型》中,合著者Guergana K. Savova和她的同事们承认,电子病历以外的文件对癌症登记数据收集工作很重要。在他们的研究中,研究小组调查了“从电子病历的自由文本中提取信息的进展,这些信息与肿瘤学的复杂领域有关。”该研究指出,“在肿瘤临床护理和研究过程中产生的数据正以指数速度激增。”在过去的十年中,电子医疗记录(EMRs)的使用在美国显著增加。研究小组认为,推动电子病历使用增长的因素包括2009年的HITECH法案和数据库,如NCDB和国家癌症研究所的监测、流行病学和最终结果项目等。然而,尽管电子病历的使用越来越多,重要的数据仍然存在于免费文本中,这些信息在癌症治疗和研究中是有价值的

研究人员继续解释说,尽管电子病历被广泛使用,但重要的信息通常只在临床文本中详细描述,而NLP可以帮助提取这些细微的信息,并补充说:“作为人工智能的一个分支,临床NLP指的是对临床或医疗保健文本(而不是临床应用本身)的分析,已经存在了几十年。然而,直到最近几年,计算能力和算法的进步才足以证明其在扩大肿瘤学研究方面的能力。

从行业的角度来看,Inspirata团队同意从EHR以外的文档来源中提取数据至关重要,并指出NPL需要继续发展。

临床试验的价值
除了为研究、跟踪和治疗目的提取数据外,Savova和她的同事们还强调了临床试验在推进癌症患者护理和使新的医学治疗方法出现方面的关键作用。但是,尽管这一领域的研究正在蓬勃发展,成年人的参与度却很低,这在代表性不足的人群中尤为明显。如果患者没有利用临床试验,那么缺乏参与就会阻碍研究人员完成试验并最终产生安全有效的治疗方法。作为缓解这一问题的一种方法,临床试验匹配已经变得非常重要Savova和她的团队指出,“这不是一个简单的问题,因为需要从用自然语言编写的试验方案中提取信息,并将结果与个人电子病历的特征相匹配。

在卫生保健领域,将患者与适当的临床试验联系起来是一个普遍存在的问题。NLP为组织提供了扫描注册表中的病理报告的能力,以帮助确定地理上可访问的患者的适用临床试验。

在休斯顿,贝勒医学院与NLP公司Melax Tech合作,开发了自动化患者队列识别和简化研究的流程Melax Tech首席执行官Andre Pontin表示:“在癌症社区中,将NLP用于各种目的的兴趣越来越大。例如,通过使用NLP努力发展支持和维护国家癌症登记报告的能力。

该联合项目预计将于2023年底结束,希望利用提取的数据推进临床研究。克里斯·阿莫斯博士,该项目的首席研究员,临床和转化研究所所长,以及贝勒大学丹·L·邓肯综合癌症中心人口和定量研究副主任,解释说:“病理报告通常包含与治疗患者相关的丰富而有价值的信息,但数据结构使它们难以用于研究。

理解NLP目前的局限性
Cernile和Webb认为,虽然NLP可以在数据抽象中发挥重要作用,但它并非没有缺点。“NLP并不完美,因为它有时很难破译医学信息。NLP不是处理医疗数据的灵丹妙药,也不是万能的。要取得成功,它需要对问题领域以及期望的结果和输出有深刻的理解。换句话说,该系统需要针对特定目的进行调整才能有效,”他们解释说。“另一个挑战涉及一些报告的格式。并非所有内容都是基于文本的形式。在许多情况下,NLP必须处理低分辨率的传真或带有图形的pdf。这对任何计算机系统来说都是一个挑战,不管它的设计有多好。”

为了确保NLP系统的有效使用,Inspirata团队认为,对每个特定用例的内容和目标进行适当的审查和理解是至关重要的。其他最佳实践包括样本报告的收集以及健壮的测试和调整,以实现所需的功能和准确性。为了在未来继续取得成功,“NLP必须继续发展,并应用于医疗保健和癌症登记的适当任务和功能。癌症登记员的角色将从数据收集转变为数据管理。NLP将使注册商能够更快、更准确地收集、可视化验证并将标准和指南应用于多个复杂的数据集,”Webb和Cernile说。

对于Savova和她的团队来说,利益相关者之间的合作是另一种最佳实践。肿瘤学和癌症研究是两个独立的领域,要找到精通这两个领域的人是很少见的。正因为如此,他们各自领域的专家必须共同努力,以优先考虑NLP的最佳用途。3他们指出,“一旦一种NLP技术被开发出来,肿瘤学家和癌症研究人员应该在评估它以确定其研究用途和临床价值方面发挥主要作用。”虽然包括人工智能系统在内的软件临床评估标准正在不断发展,但应考虑由熟悉技术和FDA指南的临床研究人员在试验环境中进行评估,这些工具直接影响管理决策。通过合作,计算机科学家、肿瘤学研究人员和临床医生可以充分利用NLP技术的最新进展,充分利用我们电子病历中存储和快速积累的丰富数据。

很明显,NLP技术的进步在帮助癌症登记员提取信息方面发挥了关键作用,这些信息最终使个体患者和整个人群受益。公共和私人组织在确保这项技术继续发展方面都有既得利益,最终帮助研究人员和从业人员更多地了解癌症及其治疗方法,从而提高患者的护理水平。

-苏珊·查普曼,文学硕士,艺术硕士,洛杉矶自由撰稿人和编辑。

参考文献
1.查普曼S.癌症登记员处理棘手的任务。郑重声明.2012; 24(7): 14。

2.使用Linguamatics NLP简化疾病登记的数据抽象。Linguamatics网站。https://www.linguamatics.com/solutions/disease-registries

3.Savova GK, Danciu I, Alamudun F,等。使用自然语言处理从电子病历中提取临床癌症表型。癌症Res.2019; 79(21): 5463 - 5470。

4.Melax Tech和贝勒医学院合作开展癌症自然语言处理项目。美通社网站。https://www.prnewswire.com/news-releases/melax-tech-and-baylor-college-of-medicine-collaborate-on-cancer-natural-language-processing-project-301409939.html.2021年10月27日出版。