特别展示版2013年4月

语音识别:一项正在进行的工作
Selena Chavis著
郑重声明
第二十五卷第七页

虽然在很大程度上是可靠的,但重要的是要注意,这项技术并非万无一失。

虽然关于使用语音识别技术的最佳方法在医疗保健界仍然存在争议,但大多数行业专业人士都同意一些观点。几乎没有人会质疑供应商社区在推进应用程序以更好地满足医疗保健行业的需求方面取得了巨大的进步,并且随着开发人员寻找使技术更加智能和准确的方法,创新仍在继续。

大多数业内专业人士也承认,该技术有潜力与联邦政府的计划保持一致,以简化文档实践,并支持改进的实时信息共享。

除了这些积极因素,供应商和医疗服务提供者都很快指出了一个重要的绝对事实:语音识别永远不会是绝对正确的。语音识别提供商M*Modal首席科学家、理学硕士于尔根•弗里奇(Juergen Fritsch)博士表示:“即使你使用最新、最好的技术,你仍然会发现错误。”“认识到错误总是存在的,这一点非常重要。”

错误仍然存在
爱尔兰科克大学医院(Cork University Hospital)最近的一项内部调查显示,即使在放射科使用了三年的前端语音识别技术后,报告仍然存在明显的错误。该系统安装于2008年,放射科医生可以自己进行编辑和最终校对。最初的投资回报是有希望的,因为该设施实现了周转时间的立即改善-三到四个小时,而不是发送到转录时的几天。

高效的周转时间是病人护理的一大优势,但放射学专业注册医师Maria Twomey医学博士和她的肿瘤学同事认为,需要进行持续的错误审查,以支持流程改进。研究人员对2008年6月至2011年12月期间的350份报告进行了随机抽样审查,发现12%的报告存在错误,3%的报告包含可能对患者护理产生不利影响的严重错误。

在总部位于俄亥俄州的加州大学卫生系统,公司转录服务主任雪莉·道格特(Sherry Doggett)被要求在急诊科实施语音识别技术后,为医生文档启动一个质量保证(QA)项目。与科克大学医院的经验非常相似,UC Health使用来自QA过程的数据来确定可以加强语音识别操作的领域。

随着最有效的语音识别技术的不断发展,许多行业专业人士认为QA将是一个关键的组成部分。具体来说,这种后续工作将需要发现错误的来源,无论是技术本身还是糟糕的听写实践。

科克大学医院的研究发现,语音识别技术很难理解与某些单词相关的爱尔兰口音。当医生对“问题”单词使用美式发音时,错误率有所提高。

其他问题与遗漏“是”和“否”等关键词有关,这些关键词会改变句子的意思。测量也存在问题,比如“厘米”有时会被“毫米”取代。此外,还有一些语法错误导致了报告的理解问题。

Emdat的语音识别经理里奇·米歇尔(Rich michel)表示,一些糟糕的听写练习可能会导致这种错误。他解释说:“如果医生说的不是正确的句子结构,该技术将很难识别一个句子的开始和结束。”“连贯性是标点和理解语音的关键。”

弗里奇指出了其他一些问题,比如喃喃自语或说话太快——如果发音不清楚,就会错过像no这样的短单词。

技术在不断进步,以解决口音等问题领域,同时主动识别潜在问题。即使有了这些进步,越来越多的医疗保健组织也认识到需要对前端语音识别创建的文档进行第二套检查。医疗保健文件完整性协会(AHDI)主席、AHDI- f CMT凯伦·福克斯-阿科斯塔(Karen Fox-Acosta)表示:“在过去的几个月里,我们看到人们对质量的重视程度超过了很长一段时间。”“当医生在前端进行编辑时,系统只会在医生花费的时间内发挥作用。”

前端vs后端
目前,有两种方法——前端和后端——将语音识别集成到提供者工作流中。业内专业人士一致认为,前端语音实践具有最大的潜力,可以与当前联邦政府推动提高效率和更实时的患者数据信息共享的举措保持一致。

前端语音消除了耗时的转录服务的需要,因为医生直接向电子病历口述。Nuance产品营销高级总监基斯•贝尔顿(Keith Belton)表示:“美妙之处在于,它是实时可用的,医生可以自己编辑。”

后端语音识别更加透明,在医生看来可能像传统的听写/转录格式。医生通常通过壁挂式电话或移动设备拨入系统,并向语音识别应用程序口述。一份文件被制作出来,然后由医学转录员(MT)编辑以保证准确性。

虽然前端语音提供了满足行业发展需求的最大潜力,但通常认为后端流程可以提供更高的准确性。米歇尔说:“根据我的经验,后端语音处理似乎工作得更好,因为你有MT的参与。”“从长远来看,MT背后的经验会给你带来更好的产品。”

AHDI在2009年进行的一项研究虽然没有将前端和后端语音实践进行比较,但得出的结论是,当MTs验证医生口述的信息时,医疗记录的准确性会提高。研究发现,传统听写练习的错误率为22%,语音识别翻译的错误率为52%。

虽然这两种情况下的错误都可以通过适当的编辑技术来纠正,但许多专业人士的问题是,医生是否有时间或愿意采取必要的步骤在前端演讲环境中进行纠正。福克斯-阿科斯塔说:“当医生处于这种前端情况时,可能会发生的事情是,他们再也不会看第二眼了。”“第二个表情很关键。”

对科克大学医院(Cork University Hospital)研究中收集的数据的回顾显示,三分之二包含错误的报告是在放射科医生疲惫不堪、急于完成工作的情况下完成的,这进一步证实了另一双眼睛可能至关重要的观点。

Emdat首席执行官兰迪·奥利弗表示,语音识别技术应该尽可能提高医生的效率。他说:“我们Emdat一直提倡让机器翻译检查成品。”他指出,医疗机构在尝试将语音识别应用到工作流程中时,需要现实一点。“我们希望确保我们设定了适当的期望。客户需要意识到,语音识别并不适合所有人。”

更好的设备,分析和其他进步
福克斯-阿科斯塔承认,语音识别设备和软件近年来取得了重大进展。“语音识别平台越来越好,麦克风技术也越来越好,”她说。“拥有高质量的设备是一大优势。”

贝尔顿说,为了克服与口音和个人语言偏好有关的问题,软件应用程序在本质上变得更加智能和更具解释性。用户分析系统允许语音识别软件从本质上学习“风格指南”和特定医疗保健专业人员的声音。

例如,如果医生通常在口述结束时提供处方信息,但医疗保健组织更喜欢在文档开始时提供处方信息,则可以将更改输入用户配置文件并自动完成。系统根据反馈到预先建立的配置文件中的习惯或偏好来学习适应单个用户。高级功能,如按医生专业和地区口音向导分类的词汇表,也可以构建到配置文件中。

弗里奇说,市场正朝着“语音理解”模式发展,这种模式为识别明显或无意义的错误提供了基础。他解释说:“我们一直在努力扩展语音识别范式之外的领域。”他补充说,专门针对医疗保健的定制技术可以防止技术犯“愚蠢”的错误。“当他们谈论胸痛时,脚上的任何东西都不太可能出现。”

根据弗里奇的说法,心脏病专家的用户档案可能会从一个广泛的心脏病学平台开始,然后随着语音引擎开始了解独裁者的特征而扩展。但是,需要注意的是,用户配置文件的有效性取决于输入到其中的信息,并且必须考虑后端和前端工作流之间的差异。在后端语音世界中,mt确保将适当的编辑输入到用户配置文件系统中,以确保个人独裁者的最高准确性。对于前端语音工作流,责任落在医生身上。

Doggett还指出,mt有助于确定用户配置文件何时为现实世界做好了准备。虽然大多数供应商建议60到100分钟的语音来为特定用户准备语音引擎,但她表示,这取决于个人。“这是一个大致范围。有些人可能需要180分钟的语音,”她指出,即使延长了时间,一些专业人士也根本没有资格进行语音识别。“在(用户资料)可以发布到语音识别平台之前,你必须采取一种现实的方法。如果你过早地让医生兴奋,你不会有任何收获。”

Micheil说,无论使用后端进程还是前端进程,一旦配置文件发布到常规系统中,一致性是成功的关键。“语音引擎总是会产生某种文本,”他指出,同时指出用户的个人资料数据需要与用户的实际行为相匹配。

权力制衡
贝尔顿说,除了QA项目,培训和定期反馈对于确保语音识别实践产生准确的结果至关重要。“其中一些是我们(供应商)在培训中所做的,另一些需要在部门中发生,”他说,他指的是包括定期图表审查在内的工作流程。“一个基本原则是,不仅要提供有关(技术)的培训,还要提供有关您工作的电子病历的培训。”

贝尔顿说,最近在加州一个大型医疗系统的部署中,语音识别技术的发布恰逢Epic电子病历的实施,两者的培训同时进行。“通过这种方式,培训师可以为医生定制工作流程,”他解释说。“如果没有经过8到10个小时的培训,你不会想要给(某位医生)一个Epic的登录名和密码。任何技术都是如此。”

弗里奇指出,对医生来说,培训可能只能到此为止。鉴于经常出现的中断和繁忙的病人护理日程,最佳做法可能没有得到应有的关注。M*Modal承认,前端流程的成功取决于那些往往不像MTs那样仔细编辑的医生,因此已经采取措施,在可能存在错误的地方提供线索。从本质上讲,该技术突出显示文档的某些区域,以引起对潜在问题的注意。

弗里奇说:“我们采取了另一种方法:让他们决定他们习惯的方式,并强调有问题的地方。”例如,如果一个独裁者不停地谈论左脚,然后又提到右脚,就会升起红旗。

该技术还突出了关键组件(如测量)的相关性。Fritsch说:“任何测量都会被突出显示,以确保有人检查它。”他指出,关于最佳实践的适当培训将为准确性奠定更有效的基础。“那些在发号施令之前花时间思考自己要说什么、说话清晰一致的独裁者……才是最成功的。”

- Selena Chavis是佛罗里达州的一名自由撰稿人,她的文章经常出现在各种贸易和消费者出版物上,内容涵盖从企业和管理到医疗保健和旅行的所有主题。