五月2015

去认同困境
伊丽莎白·s·鲁普著
郑重声明
第二十七卷第五期,第16页

随着数据分析越来越受欢迎,医疗保健组织越来越难以在获得回报和维护患者机密性之间找到平衡。

患者数据量在不断增加,因此,对这些数据进行去识别和共享的要求也在不断增加,以用于从科学研究和临床结果改进到有关定价和利用率的操作决策等各个方面。因此,当卫生与人类服务部(HHS)发布关于这一主题的指南时,其目标是解释两种最常见的去识别方法。

但这足以保护这些数据的持有者和用户以及患者本身吗?答案并不像你想象的那么简单。

“如果你遵循了关于需要去除18个因素以满足去识别要求的指导和规则……你应该是清楚的,”AHIMA医疗保健卓越实践主任、MHA、RHIA、CHPS的安吉拉·丁·罗斯(Angela Dinh Rose)说。“它能被重新识别吗?视情况而定。我从来没有说我们是百分之百的清白,因为我们是人类。”

权衡风险
根据HHS的说法,根据HIPAA隐私规则,消除受保护健康信息(PHI)识别的两种公认方法是专家鉴定和安全港。每一种都有自己的利益和风险。

卫生与公众服务部在《关于根据《健康保险可携带性和责任法案》(HIPAA)隐私规则去识别受保护健康信息方法的指导意见》中写道,专家鉴定涉及应用统计或科学原则,“预期接受者可以识别个人的风险非常小”。

根据这种方法,卫生与公众服务部表示,如果“具有普遍接受的统计和科学原理和方法的适当知识和经验的人”执行以下操作,则承保实体可以确定健康信息已被识别:

•确定该信息单独使用或与其他合理可得的信息结合使用以识别作为该信息主体的个人的风险非常小;和

•记录证明这种判定的分析方法和结果。
根据卫生与公众服务部的说法,安全港涉及去除个人及其亲属、雇主和家庭成员的18个标识符(见侧栏),留下“任何可以识别个人的实际知识[或]残留信息”。这些信息包括姓名、社会安全号码、出生日期、医疗记录号码、健康计划受益人号码,以及指纹和声纹等生物识别信息。

虽然更常用的安全港方法在重新识别方面似乎是相当万无一失的,但正如Dinh Rose所暗示的那样,没有100%的确定性。她的谨慎得到了医疗保健咨询公司Martin, black and Associates高级合伙人迪克西·b·贝克博士的赞同。

她说:“如今的大数据分析非常强大,很难相信这些强大的计算算法无法从未识别的数据中识别出一个人,特别是如果这些数据是纵向的。”“我认为这种推测值得测试和量化。然而,安全港方法是在法律中描述的,所以它应该足够强大,可以在法律上保护一个组织。”

与选择安全港方法的组织不同,那些选择执行决定的组织必须评估数据可能被重新识别的可能性。CynergisTek是一家专注于隐私、安全和合规的it咨询公司,该公司负责合规的副总裁大卫•beplay最新备用网站霍尔茨曼认为,这种风险可以通过以下三种方式衡量:

•可复制性:根据与个人相关的健康信息特征持续发生的可能性,将其优先级划分为风险级别。

•数据源可用性:确定哪些外部数据源包含患者标识符和健康信息中的可复制特征,以及允许谁访问数据源。

•分辨率:确定受试者的数据在多大程度上可以在健康信息中被区分。

“健康信息的可复制性、可用性和可识别性越高,被识别的风险就越大,”霍尔茨曼说。“实验室值是个体识别风险较低的例子,因为虽然它们非常有区别,但它们通常不能独立复制,并且很少在许多人可以访问的多个数据源中披露。人口统计数据的识别风险更大,因为它们具有高度可区分性,高度可复制性,并且可以从公共数据源获得。”

文化的转变
HHS指南的作用在于,它提供了去识别的方法,如果遵循这些方法,就可以减轻数据所有者或用户在泄露事件中可能面临的任何风险。然而,毕马威咨询服务业务合伙人、信息保护(安全、隐私和连续性)业务的医疗保健负责人迈克尔•艾伯特(Michael Ebert)表示,如果使用数据的目的是提高质量和效果,那么完全去识别数据是不可能的。他指出:“根本问题在于,越来越难以识别数据,因为为了改善结果,数据被用于很多方面。”“要做到这一点,需要包括许多不同的变量。”

例如,需要使用日期来有效地度量质量,因为有必要了解事件周围的事件,包括事件发生的时间。然而,所有日期元素,包括入院和出院日期,都是在识别数据时必须排除的18个因素之一。

此外,Ebert说,问题不在于识别数据的方法,而在于如何处理请求。该指南的作用是告知如何充分去识别数据以避免风险,但对过度共享这一更深层次的问题只字不提。“如果你能部分识别数据,那就点赞。好工作。这就是他们要找的。但我们经常发送完整的数据集,因为这样更容易。我们需要改变我们修改和传播信息的方式,”艾伯特说。

提出具体要求的责任由资料拥有人和资料使用者双方承担。每个人都可以更容易地请求和接收所有数据,然后解析出不需要的数据。然而,这样做会增加暴露的风险,从而增加双方的责任。

Ebert说,更好的方法是提交请求,具体说明完成项目目标所需的确切数据。他补充说,当接收到过于宽泛的请求时,数据所有者必须开始反击,而不是默许并交出完整的数据集。

“如果出了问题,责任就在提供数据的人身上,”艾伯特说。“我们谈论的是一种文化变革。我们必须开始思考我们想要什么数据,我们真正需要什么数据。想想你正在面对的风险和暴露。你必须小心你所承担的风险,因为你最终要承担责任,以及向你提供数据的人。

“我们现在一直在不断地培训(我们的客户)‘不要获取你不需要的数据’。如果他们给了你,就还给他们。它正在改变我们今天工作的文化和思维方式。”

Dinh Rose指出,随着技术和信息学在基于价值和质量的卫生保健中发挥越来越重要的作用,去识别数据的使用呈指数级增长。例如,有效的人口健康管理需要能够按年龄、慢性病和其他特定因素对患者群体进行分类。在安全港协议下,这些数据中的大部分必须被排除在外。

“数据分析正在蓬勃发展,所以我可以想象,现在对未识别数据有更多的用途,”丁·罗斯说。“让我们以ICD-10生成的信息为例。这是病人健康记录的一部分;这是φ。但这些信息一旦被确定,就可以帮助确定更高水平的人口健康状况,这是ICD-9甚至无法掌握的。”

病人的权利
一旦确定,健康信息就不再是PHI,因此不受HIPAA提供的保护。对于那些既了解去识别数据的价值,又了解患者隐私权的人来说,这带来了一个有趣的困境。

贝克说:“卫生与公众服务部的指导方针只是简单地解释了法律的规定,虽然我不是律师,但我的理解是,如果一个受HIPAA保护的实体根据HIPAA隐私规则去识别它所持有的PHI,那么这些数据就不再被视为PHI,因此不属于违规通知规则。”“该指南没有涉及基因组数据,而基因组数据正日益成为个人健康记录的一部分。”

公民健康自由委员会(Citizens’Council for Health Freedom)主席兼联合创始人、注册会计师特维拉·布拉斯(Twila Brase)表示,卫生与公众服务部承认,该指南并不能保证隐私。她说,事实上,一旦专家认为这些数据不再是PHI,或者一旦某些数据元素被消除,这些数据就不再受到保护。她补充说,只要不重新识别,患者信息就可以自由共享。

布莱斯说:“很多人在把数据带进办公室或系统后,都在谈论保护隐私,但他们只是在谈论保护数据的安全。”“他们在未经同意的情况下访问了这个人的数据,侵犯了这个人的隐私。”

Brase的组织致力于保护病人的隐私,他说,私人数据不会仅仅因为有人说他们已经去了身份就被公开。患者应对其个人数据的使用享有同意权,包括有权拒绝将其用于患者可能反对的任何目的,无论数据是否已被识别。

Brase指出,在未经同意使用未识别数据时,存在四大风险:无法获得及时、准确、以患者为中心的护理;病人信任的终结;消除可靠的研究;病人失去了对治疗决定的控制权。

“越来越多的患者数据被用于‘质量测量’和支付方法,这些方法被用来试图控制医生的治疗决策。这些控制威胁到个体化护理,强加一刀切的治疗方案,干扰批判性思维能力——所有这些都可能威胁到患者的生命和生活质量,”她说。

“一个人的同意权并不止于诊所门口或病人的床边,”Brase继续说道。“虽然大多数患者可能精通技术,但他们不是技术或数据库专家。大多数人不会理解,去识别的数据往往是可重新识别的。他们不会凭直觉知道卫生与公众服务部在其指导意见中承认了什么,首先是警告说‘如果应用得当’。”

平衡风险与回报
虽然很少有(如果有的话)去识别的数据被重新识别的例子,但研究表明,这种可能性是存在的。2013年,哈佛大学的一名研究人员发表了一项实验的结果,她在一项基因组监测研究中重新识别了1130名参与者中的241人。在本例中,重新识别的个人提交了他们的出生日期、性别和邮政编码。当与公共记录相结合时,这三个因素足以让研究人员正确识别受试者。

同样在2013年,怀特黑德研究所的研究人员使用了可公开访问的在线资源,如Ancestry.com确定近50名提交个人遗传物质参与基因组研究的个体。Holtzman指出,研究人员从新泽西州科里尔研究所的国家普通医学科学研究所人类遗传细胞库中识别出的公共人口统计数据最终导致了美国遗传信息库通过公共数据库提供信息的方式发生了变化。

他说:“讨论的更广泛挑战是我们的方法,即技术如何发展到连接数据源,通过以前被认为不可复制的数据来识别个人。”“随着社会允许通过使用技术应用(委婉地称为物联网)更多地共享和收集信息,识别先前未识别的数据的风险就越大。”

第三项研究由麻省理工学院媒体实验室的一名研究生领导,于2015年1月发表,为重新识别数据的能力提供了证据基础。在这项研究中,一组数据科学家分析了1万家商店中110万人三个月来的信用卡交易。他们发现,只要知道4条随机信息,就足以将90%的购物者重新识别为独特的个体,并揭示他们的记录。然后,通过将他们的独特行为与Instagram或Twitter等公开信息相结合,个人的记录可以通过名字重新识别。

这些研究证明了为什么人们一直呼吁采用能够跟上HIT进步步伐的去识别方法,特别是随着基因组学的应用越来越多。贝克说:“我要指出的是,我自己的大部分工作都与基因组数据的使用和保护有关,HIPAA隐私规则并没有特别提到这一点。”“然而,‘生物特征’是安全港方法必须删除的18个数据元素之一。一个人的DNA可以说是最有力的生物特征,可以用来识别一个人,所以有理由认为基因组数据不能去识别。幸运的是,这一事实似乎越来越被广泛接受。”

最终,它归结为强大而灵活的管理和知情的患者群体,他们了解如何以及为什么使用数据。谈到去认同,Ebert优先考虑以下三点:

•所有数据元素都是必需的吗?

第三方访问是否受到适当限制?

•是否有适当的流程来管理责任和义务?
“每次都要回到(治理)问题上,”艾伯特说。

Elizabeth S. Roop是佛罗里达州坦帕市的自由撰稿人,专门从事医疗保健和HIT方面的工作。

安全港法
(2)(i)删除该个人或其亲属、雇主或家庭成员的下列标识符:

(一)名称

(B)小于一个州的所有地理分区,包括街道地址、市、县、选区、邮政编码及其相应的地理编码,但邮政编码的前三位数字除外,如果:

(1)所有邮政编码首字母相同的三位数字组合而成的地理单元包含20,000人以上;和

(2)所有人口少于20,000的地理单元的邮政编码的前三位数字改为000

(C)与个人直接相关的日期的所有日期要素(年份除外),包括出生日期、入院日期、出院日期、死亡日期和所有超过89岁的年龄,以及指示该年龄的所有日期要素(包括年份),但这些年龄和要素可以汇总为90岁或以上的单一类别

D)电话号码

(E)传真号码

电子邮件地址

(G)社会安全号码

(H)医疗记录号码

(一)健康计划受益人人数

(J)帐号

(K)证书/执照号码

(L)车辆识别码和序列号,包括车牌号码

(M)设备标识符和序列号

(N) Web通用资源定位器(url)

(O)互联网协议(IP)地址

(P)生物识别技术,包括指纹和声纹

(Q)全脸照片和任何可比较的图像

(R)任何其他唯一识别号码、特征或代码,但本条第(c)段允许的除外[第(c)段见下文“重新识别”一节];和

(ii)受保实体实际不知道该信息可单独使用或与其他信息结合使用,以识别作为该信息主体的个人。
再次鉴定

(c)执行规范:重新鉴定。承保实体可指定代码或其他记录识别方法,以允许根据本节进行识别的信息由承保实体重新识别,前提是:

(1)推导。代码或其他记录识别手段并非来源于或与个人信息有关,并且不能通过其他方式进行翻译以识别该个人;和

(2)安全。受保实体不为任何其他目的使用或披露代码或其他记录识别手段,也不披露重新识别的机制。

-来源:卫生和人类服务