笔名化在CTcue中是如何工作的?

2021年4月21日

结构化数据的假名化

CTcue使用伪ID确保患者隐私。这些ID将患者姓名替换为患者编号。一旦分配,这些数字将保持不变。这种技术称为散列。我们使用SHA-512哈希算法。

土豆也是“加盐”的。这使得他们更加安全,确保在不访问医院内的CTcue在线数据库的情况下,假ID永远不会被追踪到。

此外,有时合并患者的电子健康记录(EHR)。例如:患者1必威手机APP和患者2最初是两个不同的患者。然而,在医疗服务体系发生变化后,可能已经确定P2(已到达急诊科)实际上与P1(已在EHR中注册)相同。在这种情况下,在CTcue下,这些患者的伪ID将合并。然后,伪ID是集合的现有注册患者的号码的散列(在示例中,是P1的SHA-512散列)。

Pseudonymization文本

假名文本需要特别小心。删除的个人资料太少,会保护病人的隐私。删除过多会降低医疗信息的质量。

为了给文本起假名,我们采用了两种不同的方法:第一种方法是使用患者已知的所有信息。第二步采用模式识别技术检测未知信息。

在数据库中,将存储每个患者的姓名、姓氏、出生日期等信息。对于第一种方法,我们使用以下信息作为输入来分析文本:

  • 病人编号
  • 首字母
  • 第一个名字
  • 出生日期
  • 死亡日期
  • 国家登记号码
  • 街道名称
  • 门牌号
  • 邮政编码
  • 住所
  • 电话号码

该信息的全部历史将包括在内。例如,如果一个病人住在多个地址,那么所有的街道名称都将被检测到。

数据
对于每种类型的数据,使用各种搜索方法。例如,首先分析已知的名称(如果它是真实名称)非常重要。有时,在紧急情况下,医疗信息已输入到名称字段中。注意拼写错误或变体也很重要。例如,“ij”可以写为“y”,或者“ea”可能被意外记录为“ae”。在我们对文本进行模糊匹配之前,所有这些变体都被替换。这意味着不完全匹配但与名称非常相似的单词也将被替换。进行进一步检查,以确保我们不会删除医学术语。

详细联系方式
电话号码和电子邮件地址总是会被删除,因为两者都有一种很容易检测到的模式。我们还删除了作为输入输入的所有物理地址,并查看了许多常见的变体,如“str”,它被列为“street”。

日期
删除数字变体(“1-3-67”、“1972年3月2日”)和文本变体(“57年10月3日”、“1965年11月2日”)中的出生和死亡日期。但是,出生年份和年龄没有删除,因为这些可能具有医学重要性。

个人号码
根据提供的输入,删除个人号码,如国家登记号码或保险号码。例如,这包括前导零的变体。我们也考虑数字的上下文。例如,如果“国家注册号”适用或文本表明其涉及保险号,则我们将删除该号码,即使该号码未注册为输入或注册不正确。

这一过程确保,作为第一步,所有已知信息都被替换,然后才能应用与未知信息相关的方法,如外国地址、错误注册的信息或家庭成员的姓名。这些方法适用于已知的模式,并利用之前基于输入发生的假名。

持续改进

患者隐私和个人数据保护非常重要。将数据化名可确保遵守《通用数据保护条例》(GDPR)规定的规则。借助CTcue,我们根据最新发展以及用户和客户的输入不断改进我们的方法。

本文的参考文献:CTcue。笔名化在CTcue中是如何工作的?

联系我们