Fork me on GitHub

锘崴科技|隐私计算在医疗健康大数据上的应用与技术实现

图片

分享嘉宾:王爽博士 锘崴科技 创始人、董事长
编辑整理:毕东海 大连理工大学
出品平台:DataFunTalk

导读: 本次分享题目为:隐私计算赋能医疗健康大数据价值流转。今天的介绍会围绕下面四点展开:

  • 公司介绍
  • 背景介绍
  • 技术方案
  • 应用案例

01 公司介绍

图片

杭州锘崴科技有限公司是业内最早从事医疗隐私保护计算的团队之一,在该领域工作十余年。硅谷归国海外高层次人才团队,总部位于杭州,在北京、上海、成都、海口设有子公司。

我们公司主要采用安全联邦学习、可信执行环境、多方安全计算、密码学、区块链等技术,开发了一套自主、安全、可控的隐私计算底层基座,实现“数据可用不可见”和“数据可控可计量”。

因此我们公司也获得了例如国家高新技术企业等的资质。

图片

从公司成立以来,我们公司获得了很多资质和身份的认可,产品也完成了来自国际化标准组织、工信部、公安部等相关组织的测评,并获得了很多榜单与荣誉的认可。

图片

我们团队在过去十年间非常重视隐私计算底层技术的研发,获得了数亿元的国家自然科学基金的资助。我们公司在隐私计算的研究领域覆盖了多个主流的隐私计算路线,例如可信执行环境、多方安全计算、同态加密、联邦学习、差分隐私等,并且在上述等隐私计算领域发表了300多篇论文。

图片

在过去十年间,我们在医疗场景有多项隐私计算技术的实施落地。例如我们在2012年起就把隐私计算联邦学习的架构应用于多个美国国家医学健康网络的数据共享,分别打通了多所医院的数据。其中最大规模的数据网络覆盖了美国整个西海岸数百家医院的3000多万病人。同时我们公司产品的底层架构也支持包括横向联邦学习、纵向联邦学习等多种联邦学习技术分析,以及各种结果化非结构化数据,包括对基因数据、影像学数据的分析。

图片

此外,我们公司也在积极推进全球的隐私计算的发展。例如王爽博士在2014年发起了国际iDASH隐私计算大赛,这是全球范围隐私计算领域最早也是最大规模的竞赛,每年会有来自20多个国家的100多个队伍参与到这个竞赛中,至今为止已经完成了9届。同时,我们公司在去年也举办了国内的首届隐私计算大赛,今年2022年国内隐私保护计算大赛也在7月底正式启动。

我们公司的底层技术多次被Nature News、Genome Web等报导,并且获得过Intel杰出贡献奖。

02 背景介绍

图片

接下来介绍一下医疗隐私计算的相关背景。医疗数据包括多种类型,例如电子病历数据、基因数据、移动医疗数据、公共医疗数据库等。通常,如果要将医疗数据应用于科研,需要对数据进行脱敏之后才可以交给第三方使用。但是在这个过程中若遇到一些恶意攻击者,通过结合一些背景信息,就有可能把脱敏后的数据里面的一些敏感信息恢复出来。

图片

图片

图片

接下来介绍一个隐私泄露的 例子

假如有一个医疗数据,包括姓名、工作、性别、年龄以及和疾病相关的敏感信息,将姓名定义为识别符,中间的人口统计学信息定位为准识别符。此时,若将识别符去掉,这个数据像是一个匿名化的数据。但是若结合一些背景知识,例如美国公开选举人数据库或者社交媒体的信息,很有可能将原始数据恢复出来。例如图中一名男性律师,38岁,患有肝炎,那么通过和公开的数据比较,将很容易猜到是“‘Doug’患有‘肝炎’这则敏感信息”。这就是一个典型的医疗数据脱敏后遭泄露的案例。

图片

图片

根据Sweeney在1997年和2000年的进一步研究,通过匿名的医院出院文件中的一些信息,例如邮编、生日、性别等信息,与美国选举人公开数据进行比对,可以恢复出很多敏感的身份信息。例如对于图中的美国州长,通过他的邮编、生日、性别等公开信息,就可以恢复出包括医疗费用、疾病诊断和用药等敏感信息。

根据美国的研究,通过邮编、性别、生日等公开信息,63%到87%的美国人可以被唯一确认。所以我们可以发现单纯使用脱敏技术是很难完全保证数据的隐私安全。

图片

在最新的《信息安全技术个人信息化去标识化指南》中,描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施,并对常用的脱敏方法进行了介绍。在医疗数据中,脱敏技术具体指,在原始数据中去除可能识别出个人,或者其亲属、雇主、家庭成员的信息。

图片

但是根据2011年一项发表在PLOS ONE的研究,即便使用美国HIPAA Safe Harbor标准脱敏过的数据,在每15000病人中,仍然有可能恢复其中2个病人的隐私信息。不仅在美国,根据杭州锘崴科技有限公司之前与国家癌症中心合作,对中国病人医疗数据进行了风险评估。基于全国34个省、自治区及直辖市的将近7000万癌症病人的数据,发现中国癌症病人脱敏后医疗数据的隐私风险达到~0.01%,这在中国7000万癌症病人的基数上,是非常大的。

图片

根据以上对于数据脱敏的介绍,可以发现,数据脱敏只是一种约束和保护,它并不是完全没有风险的,只是把风险控制在一个很低的范围。即使如此,由于医疗数据的复杂性,很多类型的医疗数据很难脱敏。比如基因数据,每个人的基因数据大约有30亿个位点,其中99%的基因数据是相同无差异的,另外1%的基因数据决定了人类的疾病和生理特征等,如果将这些特殊的基因位点去掉,基因数据的功能性也会大打折扣。在这种情况下,单纯通过脱敏很难保证基因数据的隐私安全。同时在《个人信息保护法》里明确规定了只有匿名化信息才不受个人信息的监管。而数据匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。很显然,根据之前的讨论,脱敏后的数据还是有可能定位出个人信息的,所以它不是匿名化的数据。

图片

为了解决脱敏所存在的不足和风险,有些研究人员也提出了沙箱的隐私计算方式,即在数据使用方在数据提供方指定的环境内完成计算并获得数据结果而非原始数据。“沙箱”一定程度解决了脱敏遇到的问题,但是也引入了一些新问题。例如在大多数医学科研研究中,都是需要用到多源的数据合作分析。而通过“沙箱”模式,很难找到一个独立的沙箱,将数据源放在一起。所以经常会有每个数据源或者医院采用独立的模式进行计算,获得独立的模型之后将模型结果进行汇总。其缺点是得到的模型的精度并不等价于将数据汇总以后的精度,影响多中心研究的效率。

为了解决“沙箱”带来的问题,衍生出了隐私计算技术,它通过融合联邦学习、可信执行环境等一系列的技术,可以实现数据的虚拟融合,打破数据孤岛,在合规的前提下实现数据的充分利用,同时保证模型精度等价于把数据明文汇总以后得到的精度,从而平衡了数据共享与隐私保护。

03 技术方案

接下来简单介绍隐私计算的一些方案

图片

图片

隐私计算从技术角度主要可以分为联邦学习、可信硬件技术、密码学技术三类。联邦学习是指在各数据源完成本地计算,而只交换一些模型的梯度或者统计信息,以实现数据在“可用而不可见”的前提下的联合计算。但是通常由于联邦学习需要交换梯度等模型参数,仍然存在隐私泄露的风险。所以在联邦学习中也会结合可信执行环境、密码学技术,以保证隐私计算过程中的参数安全。

可信硬件技术目前主要指可信执行环境,其核心思想是指通过软硬件结合的方法,在CPU或者GPU内部独立出来一个不受外接干扰的计算区域,并支持对于软硬件环境的远程认证,从而可以实现在这个计算区域的可信计算,例如Intel的SGX技术。

密码学技术指通过多方安全计算和同态加密等技术,保证在加密的状态下完成对数据的计算,同时其计算结果等价于明文状态下的计算结果。

图片

可信硬件技术与密码学技术的区别主要在信任机制、实现难度、灵活性、适用性等四个方面。

(1)在信任机制上 ,可信硬件技术的信任基础是在于底层的硬件设计以及对硬件提供方的信任,而包括多方安全计算和同态加密等在内的密码学技术是通过密码学原理,其安全性是一般可验证的。但是某种程度上,多方安全计算和同态加密等密码学技术也是运行在计算机硬件上的,因此同样要求硬件的可信任。

(2)在实现难度上 ,可信硬件要求开发人员对系统底层技术的理解,而密码学技术要求开发人员熟练掌握密码学知识。

(3)在灵活性上 ,可信硬件技术通过隔离的方式实现隐私和安全,对通用计算比较友好,对于复杂算法的实现上较为灵活,而多方安全计算和同态加密更多的是提供基础的算子,然后可能通过多项式展开的方式提供一种近似的计算。

(4)从适用性上 ,可信硬件技术可以支持大规模、多中心的计算,而多方安全计算和同态加密更适合两到三个参与方的企业级合作。

图片

在隐私计算发展的整体过程中,王爽教授团队也做了一些早期的工作。

(1)在联邦学习方面 ,在2012年发表了全球首篇医疗场景下在线安全联邦学习的论文,提出了数据可用不可见的核心概念,同时把底层框架应用到一些国家级医学健康网络,覆盖了大概数百家医院的3000多万病人。

(2)在可信执行环境方面 ,OMTP在2009年最早发布了可信执行环境标准,之后,Intel在2015年底发布了首款商业化支持可信执行环境CPU,Intel SGX。进一步地,基于安全联邦学习和可信执行环境,王爽教授团队在2016年初完成了全球首例支持跨多个国家的罕见病跨国医疗数据隐私保护下的互联互通,并获得了Intel杰出贡献奖。

(3)在同态加密技术方面 ,王爽教授在2015年完成基于同态加密的多中心罕见病研究,并在2017年,牵头成立国际同态加密标准委员会。

(4)在多方安全计算方面 ,王爽教授在2016年将多方安全计算和联邦学习技术结合,应用到国家级的生物医学计算网络。

图片

对于隐私计算,任何系统都没有绝对的安全,安全是建立在相关场景假设的前提下,每项技术的适用范围、保护能力、性能、安全基础都不同。而商业隐私计算技术是在满足数据应用场景要求下(性能、精度、安全性),尽可能做到更好用,需要充分了解和实践不同的技术才能充分发挥隐私计算的作用。

隐私计算的技术路线包括联邦学习、多方安全计算、同态加密、可信计算环境、差分隐私、区块链等技术。基于这些技术的实际应用场景,主要包括数据查询、数据建模、建模推理、数据溯源等。而在不同的应用场景下,需要保护的数据信息也不同,例如,可能需要保护输入信息、计算过程、模型参数、计算结果等。

图片

隐私计算技术的具体案例,可以参考2021年首届隐私保护计算大赛的赛题。在这个赛题中,共有甲、乙两个参与方,每一方持有长度为K的基因序列集,其中甲方持有M条基因序列,乙方持有N条基因序列。其训练的目标,是生成一个基于甲乙双方基因序列对之间的距离矩阵,并根据该距离矩阵,计算出一颗结果NJ树,计算结果仅由甲方获得。可以考虑双方数据在输入前已对齐,也可以考虑双方数据输入前未对齐,需要通过隐私计算完成对齐。而隐私保护目标也分为两种,一种是不泄露参与方的基因序列集,但是可以输出距离矩阵,另一种是保护原序列和距离矩阵,在密文下建模计算。

图片

在比赛过程中,同时考虑了三种不同的技术路线,包括同态加密、安全多方计算、基于SGX的可信执行环境,要求在128bits的情况下完成安全性的计算。对于多方安全计算和同态加密技术,假设半诚实模型,对于可信硬件技术,假设恶意模型。对于模型性能的评判,以精确度为优先,再考虑不同模型训练的耗时。对准确度的衡量,采用RF-distance,即比较隐私计算下的模型性能和明文下的模型性能的差距。

图片

如图所示为不同的隐私计算技术在不同的数据假设下的性能表现。上表为数据量500base pairs 甲乙双方各有40个病毒序列,下表数据量为30kbase pairs甲乙双方各有100个病毒序列,并分别根据假设“序列是否对齐”、“保护原序列和是否保护相似矩阵”具体划分数据计算难度,颜色越深,难度越大。

根据30个参赛队伍提供的解决方案的性能分析,有以下结果:

(1)在数据小、低难度的情况下,多方安全计算效率比同态加密高约3600倍,两种方法计算均无误差。

(2)在数据大、低难度的情况下,同态加密已经无法支持计算,而安全多方计算仍然可以处理如此规模的数据。

(3)对于中等难度的问题,即在数据序列对齐的情况下同时保护原序列和相似矩阵,只有多方安全计算可以处理但是此时会引入计算误差。

(4)对于数据序列未对齐,且需要保护原序列和相似矩阵的最高难度的问题,可信硬件技术可以处理,并保证结果的精度。

图片

如图所示,为杭州锘崴科技有限公司对外提供的一个隐私计算解决方案。这是一个整体的隐私计算底层平台,可以在数据拥有方进行本地节点的部署,并在不需要交换原始数据的前提下,通过隐私计算形成多中心的联合分析。平台提供多种部署形式,例如一体机、软件包、虚拟化容器部署、云计算等多种形式。在底层,平台有不同的可以编排的的算子算法以及第三方SDK,可以允许用户去开发自己的隐私计算模块,满足数据需求方的相关需求,以及提供区块链的可监管可回溯审批流程。

图片

具体到产品方面,杭州锘崴科技有限公司提供安全联邦学习平台,通过此平台,数据提供方、数据使用方、数据监管方和平台运营方都可以通过可视化的界面完成相关的分析任务。同时,杭州锘崴科技有限公司也提供各种隐私计算一体机,包括联邦学习计算节点一体机、可信计算服务一体机、普通x86架构版本和国产化信创版本。此外,杭州锘崴科技有限公司也提供第三方API接口或SDK,可以被集成到现有的平台中。

图片

在应用服务方面,杭州锘崴科技有限公司的产品支持隐私查询、多中心医疗临床科研、疫情防控、新药研发、隐私求交、全基因组分析、影响分析等一系列医疗场景下的应用。

图片

杭州锘崴科技有限公司的产品优势在于:

(1)是多中心化的,不局限于两到三方的数据联合计算,可以支持几十家或者上百家数据源的联合分析。

(2)可以同时支持丰富的算法,除了支持常见的逻辑回归,XGBoost外,还提供了神经网络,各种统计分析,满足丰富的数据流通需求。

(3)整个平台是自主研发、自主可控的,同时支持多种国产信创设备。

(4)产品框架是开放的,与包括蚂蚁集团在内的多家机构也实现了互联互通。

(5)已经有很多标杆性落地客****户,并获得工信部、公安部等国家产品检测中心的认证。

04 应用案例

图片

接下来介绍王爽教授团队所做的隐私计算领域典型案例。

第一项是全国首套基于隐私计算的跨省多中心基因分析系统。 这个案例主要需求是在医院构建一个临床辅助诊断的模型,能够对病人进行早期的疾病筛查,从而能够在疾病早期就介入并提供更好的疾病的服务。构建这个精准的临床辅助诊断模型需要大量数据,单体医院的数据量是不够支撑模型构建,同时在多中心合作时,某一家医院担心存在数据隐私泄露的风险。所以通过隐私计算技术,将计算节点部署到各个医院的防火墙后面,就可以实现在病人数据不可见的前提下,完成联合的分析和计算。

这个项目由王爽团队联合华西医院、清华大学等合作研究,通过隐私计算获得的模型精度与明文下将数据汇总后的模型精度相当。此外由于能够通过隐私计算触达到更多的数据,使模型的效果进一步提高。这个项目获得了上海市科技进步一等奖。

图片

这个项目是基于隐私计算驱动的癌症多中心CDR大数据分享 。杭州锘崴科技有限公司与中华医学会消化外科合作,通过隐私计算赋能消化外科相关的癌症研究。这个数据网络目前已覆盖到国家24个省的60多家三甲医院。

图片

这个项目是全球首创隐私保护的跨国医疗大数据分析系统。 最近几年国家部委和其他国家相关部门都相继出台了数据跨境的草案和规范,因此数据跨境是非常敏感的问题。此时对于很多医疗机构,若需要与其他国家的医疗机构合作进行数据分析,可以使用隐私计算解决数据跨境的问题。在这个项目中,王爽教授团队与国际川崎病联盟合作,解决了川崎病多中心合作问题。川崎病是一种比较罕见的疾病,每家医院或者每个国家的病例数都是有限的,只有通过多中心合作才能在全球范围内实现大规模的数据共享,并支撑相关模型的研究。

图片

这个项目是全球首创的隐私保护跨国医疗大数据分析系统。 在这个项目中,为进行传染病的家庭因素分析,需要寻找父母没有患传染病、但是子女有患传染病的家庭,通过多中心合作,连接了美国、英国、新加坡等多个国家的医院,并在全球范围内找到了250个家庭。很显然,若只是单纯的一个国家的分析,是很难寻找到足够的样本量。在这个项目中,在不同国家的医院分别部署计算节点,并结合了Intel SGX可信执行环境和联邦学习技术。通过这个平台,可以在分钟级内完成跨国多中心的隐私保护计算。

图片

这个项目是全国首例儿童罕见病的基因查询网络 。在这个项目中,通过一体机的方式实现开箱即用,在不同的罕见病数据源部署数据查询节点,用户可以输入加密的基因信息。之后在加密状态下与全国范围内儿童罕见病的数据库进行匹配,查询与当前罕见病类似的病人案例,并提供临床辅助。

图片

如图所示的项目是对于新发和突发传染病智慧化多点触发预警及诊断系统。新发和突发传染病的数据源包括各地医院急救平台、社会药店敏感药物售卖信息、互联网平台、个人自主申报等,数据分布在各地且比较分散,只有通过隐私计算的方式,将计算节点分布在各个数据源,才能构建起一个比较有效的新发和突发传染病预警系统。通过系统,可以在第一时间发现潜在的传染病风险,并提供数据溯源等相关服务。

图片

杭州锘崴科技有限公司还提供基于隐私保护计算的云AI服务。目前深度学习等计算模式需要用到大量算力资源,可能会需要用到第三方云服务。传统模式下,客户将数据放在云平台上,可能会存在数据隐私泄露的风险。因此,杭州锘崴科技有限公司提供了基于隐私保护计算的云AI服务,以解决这个问题。在使用过程中,用户可以全程监控数据用途,云端所有数据都是在加密状态下进行存储,并且支持在云端进行多中心的联合分析。

分享嘉宾

图片


本文地址:https://www.6aiq.com/article/1663902904703
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出