2021年6月10日,中华公民共和国第十三届全国公民代表大会常务委员会第二十九次会议正式通过并公布《数据安全法》,并将于2021年9月1日施行。
它将与已经颁布的《网络安全法》及正在审议中的《个人信息保护法》一起代表我国对数据隐私及安全的重视,共同构建起我国数字时期有关信息的法律体系。

英伟达、腾讯、商汤……借助隐私计算在医疗AI做了哪些探索?_数据_模子 云服务

在这种背景下,数据隐私和安全得到空前重视,且在未来将毫无疑问地趋于严格。
医疗AI模型开拓迭代必须的医疗数据获取变得愈发困难。
以联邦学习为代表的隐私打算为这一问题供应了全新的解题思路,并在最近两年得到了广泛关注。
两年过去了,以联邦学习为代表的隐私打算如今有什么进展呢?动脉网(微旗子暗记:Vcbeat)对此进行了梳理。

简要回顾一下联邦学习是什么?

大略来说,联邦学习是一种加密的分布式机器学习框架,目标是在担保数据隐私安全及合法合规的根本上对AI模型进行演习的手段。
这一技能最早由谷歌提出,并在Google I/O 2019大会上首次展示了实际落地的运用处景。

谷歌当时展示的G-Board输入法利用了这种新的模型演习办法,将全体模型学习过程分发到用户手机,在本地完身分派的模型演习任务,随后将演习完成的数据上传汇总帮助模型演习。
由于演习过程在本地完成,且上传数据只涉及模型演习所需的必要数据,从而防止了数据透露。

医疗AI模型的完善同样须要大量数据的演习。
放射科年夜夫常日须要事情15年韶光,均匀每年经手至少15000个病例才算小有所成。
这意味着人工智能须要对同等规模病例(22.5万)的学习才能达到放射科专家水平。
遗憾的是,目前最大的开放数据库仅有10万病例的规模,离知足人工智能演习的哀求尚有一定间隔。

事实上,各个医疗机构可能拥有包含数十万条记录和图像的档案,但由于隐私和法规的缘故原由,这些数据完备是彼此伶仃无法利用的。
无论是人工智能企业,或是正在利用人工智能的医疗机构都只能依赖手头仅有的数据来源。
高质量演习数据的严重匮乏,严重阻碍了医疗AI的更进一步。

此外,完备依赖开放数据库演习的模型,很有可能缺少真正的临床代价。
2021年,剑桥大学对公开拓布的有关医疗AI的2212篇论文进行筛选,从中选出62篇可以达到研究职员设定的较高的入选标准的论文。
然而,研究职员终极创造所有62篇实际上都没有潜在的临床运用代价。

数据集质量和规模严重不敷是导致这一问题的主要缘故原由;此外,仅仅采取来源于开放数据库的公共数据集也是缘故原由之一。
随着韶光的推移,公共数据集不断发展并领悟新的数据,很可能导致最初的结果无法复现。

剑桥大学的研究职员提出了三个不雅观点:第一,公共数据集可能导致严重的偏差风险,谨慎利用。
第二,为了使模型适用于不同的群体和独立的外部数据集,演习数据该当保持多样性和适当的规模。
第三,除了更高质量的数据集外,还须要可复现和外部验证的证明,这样才能增加模型被推进并整合到未来临床试验中的可能性。

然而,医疗数据包含了大量患者隐私。
医疗机构或者患者绝对不会由于模型演习乐意承担隐私透露的风险。
联邦学习则可以让多个机构利用自己的数据进行多次迭代演习模型,随后将演习完成的模型上传共享。
这个过程并不会涉及到敏感的临床数据或病人隐私,从而办理了大众的担忧。

假设三家医院决定联合起来建立一个中央深度神经网络用于帮助自动剖析脑肿瘤图像,并选择利用客户机-做事器的联邦学习。
在全体架构中,中央做事器将掩护全局深度神经网络。
每个参与的医院将得到一个这个神经网络模型的副本,以便利用自己的数据进行演习。

一旦在本地对模型进行了几次迭代演习,参与者就会将模型的更新版本发送回中央做事器。
这个过程只发送演习完成的模型及其参数,而不会像以往的办法发送病例数据。
同时,传输数据经由分外加密,具有很好的保护效果。

在收到各地上传的更新模型后,做事器将汇总各地上传的、更新后的局部模型,并对全局模型进行更新。
随后,做事器会与参与机构共享更新后的模型,以便它们能够连续进行本地演习。

不丢脸出,在全体过程中,共享模型打仗到的数据范围比任何单个组织内部拥有的数据范围都要大得多,演习也更为有效。
与此同时,由于只须要传输模型数据,其对网络传输带宽的哀求也降落了很多。

此外,全局模型的演习并不依赖于特定的数据。
因此,如果个中一家医院离开模型演习团队也不会停滞模型的演习。
同样,一家新医院可以随时选择加入该操持以加速模型演习。

联邦学习使几个组织能够在模型开拓上进行协作,但不须要彼此共享敏感的临床数据及病人隐私。
业界希望这种新的办法能够办理目前AI碰着的数据困境。
比较传统的模式,联邦学习还可以鼓励不同的机构互助创建一个可以使所有人受益的模型。

两年来,联邦学习在医疗上做了哪些探索?

自推出以来,业界就高度重视联邦学习,并发布了数个开源框架。
这些开源框架分别由谷歌(Tensorflow Federated)、OpenMined(Pysyft)、百度(PaddleFL)和微众银行(Fate)等牵头。
与此同时,英伟达Clara和微众银行也推出了联邦学习的商业化产品。
目前,联邦学习已经在各行各业着花结果,医疗运用也是个中之一。

>>>>医疗影像上的运用

2019年10月,英伟达(NVIDIA)将联邦学习技能引入了旗下专门针对医疗影像领域的Clara平台,并与英国伦敦国王学院互助发布了用于医学影像剖析且具有隐私保护能力的联邦学习系统。

通过支持联邦学习的Clara平台,研究职员可以极大地简化这一系统的支配难度,并能安全方便地对联邦学习中央做事器和协作客户端进行配置,供应启动联邦学习项目所需的统统,包括运用程序容器和初始AI模型。

参与这一项目的医院利用与医院影像设备协作的Clara AI赞助注释工具来标记自家患者的影像数据。
利用预先演习的模型和迁移学习技能,Clara能够帮助放射科年夜夫进行标记,将繁芜的3D研究韶光从几小时减少到几分钟。

各家医院将利用这些数据,在本地EGX做事器上演习模型。
本地演习结果通过安全链接共享回联邦学习中央做事器,并由中央做事器对全局模型进行更新。
随后,更新后的模型会与各医院做事器同步,以便各医院对新模型进行进一步演习。

环球领先的医疗康健机构——包括美国放射学院(简称ACR ,American College of Radiology)、麻省总医院(Massachusetts General Hospital)和加州大学洛杉矶分校医疗中央(UCLA Medical Center)——都在抢先采取该技能,致力于为自己的年夜夫、患者和医疗举动步伐开拓个性化的AI运用,他们的医疗数据、运用程序和设备都在增加,同时患者隐私必须得到保护。

ACR在其国家医疗成像平台AI-LAB中引入了NVIDIA Clara联邦学习,从而帮助ACR的38000名医疗成像会员安全地构建、共享、调度并验证AI模型。

2020年9月,由英伟达、ACR、巴西DASA(拉丁美洲最大的第三方医学实验室)、美国麻省总医院、妙佑医疗集团、斯坦福大学、麻省理工学院上线了互助项目,通过联邦学习在真实天下协作环境中演习医疗影像AI模型,用于乳腺BI-RADS分类赞助诊断。

放射科年夜夫在剖析乳房X光结果时,会一边考试测验探求肿瘤一边评估乳房组织密度。
所谓乳房组织密度是指女性乳房X光检讨中涌现的纤维和乳腺组织量度。
根据影像特色,被分为四大类型:脂肪类、散在纤维腺体类、不屈均致密类和极度致密类。

年夜夫进行乳房组织密度分类的缘故原由很大略——乳房密度高的女性患乳腺癌的风险要高4-5倍。
根据统计,这类人群在美国40-74岁女性中占大约一半。
因此,为年夜夫供应高质量的乳房密度分类赞助分类工具可以更好地评估患者的癌症风险。

只管所有参与项目机构共享的数据集(乳腺学系统、类分布和数据集大小)存在巨大差异,但AI模型演习依然得到成功,并展示了较好的效果。
比较而言,利用联邦学习演习的模型比只接管各机构本地数据培训的模型均匀性能好6.3%,模型的可概括性相对提高了 45.8%。

>>>>新冠肺炎患者氧气用量预测

联邦学习在新冠病毒肆虐环球之际也做出了自己的贡献——英伟达和美国同盟医疗体系(麻省总医院和布列根和妇女医院共建)的研究职员开拓了一个AI模型。
该模型可以通过胸部X光片、患者生命体征和化验结果,来预测急诊室内的新冠肺炎患者是否须要在初步检讨后的几小时或几天中吸氧,进而预测急救室须要的氧宇量,及判断患者是否须要转入ICU。

为了开拓一种可靠的AI模型,并将其推广到尽可能多的医院,英伟达和美国同盟医疗体系启动了名为EXAM(EMR CXR AI Model)的操持。
这项操持与来自环球的20家医院互助,是目前规模最大、最多样化的联邦学习操持之一。

这些医院分布在北美洲、南美洲、亚洲和欧洲,数据涵盖了不同人种患者的数据集。
每家医院都利用NVIDIA Clara来演习其本地模型并参与EXAM。
在全体过程中,各家机构无需将患者的胸部X光片和其他保密信息统一汇总,而是利用安全的内部做事器来存储其数据。

全局深度神经网络模型则托管在亚马逊AWS独立做事器上,每家参与互助的医院都可得到一份副本用于在自有数据集上进行演习。

基于模型对各种分布式数据进行演习,终极项目开拓完成AUC值为0.94(目标为1.0)的模型仅仅耗时两周,其预测住院病人所需氧宇量的能力非常出色。
由于吸氧对付新冠肺炎患者来说至关主要,这一技能平台已被集成至Clara NGC之中,将挽救不少生命。

>>>>可穿着医疗康健设备

在医疗康健领域有着重要用场的可穿着设备也在引入联邦学习。
可穿着设备可以准确记录用户的日常活动及体征信息,对付部分疾病的预防和早筛极有代价。
同时,可穿着设备在生理康健领域、用于患者或老人的跌倒检测以及健身磨炼监控上也有运用代价。
环球可穿着医疗康健设备在近年得到了打破,出货量屡创新高,积累了海量的数据。

传统的方法对付可穿着设备来说是个巨大的难点(图片来自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)

然而,如何运用这些数据有两大难点。
首先,这些数据各不相谋。
假设用户利用了两款来自不同品牌的可穿着设备,这些数据纵然上传至云端也是彼此隔离无法分享的。
更进一步来说,随着各国或地区加强数据安全立法,对数据存储的地理位置也提出哀求。
同一品牌设备商要想获取存储在世界各地的数据也非常困难。
这将导致演习模型所用的数据无论在质量还是数量上都很难达到标准。

其次,传统的模型演习方法是通用的,缺少个性化和针对性。
然而,不同的用户实在有着不同的体征特点,基于通用模型的可穿着设备并不能最好地匹配他们的需求。

2020年,中科院泛在打算系统研究中央、中国科学院大学、深圳鹏城实验室和微软亚洲研究院联合提出了FedHealth架构,也是首个针对可穿着医疗康健设备的联邦迁移学习框架。

联邦学习可以有效地将分散的可穿着设备数据予以利用(图片来自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)

通过联邦学习和同态加密,FedHealth得以在担保用户数据隐私和安全的条件下为演习强劲模型供应源源不断的数据。
在全局模型完成演习后,它又可以通过引入迁移学习来实现个性化需求。
此外,这一可以增量升级的框架还可以进一步扩展并支配到多种医疗康健运用上以进一步在真实天下中增强学习能力。

通过对30位实验参与者采集的总计10299组数据进行的实验,FedHealth对付可穿着设备行为识别的准确率有一定提升。
比较未采取联邦学习办法的深度学习,FedHealth演习模型的准确率提升了5.3%。

>>>>脑卒中预测

作为公认最早研究“联邦学习”的国际人工智能专家之一,微众银行首席人工智能官杨强教授推动了微众银行AI团队成为海内联邦学习技能的引领者,并将其运用于实际业务。
目前,微众银行已经在金融、医疗等行业领域落地运用联邦学习。

2018年12月,微众银行更是发起了关于《联邦学习架构和运用规范》的标准立项,并得到了IEEE标准委员会的立项批准。
来自国内外的多位有名学者和技能专家纷纭加入标准事情组,参与到联邦学习IEEE标准的培植中。

2019年,腾讯天衍实验室和微众银行在医疗大数据、医学影像赞助诊断等领域展开互助,并联合开拓了基于医疗联邦学习框架的“脑卒中发病风险预测模型”。
模型利用NLP技能对电子病历进行处理,通过剖析识别与脑卒中高度关联的症状来预测病人脑卒中发病风险。

我国中部某市五家医院(个中三家为该市头部三甲医院)参与了研究,并利用各自的电子病历数据对模型进行了演习。
结果显示,利用联邦学习演习的模型预测准确率高达80%。
同时,大型三甲医院数据资源可帮助医疗做事匮乏病例幼年型医院在模型预测指标上提升10-20%。

2020年8月,腾讯医疗康健与微众银行成立联合实验室,结合腾讯天衍实验室在医疗影像、医疗机器学习与自然措辞处理的技能积累,以及微众银行AI团队在联邦学习上的领先技能,联合实验室将进一步攻坚联邦学习在医疗领域的运用。

>>>>药物创造

基于AI在药物创造上的巨大潜力,联邦学习也已经在这一场景有所进展。
2020年12月,同济大学生物信息系与微众银行互助,通过联邦学习仿照多个制药机构之间的药物协同开拓,助力制药机构在保障自身药物数据隐私安全的条件下进行协同药物创造。

AI药物创造面临的最大痛点在于该领域繁芜的知识产权和干系的经济利益使得制药机构之间进行数据直接共享和互助险些不可能。
通过在药物小分子领域引入联邦学习进行药物协同开拓,可以在保护药物小分子构造隐私的条件条件下,得到与直接整合多机构小分子数据进行QSAR建模相同或者类似的模型预测效果。
这或许能够帮助实现互助“破冰”。

研究首次考试测验在药物小分子领域探索利用联邦学习范式进行药物协同开拓的可行性,结合微众银行的联邦学习开源平台FATE,开拓了基于联邦学习的协作药物创造平台FL-QSAR。

研究团队通过对付包含了15个药靶的QSAR 基准数据来构建深度学习模型,进行QSAR建模以及多制药机构环境下的协同药物开拓仿照。
研究结果显示了将联邦学习用于药物创造具有两方面的上风。

首先,多个制药机构通过FL-QSAR进行协同QSAR建模,效果显著优于单机构仅利用其私有数据本地QSAR建模。
其次,通过特定的模型优化,FL-QSAR可以在保护药物小分子构造隐私的条件条件下,得到与直接整合多机构小分子数据进行QSAR建模相同或者类似的模型预测效果。

这是一种有效的药物协同创造的办理方案,冲破了传统QSAR建模时不同制药机构之间的数据无法直接共享的壁垒,有助于在隐私保护的条件条件下进行协同药物创造,并得到了国家专项项目基金帮助。

隐私打算的未来——更优的联邦学习及去中央化的蜂群打算

只管问世韶光不长,但联邦学习架构本身也一贯在得到改进。
比如,2020年,商汤科技就携手美国罗格斯大学打算机系打算生物医学成像和建模研究中央,揭橥了一项新的研究成果——利用基于分布式天生对抗网络(GAN)的构造来实现联邦学习。

该研究通过将位于多个彼此分离机构的分布式异步鉴别器和一个中央天生器组成对抗网络,让中央天生器在不打仗原始隐私数据的情形下,也能进行合成演习,从而能够天生与各机构原始数据附近似的合成数据样本,供下贱任务利用。

在此根本上,这一方案还采取了2种丢失函数,使得中央天生用具备一定的终生学习能力,可以在动态变革(比如学习过程中有新的机构加入或某些原有机构退出的情形)的环境中持续演习模型。

经试验仿照,这套学习方法能够从不同的机构中渐进地学习到同类数据乃至不同类数据的近似分布,并在医学图像分割任务中,取得了空想效果。

与传统的联邦学习比较,商汤科技的方案可以有效减少中央与各机构之间的通信数据量,仅需传输合成图像数据和反馈偏差,而非全体模型的所有参数数据,而且各机构之间无需交流任何数据或参数,可显著降落医疗机构支配联邦学习的本钱,加快研究效率和AI模型的生产速率。

除了对联邦学习进行改进,业界也在开拓新的办理方案。
不久前的2021年5月,德国研究职员在Nature上发布了论文,提出了一种去中央化的机器学习方法Swarm Learning(蜂群学习),将边缘打算和基于区块链的对等网络结合,用于不同医疗机构之间医疗数据的整合。

联邦学习虽然办理了数据隐私,但是全局模型及参数调节仍旧由特定机构的中央做事器处理,一定造成了权力集中。
此外,这种星形构造容错性较低。
比较之下,蜂群学习不再须要中央做事器交流数据或全局建模,许可参数合并,从而实现所有成员权利平等,并通过去中央化很好地保护机器学习模型免受攻击。

在本地学习(a)中,数据和打算是分别在不同的机构且彼此隔离的情形下实现。
在中央学习(b)中,来自不同机构的数据和参数被集中到云上实现模型演习。
在联邦学习(c)中,数据和演习仍旧位于本地,但全局模型的参数设置和模型共享在中央实现。
在蜂群学习(d)中,数据和参数去中央化,且彼此互联,不须要中央。
(图片来自Nature:Swarm Learning for decentralized and confidential clinical machine learning)

这个蜂群学习的研究选择了却核病、新冠肺炎、白血病和肺部病变这四种异质性疾病来解释利用蜂群学习基于分布式数据开拓疾病分类系统的可行性。

研究考试测验了利用蜂群学习从外周血单核细胞数据中预测白血病,从血液转录组数据中识别结核病患者或肺部病变患者,以及识别和检测新冠肺炎患者。
演习所需的数据集包括来自127项临床研究中的16400多个血液转录组,以及95000多张胸部X光图像。
这些数据集的病例和对照分布并不屈均,存在大量偏差。

结果表明经由蜂群学习演习的分类模型性能优于基于本地数据演习的分类模型。
此外,蜂群学习还引入了区块链技能,结合了去中央化的硬件根本举动步伐,防止数据被修改;同时,成员自主权大幅提升,可以安全加入、动态选举领导者乃至合并模型参数。

总的来说,研究认为蜂群学习有可能比联邦学习更能改变当前的格局,去中央化的数据模型有可能成为处理、存储、管理和剖析任何种类的大型医疗数据集的首选。

写在末了

环球对数据隐私及安全的重视程度日益增加,在医疗领域更是如此。
联邦学习及蜂群学习所代表的隐私打算因其可担保数据隐私且具有更好的性能等特性,将在未来决定医疗AI是否能够进一步向前发展。
不少研究团队都在从事相应的探索,并将其运用到详细的医疗运用处景中。

只管如此,目前真正将联邦学习履行落地的详细医疗场景仍旧屈指可数。
这一前辈架构仍旧面临一些详细的问题,包括医疗机构数据质量普遍较差、模型演习缺少年夜夫参与使其难以说服年夜夫利用、缺少足够勉励方法吸引数据方参与、具有个性化的模型演习难度较大以及应对繁芜场景的模型精度不敷等。

好是,在标准培植上联邦学习已经取得了进展——2021年3月,IEEE正式完成了标准制订事情,形成了正式标准文件IEEE P3652.1。
与此同时,备受关注的《个人信息保护法》草案也在今年提请全国人大常委会二次审议,即将正式履行。
这就为之后各细分领域的进展供应了依据。
要不了多久,我们就将看到隐私打算在实际运用处景中大显技艺。

参考资料

MICCAI Workshop on Domain Adaptation and Representation Transfer & MICCAI Workshop on Distributed and Collaborative Learning:Federated Learning for Breast Density Classification: A Real-World Implementation

Medical Image Analysis, Volume 70, May 2021, 101992:Federated semi-supervised learning for COVID region segmentation in chest CT using multi-national data from China, Italy, Japan

IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare

Nature: Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans

arXiv.org:Privacy-Preserving Technology to Help Millions of People: Federated Prediction Model for Stroke Prevention

Nature:Swarm Learning for decentralized and confidential clinical machine learning

arXiv.org:Learn distributed GAN with Temporary Discriminators

Bioinformatics doi: 10.1093/bioinformatics/btaa1006:FL-QSAR: a federated learning based QSAR prototype for collaborative drug discovery

雷锋网:《联邦学习首个国际标准正式发布!

第一财经:《银行扎堆联邦学习,大规模落地还有多远?》