​编译 | 王晔

分享 | Nature:为高维度医学成像设计可临床转化的人工智能系统_数据_体系 绘影字幕

编辑 | 青暮

​本文来自于《 nature machine intelligence》。
作者Rohan Shad是Hiesinger实验室心胸外科系博士后研究员。
他和团队为心血管成像(超声心动图和心脏 MRI)构建新型打算机视觉系统,并且利用转录组学和蛋白质设计研究心脏病的潜在机制,为严重心力衰竭患者设计设备。

文中磋商了高维临床影像数据所面临的特有寻衅,并强调了开拓机器学习系统所涉及的一些技能和伦理方面的考虑,更好地表示了影像模式的高维性子。
此外,他们认为考试测验办理可阐明性、不愿定性和偏见的方法应被视为所有临床机器学习系统的核心组成部分。

原文链接:https://www.nature.com/articles/s42256-021-00399-8

2018年,美国国家卫生研究院确定将人工智能纳入医学成像未来发展的重点领域,并且为图像采集、算法、数据标准化和可转化的临床决策支持系统的研究制订了根本路线。

报告中提到,只管数据的可用性、对新型打算架构的需求和可阐明的人工智能算法等在过去几年已经取得了巨大的进展,但目前仍旧是一个关键性问题。

此外,在早期的开拓过程中,还必须考虑到数据共享的转化目标、为监管部门批准而进行的性能验证、可推广性以及减轻无意的偏见等问题。

1 主旨

算力的提高、深度学习架构和专家标记数据集的进步刺激了医学影像人工智能(AI)系统的发展。

然而,运用人工智能系统来帮忙完成临床任务是非常具有寻衅性的。
机器学习算法的目的是减少临床推断所需的韶光。
但在临床中进行运用,有可能无意中会耽误患者的治疗。
当离开可掌握的实验室环境时,人工智能系统的终端用户必须能够掌握输入质量,并且能够办理网络延迟等问题,设计出将这些系统整合到既定临床实践中的方法。

早期对可转换的临床机器学习的考试测验表明,设计的系统要在既定的临床事情流程中正常事情,就必须要在算法开拓之初就做出大量的整合努力。
由于在未来支配该系统时,迭代的机会非常有限。

随着开源机器学习软件库的日益增多和打算机性能的不断进步,研究职员越来越随意马虎开拓出繁芜的针对特定临床问题的人工智能系统。
除了检测疾病诊断的特色外,下一代人工智能系统必须考虑演习数据的系统偏见,更为直不雅观地提醒终端用户预测中固有的不愿定性,并许可用户能够探索和解释预测的机制。

该不雅观点以这些关键的优先领域为根本,以加速医学领域的根本人工智能研究。
我们概述了数据集的细微差别和高维医学成像机器学习的详细架构把稳事变,同时谈论了这些系统的可阐明性、不愿定性和偏差。
在此过程中,我们为有兴趣办理构建临床可翻译 AI 系统,所带来的一些问题和寻衅的研究职员供应了一个模板。

2 高维医学影像数据

我们估量,在可预见的未来,可用的高质量 "AI-ready "注释的医学数据集将仍旧不能知足需求。
回过分来分配临床事实标签须要临床专家投入大量的韶光,而且将多机构的数据汇总起来公开拓布也存在很大的障碍。
除了须要以在硬放射学真实标签上演习的模型为特色的“诊断人工智能”之外,还须要根据潜在的更繁芜的临床综合结果目标演习的 "疾病预测人工智能 "。
具有标准化的图像采集协议和临床基本事实裁决的前瞻性数据网络,是构建具有配对临床结果的大规模多中央成像数据集的必要步骤。

大规模的多中央成像数据集会产生许多隐私和任务问题,这些问题与文件中嵌入的潜在敏感数据有关。
医学数字成像和通信(DICOM)标准普遍被用来捕获、存储和供应医学图像的事情流程管理。
成像文件(以.dcm文件或嵌套文件夹构造的形式存储)包含像素数据和干系元数据。
浩瀚的开源和专有工具可以帮助对 DICOM 文件进行去识别化。
后端医院信息学框架,如Google Healthcare API,是一种打消可能包含敏感信息的元数据域的方法,也通过 "安全列表 "支持DICOM去标识化。

在面向用户方面,MIRC 临床试验处理器匿名器是一种盛行的替代方法,只管它须要利用某些遗留软件。
有据可查的Python软件包(如pydicom)也可用于在利用或转给互助机构之前处理DICOM文件。
然后可以提取成像数据并以各种机器可读格式存储。
这些数据集可以迅速变得弘大且笨拙,虽然数据存储格式的细节超出了本不雅观点的谈论范围,但医学成像 AI 的一个关键考虑成分是图像分辨率的保留。

自动去识别方法或脚本常常被提及的一个缺陷是受保护的康健信息有可能被 "刻录 "在影像文件中。
只管有DICOM标准,但制造商的不同,使得难以通过 MIRC 临床试验处理器等工具来天生大略的规则,以屏蔽可能位于受保护康健信息的区域。
我们建议利用一个大略的机器学习系统来屏蔽 "烧录 "的受保护康健信息。

以超声心动图为例,有一个预定义的扫描区域,在那里可以看到心脏。
其他潜在的选择是基于机器学习的光学字符识别工具,以识别和屏蔽有印刷文本的区域。
DICOM标签本身可用于提取扫描级信息和特定模式的标签。
例如,在超声心动图和心脏磁共振成像 (MRI) 的情形下,可以轻松地从 DICOM 元数据中提取主要的扫描级别信息,例如采集帧速率和日期或 MRI 序列 (T1/T2)。

图1:基于云的协作式注释事情流程。
基于云的工具可用于天生专家注释数据集,并通过安全连接与临床专家进行评估。
图为MD.ai的一个履行方案,个中临床专家进行各种 2D 检测以测评心脏功能。

对付涉及人工智能系统与临床年夜夫进行正面基准测试的研究事情,或在临床注释者的帮助下策划大型数据集,我们建议以DICOM格式存储扫描的副本。
这样就可以通过可扩展和易于利用的云端注释工具进行支配。
目前有几种办理方案用于分配扫描数据供临床专家评估。
哀求的范围可能从大略的扫描级标签到详细的特定领域的解剖学分割掩码。
在我们的机构,我们支配了MD.ai (New York, New York),这是一个基于云的注释系统,可原生处理存储在机构批准的云存储供应商(谷歌云存储或亚马逊 AWS)上的 DICOM 文件。
替代品供应类似的功能,如ePadLite(Stanford, California),它可以免费利用。

基于云的注释方法的另一个上风是,扫描可以保持原始的分辨率和质量,实时协作仿照 "基于团队 "的临床决策,注释和标签可以很随意马虎地导出用于下贱剖析。
最主要的是,个中许多工具都可以用任何网络浏览器远程访问,并且极易操作,极大地提高了用户体验并减轻了临床互助者的技能包袱。

末了,较新的机器学习演习范式,如联邦学习,可能有助于规避许多与数据共享干系的障碍。
Kaissis等人审查了联邦学习的原则、安全风险和履行寻衅。
这种方法的紧张特点是在每个机构都演习本地算法副本,唯一共享的信息是神经网络在演习过程中学习到的特色。
在预定的韶光间隔内,从每个机构的算法中学到的信息(演习的权重)被集中起来并重新分配,高效地从一个大型的多中央数据集中学习,而不须要传输或分享任何医学成像数据。
这有助于快速演习算法,从胸部打算机断层扫描中检测COVID-19的特色。

只管在医学成像领域已经有告终合学习的成功示范,但在将这些方法用于常规临床利用时,仍旧存在大量技能寻衅。
特殊是在高维成像机器学习系统的背景下,从多个参与中央传输和更新演习的权重而引入的网络延迟,成为演习更大神经网络的基本速率限定步骤。
研究职员还必须确保演习后的权重在参与机构之间的传输是安全和加密的,这进一步增加了网络延迟。
此外,在设计研究时,如果不能访问源数据,策划数据集的质量和同等性可能极具寻衅性。
许多观点上类似的联合学习框架仍旧假定对源数据有一定程度的访问。

3 打算架构

当代临床机器学习中利用的神经网络架构,紧张来自于那些针对大型照片或***识别任务28进行优化的架构。
纵然在细粒度分类的其他寻衅性任务中,这些架构也非常稳健,个中类具有奇妙的类内差异(狗的品种),而不是具有高类间差异的明显不同工具(飞机与狗)。
通过对大型数据集(例如ImageNet)进行充分的预演习,这些 "现成 "架构的性能优于为其量身定做的细粒度分类器。
个中许多架构可用于盛行的机器学习框架,如TensorFlow和Pytorch。
最主要的是,这些框架常日为各种不同的神经网络架构供应ImageNet预演习权重,使研究职员能够迅速将它们重新用于专门的医学成像任务。

不幸的是,绝大多数的临床成像办法都不是大略的静态 "图像"。
例如,超声心动图是一种心脏的二维(2D)超声影像。
这些 "*** "可以从多个不同的视角拍摄,从而可以对心脏进行更全面的评估。
CT和MRI扫描可以被认为是一堆二维图像,必须按图像顺序进行剖析,否则年夜夫有可能错过器官之间沿某一轴线的有代价的关系。

因此,这些 "成像 "模式更类似于***。
将其作为图像拆开剖析,可能会导致空间或韶光背景的丢失。
例如,将***每一帧作为独立的图像进行剖析处理,会导致每一帧***之间韶光信息的丢失。
在利用超声心动图、CT和MRI扫描的各种任务中,基于***的神经网络算法比其 2D 算法有相称大的改进,但集成多个不同的视图平面带来了额外的维度,很难将其纳入当前框架。

与广泛的基于图像的预演习网络库不同,对***算法的支持仍旧有限。
对支配新架构感兴趣的研究职员可能须要自己在大型公开的***数据集(如Kinetics和UCF101(中佛罗里达大学101--动作识别数据集))上实行预演习步骤。
此外,***网络的演习打算本钱可能要高几个数量级。
虽然利用大型自然景物数据集进行预演习是开拓临床成像机器学习系统的一个公认的策略,但不能担保性能的提升。
关于预演习的性能改进的报告很常见,特殊是在利用较小的数据集时,但随着演习数据集的增加,其上风会逐渐减少。

在2018年美国国家卫生研究院的路线图中,缺少特定于医学成像的架构被认为是一项关键寻衅。
我们进一步延伸,提出演习这些架构的方法,对这些系统将转化为现实方面发挥着重要浸染。
我们认为,下一代的高维医学成像AI 将须要对更丰富、更有背景意义的目标进行演习,而不是大略的分类标签。

如今,大多数医学成像 AI 系统专注于从正常背景下诊断少数疾病。
范例的方法是在演习这些算法时分配一个数字标签(疾病:1;正常:0)。
这与临床受训职员学习从成像扫描中诊断不同的疾病的办法有很大不同。
为了供应更多的 "医学知识",而不是大略地对自然图像或***进行预演习,Taleb等人提出了一系列利用大型无标签医学成像数据集的新型自我监督预演习技能,旨在帮忙开拓基于3D医学成像的人工智能系统。

神经网络首先通过实行一组 "代理任务 "来学习 "描述 "作为输入的成像扫描。
例如,通过让网络像拼图一样 "重新组合 "输入的扫描数据,它们可以被演习成 "理解 "在各种病理和生理状态下哪些解剖构造是相互同等的。
将成像扫描的数据与放射学报告配对是另一个有趣的策略,基于胸部X射线的人工智能系统取得了相称大的成功。

本着供应更细微的临床背景并将更多的 "知识 "嵌着迷经网络的精神,报告中的文本通过最前辈的自然措辞机器学习算法进行处理,随后演习视觉网络,以更好地理解让各种疾病 "不同"的缘故原由。
然而,最主要的是,他们表明利用这种方法可以将特定下贱分类任务的标记数据量减少多达两个数量级。
因此,未标记的成像研究,无论是单独的还是结合成对的文本报告,都可以作为有效预演习的根本。
随后,对较小的高质量根本实况数据样本进行微调,以完成特定的监督学习任务。

只管这些步骤有助于调度现有的神经网络架构,使实在用于医学成像,但为特界说务设计新的架构须要专业知识。
模型架构类似于大脑,而演习后的权重(演习中优化的数学函数)类似于思维。
进化搜索算法的进展利用机器学习方法来创造为特界说务定制的新架构,从而产生比人类构建的架构更高效和更高性能的架构。
这些都为成像模式特定架构的发展供应了一个独特的契机。

演习深度学习算法依赖图形处理单元(GPU)来实行大规模的并行矩阵乘法运算。
云打算 "随用随付 "的GPU资源和具有高内存容量的消费级GPU的可用性,都有助于降落对开拓医学成像机器学习系统感兴趣的研究职员的准入门槛。
只管有了这些进展,但在大型***数据集上演习繁芜的当代网络架构须要多个GPU连续运行数周。

临床研究小组该当把稳,虽然在相对便宜的打算机上演习单一模型可能是可行的,但要找到最佳性能的精确设置组合,险些总是须要利用专门的硬件和打算集群来在合理的韶光范围内返回结果。
强大的抽象层(例如,Pytorch Lightning)还许可研究小组建立内部标准,以模块化的形式构建其代码。
采取这样的模块化方法,神经网络架构和数据集可以很随意马虎地被更换,有助于快速将过去为临床成像模式设计的系统重新用于新的用例。
这种方法也有助于通过以新的办法集成子组件来扩展这些系统的功能。

4 韶光-事宜剖析和不愿定性量化

随着医疗人工智能系统从 "诊断 "转向更多的 "预后 "运用,韶光到事宜的预测(而不是大略的二进制预测)将在临床环境中创造更多的干系性。
韶光-事宜剖析的特点是能够预测作为韶光函数的事宜概率,而二分类器只能供应一个预定时间的预测。
与二元分类器不同的是,韶光-事宜剖析考虑到了数据的删减,以考虑到那些失落去随访或在不雅观察韶光范围内没有经历干系事宜的人。
生存剖析在临床研究中很常见,也是制订循证明践指南的核心。

用基于图像和***的机器学习来扩展传统的生存模型,可以对组织切片或医学成像扫描中的特色的预后代价供应强有力的洞察力。
例如,将Cox比例丢失函数的扩展整合到传统的神经网络架构中,使得仅从组织病理学切片中预测癌症结果成为可能。
我们不主见利用此类视觉网络来规定如何进行照顾护士,而是主见将其用作标记临床年夜夫遗漏晚期恶性肿瘤特色的病例的方法。

纳入韶光-事宜剖析在临床年夜将越来越主要,由于在疾病不稳定或早期阶段具有的可检测特色,在一定韶光后可能会迅速发展。

例如,可诊断为黄斑变性的视网膜特色每每须要数年韶光才能表现出来。
具有初期疾病特色的患者可能会被标记为“正常”,这让神经网络试图预测未来发生黄斑变性并发症的风险。
纳入生存和审查的观点可能有助于演习系统更好地将正凡人与那些轻度、中度和正在快速发展中的疾病个体分开。
同样,演习视觉网络进行韶光-事宜剖析可能会在用于肺癌筛查,有助于根据预期的侵略性扩散潜力进行风险分层。
这种转化事情的关键是要有强大的、经由充分验证的Cox回归的深度学习扩展。
在过去的几年里,已经描述了大量Cox模型的深度学习实现。
Kvamme等人提出了一系列的Cox模型的比例和非比例扩展,过去还描述了更多的生存方法的实现,如DeepSurv和DeepHit46(图2)。

图 2:量化机器学习输出中的不愿定性。

​正如 Sensoy 等人所描述的那样,纵然在禁绝确的情形下,利用标准方法演习的机器学习模型也可以非常自傲。
左图:当一个数字被旋转180°时,系统自傲地分配了一个从 "1 "到 "7 "的标签。
右图:然而,用考虑分类不愿定性的方法,系统会分配一个不愿定性分数,可以帮助提醒临床年夜夫潜在的缺点预测。

然而,从可操作的角度来看,韶光-事宜预测可能存在问题。
在肺癌筛查的假设示例中,胸部打算机断层扫描中的可疑结节可能会产生一个预测,即在有或没有适当的治疗干预的情形下的中位生存率。

​对临床年夜夫来说,理解机器学习系统对个体病人的预测的有多大的把握可能是很故意思的。
当对一项任务没有把握时,人类每每会谨慎行事。
机器学习系统也反响了这一点,个中输出是 0 到 1 范围内的“种别概率”或“精确的可能性”。
然而,目前文献中描述的大多数医学影像机器学习系统,当供应给模型的输入数据超出分布范围时,缺少说 "我不知道 "的隐含能力。
例如,纵然输入图像是猫的图像,演习用于从打算机断层扫描(例如)预测肺炎的分类器在设计上也被逼迫供应输出(肺炎或非肺炎)。

在他们关于深度学习中的不愿定性量化的论文中,Sensoy等人用一系列的丢失函数来办理这些问题,这些丢失函数分配了一个 "不愿定性分数",以此来避免缺点的、但有把握的预测。
在项目的转化阶段,当人工智能系统被支配在与人类用户一起事情的环境中时,不愿定性量化的好处就涌现了。
信心度量是AlphaFold2的一个关键成分,该蛋白质折叠机器学习系统在第14届蛋白质构造预测关键评估(CASP14)寻衅中取得了无与伦比的准确性,给DeepMind研究团队供应了一种方法来衡量他们该当对正在天生的预测给予多大的信赖。
许多不愿定性量化方法的实现都是在容许的情形下进行的,并且与常用的机器学习框架兼容。
纳入不愿定性量化可能有助于提高高风险的医学成像机器学习系统的可阐明性和可靠性,并减少自动化偏差的可能性。

5 可阐明性人工智能和侵害风险

除了量化某些机器学习系统的预测效果外,对付构建这些系统的工程师和利用它们的临床年夜夫来说,他们更感兴趣的是理解这些机器学习系统是如何得出结论的。
显著性图和类激活图实际上仍旧是阐明机器学习算法如何进行预测的标准。

Adebayo等人最近的研究表明,仅仅依赖显著性图的视觉外不雅观可能会产生误导,纵然乍一看它们与背景干系。
在一系列广泛的测试中,他们创造,许多盛行的天生事后显著性图的方法并没有从模型权重中得到真正的意义,而是与 "边缘检测器"(大略映射像素强度之间的尖锐过渡区域的算法)没有差异。
此外,纵然这些可视化方法见效,除了机器学习算法正在探求的 "位置 "之外,也险些无法破译。
在很多示例中,无论是精确还是缺点的显著性图看起来险些是一样的。
当 "患病 "状态和 "正常 "状态之间的差异须要关注图像或***的同一区域时,这些缺陷就更加明显了。

图3:事后模型阐明的误导性。

a, Adebayo等人用MNIST数据集的真实标签演习的模型(上)和随机噪声演习的模型(下)进行的实验。
当通过大多数可视化方法进行评估时,在随机噪声上演习的模型仍旧产生圆形形状。
b,超声心动图视图平面的检测:缺点的分类(左上)和精确的分类(右上)都产生类似的显著性图(下)。

临床年夜夫该当把稳,仅靠热图不敷以阐明 AI 系统的功能。
在考试测验用如上图所示的可视化方法来识别故障模式时,必须谨慎。
一个更风雅的方法可能涉及到连续遮挡测试,即在故意粉饰临床年夜夫用来进行诊断或预测的区域后,评估图像的性能。
这个想法非常直不雅观:在已知对诊断某种疾病很主要的区域被遮蔽的图像上运行算法,例如,在试图诊断心力衰竭时遮蔽左心室,该当可以看到性能的急剧低落。

这有助于确认人工智能系统正在关注干系领域。
特殊是在高维医学成像研究的背景下,激活图可能为***类成像研究的某些韶光阶段的相对主要性供应独特的见地。
例如,某些疾病可能在心脏紧缩时表现出病理特色,而对付其他疾病可能须要人们关注心脏放松时的情形。
常日这样的实验可能表明,机器学习系统从临床年夜夫传统上不会利用的图像区域中识别出潜在的信息特色。
除了网络关于这些机器学习系统如何产生其输出的信息外,严格的可视化实验可能供应一个独特的机会,可以从被评估的机器学习系统中学习生物学的见地。

另一方面,激活与临床上已知的主要区域的偏差可能预示着网络正在学习非特异性的特色,使它们不太可能很好地归纳到其他数据集。

机器学习系统学习的特色可能取决于架构的设计。
更主要的是,机器学习系统会根据供应给它的演习数据和目标来学习和延续系统性的不平等。
随着医疗保健人工智能系统不断向未来的疾病预测发展,必须更加谨慎地考虑到这些群体在得到医疗保健和结果方面的巨大差异。

在最近的评论中,Chen等人深入概述了从问题选择到支配后阶段的潜在偏差来源。
在这里,我们重点谈论机器学习系统开拓早期的潜在办理方案。
一些人主见用一些方法来阐明当代机器学习系统的其他 "黑箱 "预测,而其他人则主见一开始就限定利用更可阐明的模型。
除了在演习全体 AI 系统时结合构造化数据的输入之外,中间方法还涉及利用黑盒模型演习医学成像神经网络。

这可以通过建立 "领悟网络 "来实现,个中表格数据被合并到基于图像或***的神经网络中,或其他具有相同基本目标的更前辈的方法(天生组合数据的低维表示的自动编码器)。
纵然没有将人口统计学输入纳入高维视觉网络,研究小组通过比较不同性别、种族、地域和收入群体的表现来审核他们的模型也很主要。

机器学习系统可能会无意中学会进一步延续和歧视少数民族和有色人种,因此在模型开拓过程的早期理解这种偏见是至关主要的。
对机器学习系统的信赖对付更广泛的采取至关主要,正如探索特定的特色或变量如何以及为什么会导致预测一样,通过结合显著性图和估计特色主要性的模型无关的方法。

另一种方法是在演习逻辑中限定机器学习算法,确保发生优化步骤以掌握感兴趣的人口统计学变量。
这类似于多变量回归模型,个中感兴趣的风险成分的影响可以独立于基线人口统计学变量来研究。
从技能角度看,这将涉及到在演习循环中插入一个额外的惩罚性丢失,并牢记与稍低的模型性能的潜在权衡。
例如,Fairlearn 是用于评估传统机器学习模型公正性的盛行工具包,并且已经开拓了基于 Fairlearn 算法 (FairTorch) 的约束优化,这是在演习过程中整合偏差调度的有希望的探索性考试测验。
有许多开源工具包可以帮助研究职员确定不同变量和输入流(图像预测,以及诸如性别和种族等变量)的相对主要性。
这些技能可能许可开拓更公正的机器学习系统,乃至可以创造没有预见到的隐蔽偏见。

6 总结

只管打算架构和获取高质量数据是构建良好模型的关键,但为高维成像模式开拓可转换的机器学习系统方面还须要努力,以更好地代表数据的 "*** "性子。
此外还须要在模型开拓的早期阶段建立有助于办理偏见、不愿定性和可阐明性的功能。
对医学成像和人工智能的质疑是有益的,而且在大多数情形下具有一定道理。

我们希望,通过建立许可研究职员评估临床表现、医院事情流程中的整合、与临床年夜夫的互动以及社会人口侵害的下贱风险的功能,可以在改进人工智能的交付方面迈出故意义的步伐。
我们希望研究职员会创造这个不雅观点很有用,由于它概述了在临床支配方面等待他们的潜在寻衅,并且在办理个中一些问题时可以发挥辅导性意义。