为理解决传统间歇性雄激素剥夺疗法(IADT)在前列腺癌治疗里的缺少个体化处理能力的局限性,喷鼻香港大学的张清鹏团队联合华中科技大学,美国Moffitt癌症中央以及普林斯顿的研究团队建立了一个基于数据驱动的强化学习方案。

港大年夜张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程_癌细胞_策略 AI简讯

首先,他们基于进化机制的异质性和药物对个体患者的药代动力学开拓了一个时变的稠浊效应GLV(tM-GLV)模型。
然后,他们提出了一种强化学习支持的个体化IADT框架,即(Individualized IADT),来学习个体患者的前列腺肿瘤动态并推导出最佳给药策略。
利用临床试验数据的仿真实验表明,在减少药物剂量的情形下显著延长了前列腺癌患者的病情进展韶光。
此外,的方法同样适用于其他癌症,由于它可以根据临床数据进行适应性调度。

综上所述,是一种可用于个性化治疗不同类型肿瘤的,有前景的个性化治疗工具。

1
正文

前列腺肿瘤是环球发病率第二高的癌症,治疗方法常日包括放射治疗和激素治疗。
激素疗法如ADT可以有效治疗晚期前列腺癌,但也会产生副浸染。
耐药性是治疗前列腺癌的难点,传统的给药政策可能会导致耐药细胞的迅速扩散。
因此,人们提出了间歇性雄激素剥夺疗法(IADT),并且在大量的临床试验中得到了验证。

传统的IADT存在两个设计上的问题,即勾引治疗和严格的治疗韶光表。
最近的研究表明,不进行勾引治疗,根据预先确定的PSA阈值来停滞和规复ADT给药的方法可能更成功。
然而,这样设计的IADT疗法还没有充分利用患者的个性特色和其他大量的临床信息,例如多组学数据。

因此,张清鹏团队提出了强化学习支持的个性化数学肿瘤学模型框架(),该框架从实际患者数据中学习患者的特异性的肿瘤进化动态,并提出了一种基于进化与竞争的最佳疗法,该方法将患者特异性、治疗特异性和肿瘤特异性整合到进化模型(tM-GLV)中,来仿照反应性肿瘤和耐药性肿瘤之间的竞争与共存机制。
并利用强化学习来进一步考虑患者异质性和肿瘤竞争进化机制,并为个体患者推导出最佳给药策略。

论文地址:https://academic.oup.com/bib/article/25/2/bbae071/7630480?login=false#deqn01

由于存在繁芜的相互浸染的成分,前列腺癌的进化动态无法全面地描述。
但是根据系统掌握论的方法,我们可以将癌生态系统构建成一个数学模型,捕捉癌水平的关键过程,包括有选择、竞争、突变、适应等。

研究团队建立了一个具有上述过程的时变稠浊效应广义洛特卡-伏特拉(tM-GLV)模型(1)。
肿瘤本身具有异质性,研究团队根据实验假设前列腺癌细胞在治疗前存在两种表型,即反应型(依赖激素)和抗药型(不依赖激素)细胞。
抗药型癌细胞最初是少数,但在雄激素抑制条件下,它们可以得到成长的上风。
同时,由于这两种表型对资源(氧气等)的需求很高,在肿瘤微环境中竞争激烈。
研究团队创新地将静态的关系矩阵动态化,用于捕捉在药物与竞争浸染下癌症的蜕变过程中的变异以及抗药性的不断积累。

通过上述模型要精确地预测抗药性的演化,并且延迟抗药性的积累延长病人的存活韶光仍旧是一项寻衅。
在这项事情中,研究职员采取了强化学习来学习给药的策略,智能体Agent作为一种掌握器来帮助掌握抗药性的进化与发展。

强化学习算法可以分为基于值和基于策略的算法。
研究职员测试了几种当代强化学习算法,包括DDPG、TRPO、PPO和SAC。
然而,每种算法都有其上风和局限性。

DDPG 是一种确定性off-policy算法,只能运用于连续状态和连续行动空间。
TRPO 是一种on-policy的强化学习算法,它利用 KL 散度来掌握从旧策略到新策略的更新,但是它的二阶优化使得微调超参很困难。
SAC和PPO都是易于实现且十分灵巧的算法,适用于离散或连续的行动状态空间,研究职员通过实验创造PPO在学习效率以及收敛性较SAC更优。

强化学习是一个连续的过程,Agent智能体在离散的韶光步长内与环境相互浸染,在每一步,智能体吸收环境的状态并根据策略选择一个行动,环境更新状态至和与行动干系的褒奖做出回应。
每次循环后,智能体都会更新策略π和代价函数个中π将S状态映射到行动空间A中,即

在状态-行动空间难以穷举的 RL 问题中,为每一种可能的状态存储一个单独的值函数是不现实的。
有人提出了基于策略的策略梯度算法作为替代方案,即估计策略梯度并利用随机梯度上升算法来提升策略, 其紧张特点在于直接对策略进行建模并优化。
PPO在梯度策略的根本上优化了梯度的估计算法,使得策略的每次更新都必须掌握在给定的一个最大偏差范围内,而又不必打算新旧策略之间的KL散度,降落的算法的繁芜度。
PPO 的梯度估算算法平衡了强化学习中explore和exploit之间的权衡,防止新策略偏离旧策略太远,从而实现稳定有效的学习。

确认了强化学习算法后,须要构建强化学习环境,研究职员基于tM-GLV模型构建了PCaC环境,包含肿瘤的连续状态空间,药物掌握动作,以及即时反馈(褒奖函数)。
因此,我们必须定义状态、行动空间和褒奖函数,这是强化学习的三个关键要素。

研究职员提出的tM-GLV模型中(1)中包含了前列腺癌细胞的两种表型和生物标志物指标(血清 PSA 水平)。
因此,在每个韶光步长 t 时,对细胞数量水平和 PSA 水平进行不雅观测,作为当前状态 。
的其他特色组合可为模型演习供应更多信息,准确地说,瞬时成长/衰减率可以作为 状态函数的补充,反响了当前的药物浸染效果以及竞争的压力,并且可以直接从当前状态中得到。
因此,PCaC 环境的状态由给出。

此外,动作空间由两种药物的剂量构成,该事情利用的是离散动作空间,但他们提出该方法可以很随意马虎地扩展到连续动作空间,即连续的给药剂量及连续的给药韶光。

末了,褒奖函数涉及药物疗效和竞争强度,并加入了对给药剂量的惩罚。
个中,须要把稳的问题是剂量不敷可能导致一种次优策略,即Agent会让反应型癌细胞群体不受掌握地增殖,一方面抑制了抗药性癌细胞的增殖,但是导致癌症转移和疾病进展。
为理解决这个问题,研究职员为褒奖函数分配了肿瘤无进展的韶光褒奖,并利用了转移概率模型来仿照癌细胞的转移作为停滞标准,以避免反应型癌细胞群体的无限扩展。

2
实验结果

上图结果显示,由强化学习推导出的能显著推迟耐药患者的进展韶光(TTP)。
图(2)左侧显示了的给药策略和治疗结果,右侧显示了对应患者的相应标准IADT的用药策略以及TTP,个中灰色柱子表示停药韶光,赤色柱子表示用药韶光。
个中我们创造,与标准IADT存不才列差异。

首先,与标准的 IADT 比较,每个治疗周期的均匀韶光缩短了:1.3个月而不是13。
4个月;停药:3.5个月而不是16.5个月。

如上图(b)所示,在这种通过强化学习得到的自适应给药策略下,反应型癌细胞群在耐药性发生前在一个相对较高的水平上振荡。
有反应的癌细胞的竞争上风也呈现出这种振荡模式,表明所提出的 I2ADT 可以通过给有反应的癌细胞施加竞争压力来抑制有抵抗力的癌细胞。

如图(c)所示,在中,通过缩短治疗期,避免了在IADT中常日不雅观察到的双相模式。
在传统IADT治疗下不雅观察到的双相模式表明,在开启治疗一段韶光后,连续6-8个月用药治疗的效果会低落。

其次,通过强化学习学到的是动态的,是根据每位患者的需求量身定制的。
在治疗的初始阶段,与IADT和传统的持续ADT比较,为反应型癌细胞供应了比耐药癌细胞更大的竞争上风。
随着治疗的进展和瘤内竞争的持续,反应型癌细胞的竞争上风在 IADT 和 ADT 中都逐渐低落到零。
然而,在中,显著的竞争上风仍旧存在,这使得反应型的细胞能够与耐药癌细胞竞争,终极延长了耐药患者的生存韶光。

为了比较与IADT或ADT的疗效,我们利用了下列指标:进展韶光(TTP)和无进展生存期(PFS)以及用药总剂量。
TTP 的定义是单个患者的仿照达到仿照结束(EOS)的韶光。
FPS 是指从开始治疗到疾病进展(EOS)发生的韶光。
当耐药癌细胞占其容量的 80% 或仿照达到最大步数(120月)时,就达到了 EOS。

仿真结果表明,通过在早期阶段保持较高的竞争上风,与标准IADT或ADT比较,显著延长了TTP和PFS率(P值=0.0019)。
这些结果表明,自适应给药可以作为一种有效的策略来延缓耐药性的发生并改进患者的预后。

考虑到激素治疗期不可避免的不良反应,只要病情得到掌握,最好还是减少剂量的利用。
表(1)中我们比较了CPA、LEU各周期均匀剂量的低落比率以及与标准IADT的总体治疗韶光占比。

结果表明,治疗中CPA和LEU的用量均明显减少,治疗期的比例也有所降落,表明I2ADT可降落前列腺癌患者治疗不良反应的发生风险,提高患者的生活质量。

3
结语与展望

AI使得大数据的探索和利用成为可能,同时结合传统的生物物理数学模型使得模型具有更强的阐明性。
特殊是在癌症治疗领域,海量的数据等待着我们的挖掘与利用。

在这项事情中,张清鹏团队提出了一种针对前列腺癌的治疗剂量策略,称为。
这种策略利用强化学习的方法,通过利用反应型细胞的竞争上风优来化对耐药细胞的抑制。
这一框架具有广泛的适应性,可以用于优化其他癌症类型的治疗。
然而,针对不同癌症类型须要进行数学模型的调度和强化学习构造的调度,并且须要供应各种临床数据来支持这种个体化治疗方案的优化。

他们指出,人工智能模型在当前前列腺癌的间歇性疗法运用中表现出了强大的性能,但由于所利用的演习数据的分外性,其通用性可能受到限定,并且尚未在不同的临床环境中进行过测试。

他们也承认在数据方面存在限定,由于临床试验数据紧张集中在给药和PSA这一单一的生物标志物上,忽略了其二心理、遗传和生活办法成分。
因此,未来须要办理这些局限性,网络更多的信息,并验证模型在不同肿瘤环境中的有效性和安全性。

此外,研究职员还提到他们的模型综合了两种药物的浸染,但对付这两种药物在疾病通路相互浸染方面的奇妙差异仍需进一步研究。

同时,为了提高模型的有效性,须要获取更详细的患者特异性临床和病理数据,包括有关药物联合浸染的信息。
文章还提到了将这些深度学习模型集成到临床事情流程中的寻衅,并强调度决这些寻衅的主要性。

此外,文章还指出了该研究的一些局限性,包括缺少综合生物标志物面板的数据和治疗后患者血清睾酮规复的考虑。

虽然目前的事情存在局限性和寻衅,但展望未来,我们相信数据科学家、药理学家和肿瘤学家的互助可以进一步优化和其他适应性治疗策略。
这种跨学科的努力对付充分发挥个性化医学的潜力以提高癌症治疗效果至关主要。

聚焦AI前沿研究,关注AI工程落地。
\公众 data-from=\"大众2\"大众 data-origin_num=\"大众2274\"大众 data-isban=\"大众0\"大众 data-biz_account_status=\"大众0\"大众 data-index=\公众0\"大众 data-weuitheme=\公众light\公众 data-is_biz_ban=\公众0\"大众>