AlphaFold的极限:高中生揭示人工智能在生物信息学寻衅中的缺陷_卵白质_突变
人工智能程序AlphaFold (AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?),通过预测蛋白质构造办理了却构生物信息学的核心问题。部分AlphaFold迷们声称“该程序已经节制了终极蛋白质物理学,其事情能力已超越了最初的设计”。事实真是如此吗?Skoltech Bio的研究团队让 AlphaFold 预测单个突变对蛋白质稳定性的影响,结果与实验结果相抵牾,这表明该人工智能并非构造生物信息学的万能良药。该研究揭橥在《PLOS One》杂志。
在Skoltech为高中生举办的生物信息学演习营上,人类和人工智能在科学领域中的较劲迎来了新篇章。早前AlphaFold办理了却构生物信息学50年来的核心问题而一度被认为是构造生物信息学的万能药,而该程序在办理这个领域研究职员面临的其他问题时表现欠佳。
该项目的海报来自于2021年由Skoltech在线上举办的分子与理论生物学学院中的“Playing With AlphaFold2”课程。图片来源:Dmitry Ivankov/Skoltech。
构造生物信息学是一门研究蛋白质、RNA、DNA及其与其他分子相互浸染构造的科学分支。其核心问题是预测蛋白质的构造。也便是说,给定组成蛋白质的任意氨基酸序列,如何可靠地皮算该蛋白质将在体内呈现什么样的三维构造,以及如何发挥功能。其研究结果为新药研发和具有新特性的蛋白质(例如在自然界中尚未创造的催化剂)的合成供应了根本。
这个里程碑式的造诣引发了人们的预测,即神经网络必须以某种办法将蛋白质的基本物理事理转变为内在的信息,并且能够实现超出其设计范围的任务。某些人,乃至在构造生物信息学界,估量该人工智能很快就会办理这一学科的剩余问题,并将其归入科学史。
“我们决定办理这个问题,并让AlphaFold处理构造生物信息学的另一个核心任务:预测单个突变对蛋白质稳定性的影响。对某个已知的蛋白质只引入一个突变,想知道所得到的突变体是更稳定还是更不稳定,及其程度如何。根据实验结果,AlphaFold明显无法实现此任务,其预测与已知的实验结果相抵牾。”该研究的紧张卖力人、Skoltech生物学助理教授Dmitry Ivankov评论道。
然而,在本次寻衅中,AlphaFold无法预测单个突变对蛋白稳定性的影响,这意味着人工智能程序并未节制蛋白质物理学的全部内容,不能成为构造生物信息学的万能药。高中生参与了该项目,他们参与了突变数据处理、编写处理预测结果的脚本、可视化AlphaFold指定的构造等任务。
伊万科夫强调AlphaFold的创建者实际上从未声称该人工智能适用于除了基于氨基酸序列预测蛋白质构造之外的其他任务。“但是一些机器学习爱好者很快预言了却构生物信息学的终点。因此,我们认为测试一下是个好主张,现在我们知道它不能预测单个突变对蛋白质稳定性的影响,”伊万科夫补充道。
在实际运用层面上,预测单个突变如何影响蛋白质稳定性有助于从浩瀚突变中筛选出可能有用的位点。例如,如果想制造一种蛋白质添加剂,使其能够在更高温度下分解油脂、淀粉、纤维或其他蛋白质,那么这非常有用。此外,已知有一些甜味蛋白有望代替糖,但条件是它们能够承受一杯咖啡或茶的高温。
在根本研究层面上,这项研究结果表明,当今的人工智能并非万能药,虽然它可能在办理一个问题方面非常成功,但其他问题仍旧存在,包括构造生物信息学面临的紧张寻衅。个中包括预测由蛋白质和小分子或DNA或RNA组成的复合物的构造,确定突变如何影响蛋白质与其他分子的键能(binding energy),设计具有授予所需特性的蛋白质,例如能够催化本来不可能的反应,作为一个眇小“分子工厂”的元素。
除了提醒人们纵然在AlphaFold之后,该领域的科学家仍有一两件事情要做,该研究报告的作者还磋商了AI程序成功的缘故原由是否来自其“学习过的物理学”,而不仅仅是内化了所有已知的蛋白质构造并奥妙地操纵它们。显然并非如此,如果熟习干系的物理学知识,该当会相对随意马虎地得到两个非常相似但不完备相同的构造在稳定性方面的差异,但这正好是AlphaFold没有完成的任务。
这与之条件出的两个关于对AI物理学“知识”保留见地的不雅观点不谋而合。首先,AlphaFold预测了一些侧基联络构,表明锌离子与它们结合。然而,程序的输入仅限于蛋白质的氨基酸序列,因此“看不见的锌”之以是存在,是由于AI是在类似的蛋白质构造与该离子结合的根本上进行演习的。没有锌,预测的侧基团的定位与物理规律相抵牾。其次,AlphaFold可以预测出一种伶仃的蛋白质构造,看起来像螺旋,确实准确无误,但条件是该构造与其余两条链相互交织。如果没有这两条链,预测结果便是不合理的。因此,程序不是依赖物理知识,而是大略地复制了从复合构造等分离出的一个形状。
蛋白质序列三维构造的预测,改变了却构生物学领域的现状。该里程碑乃至导致了蛋白质折叠问题已经“办理”的辞吐。然而,蛋白质折叠问题不仅仅是从序列进行构造预测。目前,尚不清楚AlphaFold引发的革命是否能够帮助办理与蛋白质折叠干系的其他问题。本文中,我们评估了AlphaFold预测单个突变对蛋白稳定性(ΔΔG)和功能影响的能力。为研究这个问题,我们从蛋白质中提取了AlphaFold预测中单个突变前后的pLDDT和指标,并将预测的变革与已知的实验ΔΔG值进行干系性剖析。
此外,我们利用大规模的GFP单个突变数据集将相同的AlphaFold pLDDT指标与单个突变对构造的影响以及实验测定的荧光强度进行了干系性剖析。我们创造AlphaFold输出指标与蛋白稳定性或荧光变革之间存在非常弱或没有干系性。我们的结果表明,AlphaFold可能不适宜立即运用于蛋白质折叠的其他问题或运用。
本文系作者个人观点,不代表本站立场,转载请注明出处!