机器之心编辑部

重磅!AI解决生物学50年大年夜寻衅破解蛋白质分子折叠问题_卵白质_这一 智能问答

生物学界最大的谜团之一,蛋白质折叠问题被 AI 破解了。

CASP14 组织者、年近七旬的 UC Davis 科学家 Andriy Kryshtafovych 在大会上感叹道,I wasn't sure that I would live long enough to see this(我活久见了)[1]。

11 月 30 日,一条重磅引发了科技界所有人的关注:谷歌旗下人工智能技能公司 DeepMind 提出的深度学习算法「Alphafold」破解了涌现五十年之久的蛋白质分子折叠问题。

最新一代算法 Alphafold 2,现在已经拥有了预测蛋白质 3D 折叠形状的能力,这一繁芜的过程对付人们理解生命形成的机制至关主要。

DeepMind 重大科研打破的一出即被《Nature》、《Science》等科学杂志争相宣布,新成果也急速得到了桑达尔 · 皮查伊、伊隆 · 马斯克等人的祝贺。

科学家们表示,Alphafold 的打破性研究成果将帮助科研职员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。

「这是该研究领域激动民气的一刻,」DeepMind 创始人、首席实行官德米斯 · 哈萨比斯说道。
「这些算法本日已经足够成熟强大,足以被运用于真正具有寻衅性的科学问题上了。

蛋白质对付生命至关主要,它们是由氨基酸链组成的大型繁芜分子,其浸染取决于自身独特的 3D 构造。
弄清蛋白质折叠成何种形状被称为「蛋白质折叠问题」。
在过去 50 年里,蛋白质折叠一贯是生物学领域的重大寻衅。

DeepMind 的 AlphaFold 让人类在这一问题上取得了主冲要破。
在今年的国际蛋白质构造预测竞赛 CASP 中,DeepMind 开拓的 AlphaFold 最新版本击败了其他选手,在准确性方面比肩人类实验结果,被认为是蛋白质折叠问题的办理方案。
这一打破证明了 AI 对付科学创造,尤其是根本科学研究的影响。

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 构造。
今年,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。

对付不熟习生物领域的人来说,CASP 的大名可能有些陌生——CASP 全称 The Critical Assessment of protein Structure Prediction,旨在对蛋白质构造预测进行评估,被誉为蛋白质构造预测的奥林匹克竞赛。
CASP 从 1994 年开始举办,每两年一届,目前正在进行的一届是 11 月 30 日开始的 CASP14。

而 DeepMind 这一打破有什么影响?

用哥伦比亚大学打算生物学家 Mohammed AlQuraishi 在 Nature 文章中的话来说,「可以说这将对蛋白质构造预测领域造成极大影响。
我疑惑许多人会离开该领域,由于核心问题已经办理。
这是一流的科学打破,是我生平中最主要的科学成果之一。

蛋白质折叠问题

蛋白质的形状与它的功能密切干系,而预测蛋白质构造对付理解其功能和事情事理至关主要。
很多困扰全人类的重大问题(如探求分解工业废物的酶)基本上都与蛋白质及其扮演的角色有关。

多年以来,蛋白质构造一贯是热门的研究话题,研究者利用核磁共振、X 射线、冷冻电镜等一系列实验技能来检测和确定蛋白质构造。
但这些方法每每依赖大量试错和昂贵的设备,每种构造的研究都要花数年韶光。

1972 年,美国科学家克 Christian Anfinsen 因「对核糖核酸酶的研究,特殊是对其氨基酸序列与生物活性构象之间联系的研究」得到诺贝尔化学奖。
在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列该当可以完备决定其构造。
这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列打算出其三维构造。

但这一思路的寻衅在于,在形成三维构造之前,蛋白质的理论折叠办法是一个天文数字。
1969 年,Cyrus Levinthal 指出,如果利用蛮力打算的办法来列举一种蛋白质可能存在的构象,要花费的韶光乃至比宇宙的年事还要长。
Levinthal 估计,一种蛋白质大约存在 10^300 种可能构象。
但在自然界中,蛋白质会自发折叠,有些只需几毫秒,这被称为 Levinthal 悖论。

蛋白质折叠问题解读视频请戳:

https://v.qq.com/x/page/q3208094b83.html

CASP 14 比赛最新结果:AlphaFold 中位 GDT 高达 92.4

CASP 竞赛由 John Moult 和 Krzysztof Fidelis 两位教授于 1994 年创立,每两年进行一次盲审,以促进蛋白质构造预测方面的新 SOTA 研究。

一贯以来,CASP 选择近期才经由实验确定的蛋白质构造,作为参赛团队测试其蛋白质构造预测方法的目标(有些构造纵然在评估时仍旧处于待确定状态)。
这些蛋白质构造不会事先公布,参赛者也必须对其构造进行盲测,末了将预测结果与实验数据进行比拟。
正是基于这种严苛的评估原则,CASP 一贯被称为预测技能评估方面的「黄金标准」。

CASP 衡量预测准确率的紧张指标是 GDT(Global Distance Test),范围从 0 到 100,可以理解为预测的氨基酸残基在精确位置阈值间隔内的百分比。
John Moult 教授表示,GDT 分数在 90 分旁边,即可视为对人类实验方法具备竞争力。

在刚刚公布的第 14 届 CASP 评估结果中,DeepMind 的最新 AlphaFold 系统在所有预测目标中的中位 GDT 达到 92.4,意味其均匀偏差大概为 1.6 埃(Angstrom),相称于一个原子的宽度(或 0.1 纳米)。
纵然在难度最高的自由建模种别中,AlphaFold 的中位 GDT 也达到了 87.0。

历届 CASP 竞赛自由建模种别中预测准确率中位数的提升情形,度量指标为 BEST-OF-5 GDT。

CASP 竞赛自由建模种别中的两个目标蛋白质示例。
AlphaFold 能够预测出高度准确的蛋白质构造。

这些令人振奋的结果开启了生物学家利用打算构造预测作为科研紧张工具的时期。
DeepMind 提出的方法对付某些主要的蛋白质种别尤其有用,例如膜蛋白(membrane protein)。
膜蛋白很难结晶,因此很难通过实验方法来确定其构造。

该打算事情代表了在蛋白质折叠这一具备 50 年历史的生物学问题上的惊人进展,比该领域人士成功预测蛋白质折叠构造早了几十年。
我们将很愉快,它能从多个方面对生物学研究带来根本性改变。
——Venki Ramakrishnan 教授(诺贝尔奖得主,英国皇家学会会长)

DeepMind 这样办理蛋白质折叠问题

2018 年,DeepMind 团队利用初始版 AlphaFold 参加 CASP13 比赛,取得了最高的准确率。
之后,DeepMind 将 CASP13 方法和干系代码一并揭橥在 Nature 上。
而现在,DeepMind 团队开拓出新的深度学习架构,并利用该架构参加 CASP14 比赛,达到了空前的准确率水平。
这些方法从生物学、物理学、机器学习,以及过去半个世纪浩瀚科学家在蛋白质折叠领域的事情中汲取灵感。

我们可以把蛋白质折叠看作一个「空间图」,节点表示残基(residue),边则将残基紧密连接起来。
这个空间图对付理解蛋白质内部的物理交互及其蜕变史至关主要。
对付在 CASP14 比赛中利用的最新版 AlphaFold,DeepMind 团队创建了一个基于把稳力的神经网络系统,并用端到真个办法进行演习,以理解图构造,同时基于其构建的隐式图实行推理。
该方法利用进化干系序列、多序列比对(MSA)和氨基酸残基对的表示来细化该图。

通过迭代这一过程,该系统能够较强地预测蛋白质的底层物理构造,并在几天内确定高度准确的构造。
此外,AlphaFold 还能利用内部置信度度量指标判断预测的每个蛋白质构造中哪一部分比较可靠。

DeepMind 团队在公开数据上演习这一系统,这些数据来自蛋白质构造数据库(PDB)和包含未知构造蛋白质序列的大型数据库,共包括约 170,000 个蛋白质构造。
该系统利用约 128 个 TPUv3 内核(相称于 100-200 个 GPU)运行数周,与现今机器学习领域涌现的大型 SOTA 模型比较,该系统所用算力相对较少。

此外,DeepMind 团队透露,他们准备在适当的时候将这一 AlphaFold 新系统干系论文提交至同行评审期刊。

AlphaFold 紧张神经网络模型架构概览。
该模型基于进化干系的蛋白质序列和氨基酸残基对运行,迭代地在二者的表示之间通报信息,从而天生蛋白质构造。

对现实天下的潜在影响

「让 AI 打破帮助人们进一步理解根本科学问题」,经由 4 年的研究攻关,现在 AlphaFold 正在逐步实现 DeepMind 初创时的愿景,在药物设计和环境可持续性等领域都产生了主要的影响。

马克斯 · 普朗克蜕变生物学研究所所长,CASP 评估员 Andrei Lupas 教授表示:「AlphaFold 的精确模型让我们办理了近十年来被困扰的蛋白质构造,重新启动关于旗子暗记如何跨细胞膜传输的研究。

DeepMind 表示愿与其他研究者互助,以进一步理解 AlphaFold 在未来几年的潜力。
除了浸染于经由同行评审的论文以外,DeepMind 还在探索如何以最佳的可扩展办法为系统供应更广泛的访问可能。

同时,DeepMind 的研究者还研究了蛋白质构造预测如何帮助人们理解一些分外的疾病。
例如,通过帮助识别存在故障的蛋白质,并推断其相互浸染的办法,来理解一些疾病的事理。
这些信息能够让药物开拓更加精确,从而补充现有的实验方法,并更快找到更有希望的治疗方法。

AlphaFold 是十分卓越的,它在预测构造蛋白质的速率和精度上有着惊人的表现。
这一飞跃证明了打算方法对付生物学中的转换研究,加速药物研发过程都具有广阔的前景。

同时许多证据也表明,蛋白质构造预测在未来的大盛行应对上是有用的。
今年早些时候,DeepMind 利用 AlphaFold 预测了包括 ORF3a 在内的几种未知新冠病毒蛋白质构造。
在 CASP14 中,AlphaFold 预测了另一种冠状病毒蛋白质 ORF8 的构造。
目前,实验职员已经证明了 ORF3a 和 ORF8 的构造。
只管具有寻衅性,并且干系序列很少,但与实验确定的构造比较,AlphaFold 在两种预测上都得到了较高的准确率。

除了加速对已知疾病的理解,AlphaFold 还具备很多令人愉快的技能潜力:探索数亿个目前还没有模型的数亿蛋白质,以及未知生物的广阔领域。
由于 DNA 指定了构成蛋白质构造的氨基酸序列,基因组学革命使大规模阅读自然界的蛋白质序列成为可能——在通用蛋白质数据库(UniProt)中有 1.8 亿个蛋白质序列。
比较之下,考虑到从序列到构造所需的实验事情,蛋白质数据库(PDB)中只有大约 170000 个蛋白质构造。
在未确定的蛋白质中可能有一些新的和未确定的功能——就像望远镜帮助人类更深入的不雅观察未知宇宙一样,像 AlphaFold 这样的技能可以帮助找到未确定的蛋白质构造。

首立异的可能

AlphaFold 是 DeepMind 迄今为止取得的最主要进展之一,但随着后续科学研究的开展,依然有很多问题尚待办理。
DeepMind 预测的构造并非全部都是完美的。
还有很多要学习的地方,包括多蛋白如何形成复合体,如何与 DNA、RNA 或者小分子交互,以及如何确定所有氨基酸侧链的精确位置。
此外,在与他方互助的过程中,还须要学习如何以最好的办法将这些科学创造运用在新药开拓以及环境管理办法等诸多方面。

对付所有致力于科学领域中计算和机器学习方法的人而言,像 AlphaFold 这样的系统彰显了 AI 作为根本探索赞助工具的惊人潜力。
正如 50 年前美国生归天学家 Anfinsen 提出的远超当时科研能力所及的寻衅一样,这个天下依然有诸多未知的方面。

DeepMind 取得的这一进展令人们更加坚信,AI 将成为人类扩展科学知识边界的最有用工具之一,同时也期待未来多年的艰巨事情能够带来更伟大的创造。

AlphaFold 科研打破干系视频请戳:

https://v.qq.com/x/page/d3208wl42dz.html

[1] https://zhuanlan.zhihu.com/p/315497173

原文链接:https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology