图 | 洪亮(来源:洪亮)

上海交大年夜团队研发通用人工智能解决传统蛋白质工程难题_卵白质_模子 智能问答

他进一步阐明道,这意味着以前须要靠专家履历和大量实验试错的蛋白质工程,现在可以通过通用人工智能进行定向设计,从而数倍乃至数十倍地减少韶光和经济本钱。

此外,由于该模型具有通用性,对各领域都适用,决定了它将大大加速我国生物制造业、合成生物学、生物医药等领域的发展,帮助我国企业与国际头部公司进行良性互动与竞争。

干系论文以《蛋白质工程与轻量级图去噪神经网络》(Protein Engineering with Lightweight Graph Denoising Neural Networks)为题揭橥在 Journal of Chemical Information and Modeling 上[1]。

上海交通大学自然科学研究院助理研究员周冰心博士为第一作者,洪亮教授担当通讯作者。

图 | 干系论文(来源:Journal of Chemical Information and Modeling)

现如今,洪亮和团队开拓的蛋白质设计通用人工智能 AccelProtein™,通过 AI+ 打算的“干实验”与高效的“湿实验”协同闭环迭代,办理了传统蛋白质工程中研发韶光长、本钱高、上位组合差等核心问题,为体外检测、合成生物学等领域供应了数十款性能精良的蛋白质产品。

利用通用人工智能设计蛋白质,已成为蛋白质工程领域的大势所趋

众所周知,蛋白质是生命系统的根本,在细胞、组织和器官中扮演着重要角色。
除了它所拥有的生物学意义,蛋白质对付浩瀚行业运用来说也至关主要,具有广泛的市场代价。

例如,在生物医学领域,可以作为药物靶点和治疗剂;在化学工程领域,能充当各种反应的关键催化剂。

不过,自然界的蛋白质,常日须要经由工程改造,提高它的活性、热稳定性、对极度 PH 环境和恶劣溶剂的耐受性等多种指标之后,才能在各种工业运用中得到运用。

而利用传统蛋白质设计须要经历长达数年的实验研究,不仅耗时耗力、本钱较大,也愈发不能知足许多工业运用中主要蛋白质的改造哀求。

近年来,深度学习技能的发展,在一定程度上冲破了传统方法面临的瓶颈,利用 AI 来设计和改造蛋白质,逐渐成为该领域的大势所趋。

自主研发蛋白质设计通用人工智能,实现从序列到功能的精准蛋白预测

据先容,在 AI 蛋白质设计领域,洪亮已有多年研究履历。
他本科和硕士分别毕业于中国科学技能大学和喷鼻香港中文大学的物理系,博士期间在美国阿克伦大学高分子科学系从事蛋白质生物物理方面的机制研究。

在美国橡树岭国家实验室完成博士后研究后,他来到上海交通大学,通过将实验和打算生物学方法进行结合的办法,连续对蛋白质的性能进行研究。

“实在这些研究都属于‘后阐明’的范畴。
换言之便是,对蛋白质的一些物理机制进行阐明,比如它的运动形态和各种热力学参数如何影响其功能的发挥。
”洪亮阐明说。

2020 年,AlphaFold 的问世为洪亮开启 AI 蛋白质设计研究打造了一个契机。

“用户只需向 AlphaFold 输入蛋白质序列,就能得到准确的构造预测,这对付全体分子生物学领域来说非常震荡。

但 AlphaFold 只办理了从序列到构造的问题,没有办理构造到功能的问题,我们想做一套打通构造到功能的通用人工智能,彻底冲破传统蛋白质工程方法的禁锢。
”他说。

因此,他开始带领团队做 AI 蛋白质设计方面的研究,并在 2021 年开拓了一套基于预演习的蛋白质设计的通用人工智能 AccelProtein™ ——与 AlphaFold 预测构造不同,AccelProtein™ 首创性地实现了从序列直达功能的精准蛋白质设计。

详细来说,该课题组通过预演习方法,让 AccelProtein™ 学习自然界已知的所有蛋白质序列和构造特色,并探索与理解自然界中蛋白质序列与功能的映射规律,从而开拓出一套能够高效地设计出稳定性好、活性高、功能性强的 AI 蛋白质设计通用大模型。

那么,该模型如何实现精准的蛋白质设计?

据洪亮先容,自然界已知的具有完全氨基酸序列的蛋白质有几亿条,这些蛋白质的氨基酸序列以存在即合理的办法排列着。

在节制这些序列往后,该团队采取双重任务学习方法:一方面,帮助大模型在经由预演习学习往后,节制知足蛋白质序列排布的措辞规则,另一方面,通过所构建的亿量级蛋白质标签数据库,为蛋白质打上标签,进一步提升模型精度,从而供应精准、高效地蛋白质设计,大大降落试错本钱。

和同类通用人工智能模型比较,AccelProtein™ 紧张具备如下上风。

其一,架构上风。
采取几何深度学习方法对模型架构进行简化,能在担保模型精度的同时降落模型参数,便于进行大规模预演习和推理。

其二,策略上风。
利用小样本乃至零样本学习方法,提高大模型的工程泛化能力,帮助它在仅有少数湿实验数据的情形下实现蛋白质性能优化,极大地提高了蛋白质设计的效率——以往须要 2~5 年才能完成的项目,在 AccelProtein™ 的支持下只须要 2~6 个月即可完成。

其三,数据上风。
通过与海内多家科研院所和企业的互助,得到了丰富全面的高精度蛋白质序列数据,尤其是一些高热、低温或强酸强碱环境下的数据。

此外,该课题组还开拓了其他几种 AI 蛋白质通用大模型,并取得了可与 Google、Meta 等国际团队推出的同类成果相媲美的成绩。

根据美国哈佛大学医学院创立的蛋白质突变性子预测榜单 ProteinGym,洪亮团队提出的大模型夺得非检索方法排名第一的桂冠,并在总榜前十名的排名中霸占一半席位。

个中,预测真核蛋白的大模型排名第一,预测原核蛋白的大模型排名第二,预测人类蛋白的大模型排名第三[2]。

(来源:ProteinGym 榜单)

如上所说,在全体蛋白质设计过程中,通用人工智能可在不须要或仅有少数湿实验数据的条件下,完成对蛋白质改造的赋能。
这是否意味着,生物实验在个中已经没有发挥浸染的空间?

对此,洪亮持否定意见。

他认为,首先,AI 在优化特定蛋白时,还须要湿实验来辅导和调度方向。

其次,生物学家也能够通过湿实验提出更多范例的科学问题,便于大模型团队基于这些问题开拓定制化的大模型,从而实现批量的蛋白质设计。

创办 AI 蛋白质设计公司,已完成十余项蛋白质产品交付

正是基于在 AI 蛋白质设计领域取得的成果,洪亮于 2021 年创办了上海天鹜科技有限公司。

后者已经在不到三年韶光里,完成了十余款蛋白质设计项目的成果交付,并已得到数千万元 Pre-A 轮融资,投资机构包括耀途成本、金沙江成本等。

据理解,目前该公司的做事范围已拓展至创新药、体外诊断、合成生物学等多个行业领域。

当下及未来,该课题组也在考试测验拓展与更多科研院所和企业之间的互助,希望能在蛋白质工程这一赛道,打出全国最好、天下最优的标志。

在洪亮看来,虽然中国的生物制药行业目前已然具备强大的实力,但在环球全体产品链条中的利润比仍旧较低。

缘故原由在于,缺少良好的设计上游产品的能力,以至于在短韶光内无法实现“破局”。

“毕竟国际企业所拥有的设计能力,是在过去一百年来经由大量的科研探索和实验数据积累,以及数不清的人才积淀的根本上才产生的。

但如今有了蛋白质通用人工智能,我们就可以不走国际企业的这条发展道路,直策应用 AI 来实现‘换道超车’。
”洪亮表示。

可以想见,一旦这条横穿跑道的道路被走通,我国就能在合成生物学和生物医药领域,和国际企业展开一场全新的竞争。

参考资料:

1.Zhou, B., Zheng, L., Wu, B., Tan, Y., Lv, O., Yi, K., ... & Hong, L. (2023). Protein engineering with lightweight graph denoising neural networks.Journal of Chemical Information and Modeling.

2.https://proteingym.org/benchmarks

运营/排版:何晨龙