一种能说蛋白质措辞的人工智能(AI)模型——迄今为止为生物学开拓的最大的人工智能模型之一——已被用于制造新的荧光分子。

前META科学家首次推出人工智能蛋白质设计模型_卵白质_模子 智能助手

本月,evoltionaryscale在纽约市宣告了事理验证演示,同时还得到了1.42亿美元的新资金,用于将其模型运用于药物开拓、可持续性和其他追求。
该公司由曾在科技巨子Meta事情的科学家创办,是一个日益拥挤的领域的最新进入者,该领域正在将措辞和图像演习的尖端机器学习模型运用于生物数据

该公司首席科学家亚历克斯•里夫斯(Alex Rives)曾参与Meta将人工智能运用于生物数据的事情,他表示:“我们希望开拓出能够让生物学可编程的工具。

进化规模公司的人工智能工具ESM3被称为蛋白质措辞模型。
它接管了超过27亿个蛋白质序列和构造以及这些蛋白质功能信息的演习。
该模型可用于根据用户供应的规格创建蛋白质,类似于ChatGPT等谈天机器人吐出的文本。

威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的打算生物学家安东尼·吉特(Anthony Gitter)表示:“这将成为生物学中每个人都关注的人工智能模型之一。

发光了

里夫斯和他的同事们曾在Meta研究ESM模型的早期迭代,但在去年Meta结束了在这一领域的事情后,他们开始了自己的研究。
他们之前利用ESM-2模型创建了一个免费的数据库,个中包含6亿个预测的蛋白质构造。
此后,其他团队利用ESM-1版本设计了具有更好的抗病原体活性的抗体,包括SARS-CoV-22,并重新设计了“抗crispr”蛋白质,以提高基因编辑工具的效率3。

今年,位于加州伯克利的另一家生物人工智能公司Profluent利用自己的蛋白质措辞模型创造了新的受crispr启示的基因编辑蛋白质,并免费供应了一种这样的分子。

为了展示其最新的模型,Rives的团队开始对另一种生物技能的主力进行彻底检讨:绿色荧光蛋白(GFP),它接管蓝光并发出绿光。
研究职员在20世纪60年代从生物发光水母Aequorea victoria等分离出绿色荧光蛋白。
后来的事情——随着这一创造,得到了诺贝尔奖——展示了绿色荧光蛋白是如何在显微镜下标记其他蛋白质的,阐明了其荧光的分子根本,并开拓出了这种蛋白质的合成版本,这种蛋白质发出的光更通亮,颜色也不同。

研究职员已经创造了其他类似形状的荧光蛋白,它们都共享一个被桶状支架包围的吸光和发光的“发色团”核心。
里夫斯的团队哀求ESM3创造出含有GFP发色团中创造的一组关键氨基酸的GFP样蛋白质的例子。

研究职员合成了88种最有出息的设计,并丈量了它们的荧光能力。
大多数都是无用的,但有一种设计,与已知的荧光蛋白不同,发出微弱的光——比自然形式的绿色荧光蛋白弱约50倍。
以这种分子的序列为出发点,研究职员哀求ESM3改进其事情。
当研究职员制作了大约100个终极设计时,有几个和天然的gfp一样通亮,但仍旧比实验室设计的变体暗淡得多。

个中一种最亮的esm3设计的蛋白质,被称为esmGFP,估量具有与天然荧光蛋白相似的构造。
然而,它的氨基酸序列差异很大,与演习数据集中最密切干系的荧光蛋白序列匹配不到60%。
在bioRxiv4做事器上发布的预印本中,里夫斯和他的同事们说,根据自然突变率,这种水平的序列差异相称于“超过5亿年的进化”。

但吉特担心,这种比较对描述尖端人工智能模型的产品没有帮助,而且可能具有误导性。
“当你想到人工智能和加速进化时,这听起来很恐怖,”他说。
“我以为过度宣扬模特的事情可能会侵害这个领域,对"大众来说可能是危险的。

里夫斯认为,ESM3通过各种序列的迭代产生新的蛋白质,类似于进化。
他补充说:“我们认为,大自然须要什么才能产生这样的东西,这是一个有趣的不雅观点。

风险阈值

根据2023年的一项总统行政命令,ESM-3是首批在培训期间利用足够打算能力的生物人工智能模型之一,哀求开拓职员关照美国政府并报告风险缓解方法。
进化规模公司表示,他们已经与美国科技政策办公室取得了联系。

超过这个阈值的ESM3版本——包含近1000亿个参数,或模型用来表示序列之间关系的变量——尚未公开。
对付较小的开源版本,某些序列,例如来自病毒和美国政府令人担忧的病原体和毒素清单的序列,被打消在培训之外。
科学家在任何地方都可以***并独立运行的ESM3-open也不能被提示天生这种蛋白质。

瑞士洛桑联邦理工学院(Swiss Federal Institute of Technology)的构造生物学家马丁·帕塞萨(Martin Pacesa)对开始与ESM3互助感到愉快。
他指出,这是第一个许可研究职员利用自然措辞描述其特性和功能来指定设计的生物模型之一,他渴望看到这个和其他特色在实验中是如何表现的。

Pacesa印象深刻的是,EvolutionaryScale发布了一个开源版本的ESM3,并清楚地描述了最大的版本是如何演习的。
但他说,最大的模型须要大量的打算资源才能独立开拓。
“没有一个学术实验室能够复制它。

里夫斯渴望将ESM-3运用到其他设计中。
Pacesa是利用一种不同的蛋白质措辞模型来制造新的CRISPR蛋白质的团队的一员,他说,看看ESM-3如何做到这一点将是很有趣的。
里夫斯设想在可持续性方面的运用——他们网站上的一个***展示了可食用塑料酶的设计——以及抗体和其他基于蛋白质的药物的开拓。
他说:“这确实是一个前沿模式。