量子位 | "大众号 QbitAI

上海AI Lab欧阳万里:科学家为Al4S供应好材料就看AI学者若何加工_人工智能_模子 绘影字幕

Nature今年的统计显示,有78%的科学家还没有将ChatGPT等AI工具纳入日常研究中来。

从某种意义上来说,Al for Science这一新的研究范式实在早就帮科学家们搭好了利用AI能力的桥梁。

就在MEET2024大会现场,上海人工智能实验室领军科学家欧阳万里教授也指出:

科学家们不雅观测到的实验数据,相称于已经为Al for Science供应了好的原材料,而怎么加工这些原材料,便是AI学者能够参与的地方。

为了完全表示欧阳万里对AI以及AI学者助力科学研究(即Al for Science)的思考,在不改变原意的根本上,量子位对他的演讲内容进行了编辑整理。
希望也能给你带来新的启示。

关于MEET 智能未来大会:MEET大会是由量子位主理的智能科技领域顶级商业峰会,致力于磋商前沿科技技能的落地与行业运用。
今年共有数十家主流媒体及直播平台宣布直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

演讲要点科学研究有四范式,现在来到了最新阶段:由人工智能驱动的数据密集型科学。
科学家们的上风和重点是高通量实验和打算,薄弱项是人工智能和机器学习,即是有了非常好的原材料但没有好的厨师。
Al for Science面临的寻衅和其他AI领域类似,都有小样本、少标注、数据形式多样等问题。
人工智能是Al for Science关键的一环,但真正三足鼎立的是理论、实验以及打算。

(以下为演讲全文)

Al for Science有好的原材料,就看AI学者如何加工

大家好,今天主要给大家分享上海人工智能实验室的一些科研探索。

我们紧张面向三大任务:

第一,前沿的根本理论;第二,根本系统;第三,关键的共性技能。

在这个实验室我紧张卖力AI for Science方向。

谈到AI for Science,我以前做的是打算机视觉,现在为什么又来从事这样一个新的方向呢?

这是由于,AI for Science在全体领域有很多运用以及很好的发展。

详细而言,我们的科学研究从最初的实验归纳到模型推演到打算机仿真,目前又来到了新的范式:

我们有了大量的数据积累,科研推理给我们的履历,以及打算机仿真给我们带来的利用打算机仿照天下的能力。

有了这样数据和理论,我们就可以利用人工智能对我们的数据进行剖析,从里面找到得当的规律,从而进一步反演我们的天下,让我们能够利用打算机对天下做更好的预测,而且能够打破一些原来利用已有物理或者人们的知识而达不到的边界。

在这里面,人工智能是最关键的一环。

它其余一个有效的地方在于,中国在自然科学方面比较以前有了很好的进展,但相对付国外的话,我们仍旧有很多地方须要改进。

而有了人工智能加持往后,我们希望跟中国科学家们一起互助,在自然科学研究方面实现弯道超车,在全体天下舞台上有更多的发展机会。

我们再回过分来看,来自于自然科学的学者们,他们有的上风是什么?

根本理论,自然科学家们在这方面有了非常深厚的积累,包括高通量实验以及打算履历的积累。

当一个科学家花了很多韶光积累履历、积累高通量实验,在人工智能方面花的韶光相对付本身做人工智能学者来说是少的,毕竟人的精力总是有限。

以是这方面,正是人工智能学者能够参与的地方。

总结来说,自然科学家们在这方面准备了好的实验数据、理论、和打算方法,相称于为AI for Science方向供应了好的原材料。

怎么对原材料进行加工,这成为了我们须要考虑的问题。

这好比我们做一道菜,有了好的原材料还要有好的厨师将原材料进行加工。

AI for Science领域希望AI学者加入进来和自然科学家一起互助,做出一道美味的佳肴。

在这方面不止我们实验室看到这样一个机会,海内很多高校以及企业也都看到了这个方向的主要性。

国外企业如大家知道的谷歌DeepMind,正在这方面发力;中国很多相应公司也开始往这方面进行相应的投入。

Al for Science面临的寻衅和其他AI领域类似

再回到开始那个话题:对付我个人而言,我是一个学者,为什么我要从事AI for Science?

紧张基于以下两个缘故原由。

第一,问题本身很主要,第二个,问题本身有趣。

关于问题主要性,在我个人看来,首先是它与其他AI领域具有类似的问题,比如小样本、少标注。
这在语音和视觉里面常常被提到的,到了自然科学里面,变得尤为严重。

举一个例子,大家都知道AI for Science有一个著名的事情是将蛋白质折叠进行预测,来自DeepMind。

很多学者说未来它能得到诺贝尔奖,它做的事情是什么:当我有了一维的序列,边可以此得到蛋白质在空间构造上的三维构造。

原来大家是怎么干的?须要用上千万的设备,大概花一年旁边韶光才能得到这样的构造。

当做好这件事情往后,很可能一个科学家就能揭橥一篇Nature或者Science的文章。

这证明这类研究不是普通人就能做的,它须要大量的投入以及真正的专家才行。

有了AI for Science能干什么呢?

利用人工智能模型,AI for Science的学者能将这件事情做得不错。

但是我们可以看到,要得到三维构造,可能须要一个学者投入一年韶光才能得到一个样本标注。

这样一来,我们得到样本数目的效率远比措辞模型、视觉模型的效率低很多,这一定让我们在很多类似的科学问题上面临少标注的问题。

样本量也会有少的问题,像我们仿照非常底层的分子动力学的时候,有时显微镜都得不到相应的样本,使得问题更加严重。

另一方面我们会面临数据表现形式多样性的问题。

自然科学从物理到生物到地球科学,有不同的表现形式,有非常底层的原子的表示、分子的表示,有基因蛋白等等的表示办法,如果来到地球科学又有大气的表示。

表达形式本身多样的形式下,怎么把数据处理好成为一个问题。

当然,AI for Science本身也有一些独特的寻衅,我须要跟科学家进行更多的互助,让他们帮我们建立更多的知识背景。

同时须要把稳,在这个领域,理论、实验以及打算三足鼎立,AI不完备最主要的,它是个中主要的能带来打破的一环。

我们跟科学家互助的时候须要尊重以及理解到他们在这方面已有的知识,从而在互助过程中建立互信,相互尊重做出更好的事情来。

两项Al for Science科研成果先容

下面将先容我们在实验室的事情。

RNA三维构造预测,显著提高样本利用率

在实验室,我们希望能够从微不雅观原子分子层次看到最宏不雅观的宇宙层次,我们这么做背后的缘故原由是我们看到了自然科学本身是有共性的。

有一门科学建立了它们之间的关系:粒子天体物理学。

它利用的是在微不雅观粒子中的理论来帮助研究非常宏不雅观的宇宙天体的问题。

既然在科学上本身有共性,我们以AI眼力看待从微不雅观到宏不雅观的自然科学的时候,实际上它们也有共性的问题。
比如我前面所提到的少样本少标注。

由于韶光关系我们不会先容所有的。
拿少标注问题来说,我举个中一个例子:在生命科学方面,我们希望利用各个不同组学信息让AI模型做各种各样的问题。

比如我们在RNA转录组方面的探索。
RNA是一个AUCG一维的序列,我们有了这样的序列往后,希望从这样的输入信息对RNA本身有什么样的功能和构造进行预测。

这样一个看起来能够利用深度学习做的事情,我们面临什么样的问题呢?

我们做的是构造预测这件事情,但构造样本的数目目前不敷六千,如果你能得到主要的RNA构造又是刚才说的故事,一年发一篇Nature文章。
这意味着只有顶尖学者才能得到个中的1—2个样本,非常少。

如果要处理好这个问题——RNA本身有很多序列,不知道功能的序列很多。
我们可以利用不知道的标签数据做无监督学习,把数据本身当成标注做个自监督的学习方法,就能够得到预演习的模型。

利用这个模型再去做下贱任务的时候,由于有了自监督方法,会让我们下贱任务做的更好。

实验创造,这个方法能在很多像构造功能这样的预测上达到很好的效果。

风乌气候大模型超越DeepMind

其余我们实验室的一个探索是地球科学方面,目前紧张关注的是气候。

这个问题中国早在秦汉期间就开始考试测验感知气候了,当时利用的设备叫做相风铜乌。
首先感知到气候才能预测到气候。

中国古代预测气候依赖什么?不雅观天象,钦天监便是干这件事情的,但在那个时候紧张依赖的是人的判断,而不是利用科学模型。

来到当代,开始有人提出来我们是不是可以利用物理模型做这件事呢?

早在100多年以前,来自于欧洲和美国的两位学者确实提了,经由一百年的探索往后大家创造,每经由十年的研究,能够将有效预报的能力提高一天。

这解释两件事情:

第一,利用物理方法去做气候预报是可行的。

第二,随着物理方法的改进以及打算量能力的增长,预报能力在逐年提高。

在国内外,研究机构和高校相应地开设了研究部门来做这方面的研究。

我们的实验室也是,基于多任务学习的印度洋偶极子预测,首次将印度洋核心景象指标的可用预报技巧提前至7个月。

其余一个事情便是风乌模型,它的名字来自于我们刚才说的相风铜乌。

该模型输入环球当前时候五个气候要素,温度、湿度、风速等,利用这些要向来预测下一个小时的温度、湿度等。
然后把它的结果和数据放到风乌里面再预测下一个时候,下下时候。

这是风乌的全体运行模式,跟目前利用物理方法做这个事情是同一个逻辑。

利用这个模式我们可以预测未来1天、2天、10天、14天的结果。

并且还可以利用历史上的数据,比如前年的数据去预测去年。
这个时候我们数据本身便是要预测的标注了,它的逻辑跟做疾病预测是类似的。

风乌模型的创新点包括基于多模态多任务的网络设计。

以往方法只因此为它们是跟图象里的RGB一样,直接把它们全部对接到一起,给到一个模型就行。
然而我们利用多模态方法做这件事情,效果很好。

另一方面,我们认为既然这是多模态问题,那就可以类似地来看输出,让它成为多任务的问题,利用多任务学习方法可以自动调节各个不同要素的主要性。

终极比拟DeepMind在Science上揭橥的GraphCast模型,我们的方法在80%指标上都得到了更好的性能。

此外,我们也是首次让有效预报天数超过10天的气候预报模型,利用我们的方法可以只用一张GPU一分钟天生未来14天环球所有的地区的高精度气候预报结果。

这是我们的方法在中国气候局实际操作预测的结果。

右上角是不同预报模型的结果,包括来自于欧洲、美国等等的,右下角结果是终极他们测定的真实结果。

可以看到,我们比较准确的预测到这个台风能走到雷州半岛,这个方法准确率最高。

另一方面,第三方机构对付前面一年和最近以来在中国登录的所有台风预测也做过统计,结果创造,我们方法相对已有的物理方法以及AI方法都是更好的。

总结而言,AI for Science是跟其他领域有着类似问题的领域,AI for Science在未来将会对付全体自然科学领域带来更深刻的影响。

在这方面我们希望能够与自然科学方面顶尖的学者进行互助,来做出来更多的打破事情,也欢迎大家联系我们进行互助,感激大家。

— 完 —

量子位 QbitAI · 号

关注我们,第一韶光获知前沿科技动态签约