4月24日,在2024中国石油石化企业信息技能互换大会暨油气家当数字化转型高峰论坛上,中国工程院院士、中国石油勘探开拓研究院教授刘合进行了主题为《油气行业AI大模型发展的展望》的演讲。

院士讲AI大年夜模型助推油气行业新质分娩力成长!_模子_油气 AI简讯

刘合院士表示,大模型必将推动油气行业新质生产力发展,海内油气行业大模型研发刚刚起步,展现出巨大运用潜力,但应切忌冒进,要从数据、算力、算法等方面做好基本功。

大模型的观点及发展现状

人工智能大模型目前没有一个准确的定义,国外常日叫根本模型(foundation model),海内常日叫大模型,常日是指用多模态数据(图像、文本、表格数据等)预演习、包含几十乃至上千亿参数量的深度学习模型。

大模型最初指的是大措辞模型(Large Language Model, LLM),后来发展了视觉大模型(Large Vision Model, LVM)、多模态大模型等。
2022年7月李飞飞等100余逻辑学者联名揭橥文章《On the Opportunities and Risks of Foundation Models》,正式提出根本模型(foundation model)的观点,2022年OpenAI推出历时八年研发而成的ChatGPT,将大模型推向新一轮热潮。

什么是大模型呢?

刘合院士认为可以从以下几个方面来剖断大模型:参数量、利用数据量、打算资源、泛化能力、适应性、灵巧性、性能指标等。

刘合院士用科普的措辞先容了几个大模型常用术语。
比如大措辞模型、视觉大模型、多模态大模型。
大措辞模型好比是盲人,只能剖析处理措辞;视觉大模型好比是聋哑人,只能剖析处理图像和***;多模态大模型好比是正凡人,可以处理措辞、图像、***、笔墨等多模态数据。
如果把演习大模型比喻为做麻辣喷鼻香锅的话,那么预演习相称于做麻辣喷鼻香锅的底料,微调相称于是自己买食材。

大模型比较于传统AI,表现出了泛化性(Generalization)、通用性(Generality)、呈现性(Emergency)三个特色。

泛化性是指模型在未见过的数据上的表现能力,大模型的泛化能力更强,能够适应和精确处理新的、不同的或未见过的情形。

通用性是指模型处理各种不同任务的能力,大模型具有高通用性,能够在广泛的任务类型上表现出良好的性能,不须要对每个新任务进行特殊定制或重新演习。

呈现性是指当模型达到一定的规模和繁芜度时,它能够展示出一些在小规模或较大略模型中未曾涌现的新能力或行为。

大模型在垂直领域的运用情形

总体来说,我国大模型家当跟国际比,还有一定差距。
以OpenAI的chatGPT为例,看一下国内外大模型的差距。
OpenAI只做大模型,而且是从八年前就只研发这一件事,此外还聘请了顶尖级的算法专家,也在数据、算力、算法等方面做了大量踏实的事情。
比拟来看,咱们海内的大模型企业大部分都还是根基尚浅。
以是我们要正视差距、理性认识不敷,大步追赶。
国家层面对大模型发展也给予了极大的关注和支持,通过政策倾斜和资金投入,大力发展大模型家当。

大模型在垂直领域的运用可以分为三个等级:通用根本模型、行业根本模型、场景模型。
通用大模型基本是由一些大型IT公司和有实力的创业公司来研发,比如国外的OpenAI、DeepMind、谷歌、苹果等,海内的阿里、百度、腾讯、百川智能等。
行业大模型是在通用大模型的根本上,加入行业数据和专家履历,研发的大型预演习模型。
场景模型是利用通用大模型或者行业大模型研发的办理详细业务场景的模型。

近一年来,大模型的垂直运用已经在法律、医疗、城市培植等多个行业迅速展开,并展现出巨大的潜力和代价。
油气行业人工智能大模型运用刚刚起步,可以分为大措辞模型、视觉大模型/多模态大模型两个方面的垂直运用。
跟通用行业一样,油气行业在大措辞模型方面运用最快,如23年SPE年会上的PetroQA等。
视觉大模型和多模态大模型刚刚开始探索,如DDE和之江实验室联合推出的GeoGPT。
GeoGPT是为理解决地学科研瓶颈的专有大模型;利用了丰富的地学专有语料。

大模型研发的关键要素

推动大模型发展的关键成分有三个:数据、算力、算法。

数据是大模型运用的基石!

算力是大模型运用的保障!

算法是大模型运用的工具!

大模型演习是一项非常繁芜的系统工程,演习量大、数据量大、韶光长。
大模型常日包含十亿至数百亿的参数,利用了海量数据,因此须要强大的算力和优化算法来演习,演习韶光也比较长,即大模型的演习本钱很高。

数据方面,通用根本模型很多是在开源数据集上演习的,利用的数据量大、泛化性强。
几个公开数据集也为通用根本模型的演习供应了根本。
油气行业的数据非常繁芜,且由于采集、存储模式等缘故原由,历史数据的数据质量问题较为严重。
数据质量是影响油气行业大模型运用的关键。

算力方面,演习大模型须要GPU算力,为什么不用CPU呢?由于大模型演习须要很多重复打算。
CPU,中心处理器,它善于的是少量繁芜逻辑和决策的任务;GPU,图形处理器,它善于的是重复、大量打算。
举一个例子,CPU是一个数学系毕业的高材生,能打算各种艰深繁芜的问题,GPU就像是搜集了一万个只会1+1=2的小学生,能以最快的速率处理海量大略重复的问题,这正是演习人工智能最须要的能力,通过对弘大数据的学习、剖析、推理,让机器像人类那样办理问题。

目前几个有名的通用模型都是用了很多算力才演习出来的,比如LLaMA 2,70B的模型用了1.6万块A100;GPT 3,175B的模型,用1000块A100演习22天。
但是,我国油气行业普遍不具备根本模型的演习能力,只能是微调。

算法方面,这一轮大模型的发展很大程度上是少数几个顶尖人才推动的算法上的打破。
但算法实质上还是一个工具,一是算法的性能高度依赖于数据的质量和数量;二是算法泛化能力有限;三是算法可能受到攻击。
油气行业在大模型算法方面普遍缺少自主可控,且油气行业大模型运用的定位该当是如何用大模型算法支撑油气主营业务,而不是跟互联网企业去卷大模型算法。

未来运用展望

ChatGPT推出往后,油气行业对大模型的兴趣越来越大。
但油气行业大模型运用面临很多问题和寻衅。

一是数据的问题。
油气行业比较于通用行业,存在采集本钱高、多解性、样本少、多模态等问题,如何以大模型运用为契机,推动数据管理这是首先要考虑的事情。

二是算力的问题,现在我们没有演习大模型所须要的算力,那怎么办呢?是投入大笔资金去买?还是租赁别人的算力?自己培植的话,怎么建、谁来建、怎么用?租赁的话怎么担保数据安全和隐私保护?

三是算法的问题。
OpenAI在超强算力、超大数据、高等人材的加持下,投入8年才研发ChatGPT,ChatGPT有时候还不足准确,还在不断迭代升级。
这是一个别系工程,目前油气行业要做好研发自己大模型能力的评估,强化顶层设计、量身定做、实事求是。

四是“百模大战”扑朔迷离,油气行业如何理性认识和运用大模型?海内大模型家当面临“百模大战”的局势,在一定程度上滋扰了油气行业大模型运用的计策决策,如何理性认识和运用大模型是我们该当深入思考的问题。

五是版权的问题。
现在总体来看,开源的模型性能比不上闭源的,同时,一部分开源模型不是真正意义上的开源,开源了也不即是可以商用,都有很多限定条件。
油气行业运用大模型要谨慎处理版权问题。

虽然面临很多问题和寻衅,但大模型必将推动油气行业新质生产力发展,油气行业大模型运用前景广阔。

一是场景模型和数据质量好的L2行业根本模型先行履行,办理油气业务需求。
大模型行业垂直运用时可以分成通用根本模型、行业根本模型、场景模型3个等级。
油气行业又细分成了L1、L2两个级别的行业根本模型。
油气行业大模型近期可行的是场景模型和部分数据质量好的L2行业根本模型,不要自己研发通用根本模型,L1级别的行业根本模型也建议慎重论证。
由于根本模型的演习代价太大,本钱太高。

二因此大模型运用为契机,加强数据全生命周期管理,提升数据管理能力。
行业运用的关键是数据,我们油气行业在大模型方面的核心竞争力是“行业数据”,要做好“演习样本库”的基本功。
以打造行业大模型为契机,提升数据质量,构建大模型运用所须要的“样本库”

三因此油气大模型为契机,推动领悟算力培植。
算力培植的办法,建议是租赁和自建相结合,统筹考虑通算、智算、超算举动步伐培植方案,突出打造以智算为重点的领悟算力举动步伐培植。

四是分布合理、有序履行油气行业大模型,切实办理油气业务痛点

要理性认识到:大模型不是万能的!
一个模型不能办理油气勘探开拓的所有事情,近期可行的场景是有海量高质量数据,建模不依赖其他无法输入模型的知识,如岩心剖析的行业根本模型。

五因此大模型运用为契机,加强“AI+能源”复合团队培植,推动大模型技能栈自主可控。
大模型自己干是搞不成的,要联合大的IT企业、高校,建立一个良好研发生态。

本文来自【铁人先锋】,仅代表作者不雅观点。
全国党媒信息公共平台供应信息发布传播做事。

ID:jrtt