7月2日,微众银行“大模型时期AI前沿与金融运用”主题活动在北京举办。

微众银行人工智能首席科学家范力欣:基于内容严谨的数据库查询和校验可戒备大年夜模型“幻觉”_模子_数据 智能问答

会上,微众银行人工智能首席科学家范力欣表示,模型越大,能力越强,随之而来的问题是高本钱,只管现在“百模大战”,用户本钱可能越来越低,但利用和演习大型模型的本钱实际上并没有降落,这为大模型运用落地带来寻衅。

会后,《逐日经济新闻》(以下简称“NBD”)就如何戒备和纠正大模型“幻觉”、银行业大模型落地面临的寻衅、数据要素与大模型之间的关系等问题专访了范力欣。

图片来源:每经 张宏 摄

基于内容严谨的数据库查询和校验可戒备大模型“幻觉”

NBD:在金融机构中,数据精准度至关主要,因此有人认为天生式AI不适宜运用在金融机构的核心部门。
针对天生式AI可能涌现的“幻觉”问题,你认为可以如何进行戒备和纠正?

范力欣:在技能层面,可以基于内容严谨的数据库查询和校验。
目前,这一过程已经在实际运用中得到履行。

首先,在天生内容之前,(天生式人工智能)须要先查询信息。
当查询来源为网络时,信息的可靠性参差不齐,查询结果的准确性并非总是能够得到担保。
但在(金融机构的)实际运用中,所依赖的是内容严谨的数据库,这构成了第一层保障。

其次,天生的内容须要再次与数据库进行校验,以确保天生的内容与数据库之间不存在抵牾。
这是技能层面上的第二层校验。

在流程层面上,我们的系统并不直接面向实时天生业务。
以客服为例,客服背后有一个弘大的数据库支撑。
以往碰着的问题是,数据库中一个问题对应一个答案。
随之而来的难点是如何将同一问题千变万化的问法与数据库中的答案对应。
现在,(有了天生式人工智能)可以扩展问题的表述范围,使其能够覆盖用户未来可能的表述,从而达到答案与问题的“多对一”匹配。
由于数据库是离线的,并且可以人工审核,从运用层面避免了“模型幻觉”问题。

NBD:刚刚你提到的数据库是银行内部的私域数据库吗?

范力欣:是的。
实际上,包含两个数据库:第一个是事实材料库,也称为背景库,它用于查询和联合校验。
第二个数据库是面向做事端客服的问答库。
这个问答库原来是一问一答的模式,现在已经发展为多问一答的模式。

NBD:校验的过程由模型完成,还是由人工完成?模型在校验过程中会不会涌现“幻觉”?

范力欣:大模型校验。
但终极会由人工审核,就像一支人机稠浊的足球队,大模型是前锋,攻城拔寨,人工审核是后卫守门员,担保不失落一球。

投入产出比为大模型运用落地带来寻衅

NBD:人工智能的发展对金融机构职员专业占比有没有影响?

范力欣:微众银行拥有超过50%的科技职员。
在这些科技职员中,涵盖了我们常日所说的ABCD各个方面,即人工智能(AI)、区块链(Blockchain)、云打算(Cloud)以及大数据(Big Data)。
目前,这些技能领域已经基本领悟。

NBD:大模型落地目前还面临哪些寻衅?

范力欣:虽然大模型在技能上有广阔的想象空间,但我们必须考虑投入产出比。
小型模型可能能力不敷,而大模型可能具有质的飞跃,但随之而来的问题是本钱也可能有质的飞跃。
银行是高度数字化和信息化的,理论上完备可以利用该技能。
然而,银行必须打算投入产出,许多小企业也同样关注这一比率。
任何企业首先考虑的是生存问题,而本钱掌握是紧张的考虑成分。

目前,大模型带来的眇小收益可能已经被其额外的本钱所抵消。
因此,现阶段我们只能筛选那些产出大于投入的业务。
对付其他业务,我们可能会进行大略的考试测验或评估,以确定是否可行。
昔时夜模型到达另一个阶段,能力更强、本钱更低的时候,将有更多可能的业务亟待拓展。

NBD:目前哪些运用在投入产出比上有上风?

范力欣:目前在投入产出比上具有上风的运用紧张包括天生视频、天生图像以及营销领域。
除此之外,还有对客户进行评估和判断的干系运用。
这些都是可以进一步开拓的领域,但有时候不一定要利用大模型。

NBD:你提到联邦大模型,借助联邦大模型彷佛可以达到数据可用不可见。
数据要素市场培植有没有可能与人工智能相领悟形成1+1>2的效果?

范力欣:我们的理解是,关键不在于数据要素,而在于模型要素。
为什么这么说呢?数据本身犹如原油,可以提炼为柴油、汽油等多种形态,只有当数据被纳入一个有效的模型中,数据才具有可用性。
虽然这个比喻可能略显粗糙,但可以理解为,原始数据有多种潜在用场,在详细用场不明确的情形下,我们无法对数据进行准确的定价,只能根据数据的规模和大致质量进行初步估计。

然而,更精确的定价应该面向运用。
只有当我们明确了数据的利用目的,以及它在实际运用中带来的帮助,我们才能评估其真正的代价。
否则,同样的数据对某些人可能毫无代价,而对另一些人可能非常有用。

这种运用代价的评估须要通过模型来实现,即通过演习或微调,使数据得以有效利用,从而揭示其真正的代价。
从这个角度来看,实际上是模型授予了数据代价,就像羊吃了草之后,我们是对羊定价,并向客户供应羊的利用代价。

逐日经济新闻