随着新一轮科技革命和家当变革加速,数据作为新型生产要素在驱动商业银行发展与创新中的浸染愈加凸显,数据资产的有效管理已成为银行发展和数字化转型的主要根本。
随着大数据技能的广泛运用与发展,商业银行数据体量高速增长、数据种类多元化趋势日益加深、数据传播速率不断加快等新特点不断强化,如何盘点海量繁杂的数据资产已成为商业银行面临的新兴寻衅,而人工智能等新型技能也为这一寻衅带来新的契机。
本文结合光大银行在数据资产管理领域的实践履历,环绕商业银行数据资产的特点,重点谈论人工智能技能在商业银行数据资产领域的运用处景,深入研究和论证AIGC(人工智能内容天生)技能在数据资产盘点中的运用路径及方案,为商业银行实现智能化、批量化、自动化的数据资产盘点供应参考。

实战 | 人工智能在数据资产治理中的应用——基于AIGC的数据资产盘点研究_数据_模子 文字写作

中国光大银行 数据资产管理部 潘学芳

基于AIGC技能盘点数据资产的研究背景

AIGC是“Artificial Intelligence Generated Content”的缩写,即利用人工智能技能天生内容的一种新型技能。
AIGC技能的基本事理便是利用AI技能(自然措辞处理、机器学习等)对大量的措辞数据进行剖析、学习和仿照,从而实现对自然措辞的理解和天生。
AIGC也被认为是继UGC(专家天生内容)、PGC(用户天生内容)之后的新型内容生产办法。
AI绘画、AI写作、AI编程等都属于AIGC的分支。

数据资产盘点作为数据资产管理的根本,决定着数据资产管理的内容宽度与深度。
目前,商业银行的数据资产盘点基本采取“自上而下”或“自下而上”办法开展,紧张是通过人工梳理和标注的方法,对全量的数据资产进行摸底盘点,事情过程面临投入职员多、事情量大、韶光长,以及更新不及时等问题。
目前在利用人工智能机器学习技能办理数据资产盘点人工标注的难题时,每个标注分类至少须要1000条样本数据,因此一个大略的十个二分类模型的演习就须要至少10万条以上标注样本,人工标注面临的问题仍旧没有完备办理。
随着AIGC技能的兴起和广泛运用,为智能化盘点数据资产带来了新的思路与方向。
本文将重点先容以AIGC技能为根本的智能化数据资产盘点研究。

基于AIGC的智能化数据资产盘点方案

1.研究目标

方案的终极目标是利用AIGC技能实现商业银行数据资产智能化盘点标注。
考虑到实际操作的繁芜性和韶光本钱等成分,现提出三个假设对目标进行简化,专注研究方案可行性。

假设1:数据集数量限定在一定范围

假设2:利用FS-LDM十大主题作为不互斥标签分类体系

假设3:每次分类标注的样本数量限定在一定范围

结合上述假设,本次研究目标具化为利用AIGC技能实现限定数量集下数据资产FS-LDM十大主题不互斥二分类的智能化盘点标注。

2.研究方案及结果

智能化的盘点标注方案一样平常包括样本标注、分类模型演习、分类模型掩护三大步骤,并且一样平常仅在分类模型演习步骤利用自然措辞处理、机器学习等智能技能。
本次研究方案将对上述步骤,特殊是样本标注和分类模型掩护步骤进行优化,实现数据资产盘点的全流程自动化、智能化,同时也办理人工样本标注事情量大和模型更新不及时的难题。
目前,在样本标注、模型演习等过程中可利用的智能技能较多,考虑到模型不同、终极效果也不同,为保障本次研究获取最佳的实验结果,对样本标注过程中常见的分词模型(如词袋模型和词向量模型等)、聚类模型(如K-means模型、DBScan模型、LDA模型等)及演习模型(如支持向量机、决策树、随机森林和神经网络等)分别进行组合并逐一验证,终极得出“词袋模型+LDA模型+支持向量机模型”组合效果最好。
详细研究方案如图1所示。

图1 数据资产智能盘点方案流程图

(1)样本标注

本次研究的样本标注将采取“文本分词聚类+专家规则匹配”的办法代替人工标注。
首先,对样本数据运用词袋模型的方法进行分词和特色提取,然后,对样本数据运用非监督机器学习的LDA方法进行聚类,末了,根据聚类得到的类簇结果与专家履历天生专家规则,并将专家规则与类簇结果进行匹配,得到打上专家规则的弱标签样本。
整体流程如图2所示。
详细步骤如下。

图2 样本标注整体流程

第一步,准备研究利用的已限定数量的数据集,并从中随机抽取一定数量作为样本数据集。
由于本次研究目标是针对数据资产数据项进行盘点打标,因此样本数据集应包含字段的中文名称、字段英文名称信息项,如表1所示。

表1 样本数据集

第二步,利用“词袋模型+LDA主题模型”对待演习样本进行初步的分词、特色提取与聚类,设置划分簇数为10,得到对应簇的主题词以及相应的概率分布,如表2所示。

表2 LDA主题模型主题聚类结果

第三步,根据各簇的关键主题词与专家履历,梳理形成基于FS-LDM分类体系的专家规则。
末了,利用该规则与聚类后的主题簇进行匹配并完成样本标注,终极,得到带有弱标签的样本数据。
如表3所示。

表3  样本数据展示(部分)

(2)模型演习

在完成样本标注后,运用支持向量机(SVM)方法开展样本数据的模型演习,从下表可知支持向量机在处理大多数FS-LDM分类的任务中都能达到超0.9的查准率与查全率,在渠道主题的分类任务中准确率乃至达到1,模型整体效果精良,如表4所示。

表4 SVM在FS-LDM分类体系中的效果

(3)模型掩护

传统的演习模型随着数据量的增加须要人为持续更新参数保障模型的可靠性。
为办理“已经演习好的模型随着数据量的增加,将逐渐失落效”这一难题,本次研究在模型掩护阶段引入“增量学习+履历池”的方法,实现模型的自动掩护。
这种基于履历池的模型更新方法已被广泛运用在强化学习等增量式模型演习任务中,并被证明是有效的。
履历池的选择可利用我行数据资产管理平台中用户对数据资产评价、点赞点踩等反馈信息构建,终极,实现演习模型基于数据资产管理平台用户履历池信息的自动掩护。

3.结论

综上,通过利用AIGC技能,合营专家规则与增量学习,能实现限定数量集下数据资产FS-LDM十大主题不互斥二分类的智能化盘点。
本方法通过在样本集中运用“非监督机器学习LDA模型+专家规则”的方法天生带标签的样本数据,极大地降落了人工标注样本的事情量,比如一个10万级别的样本数据集,仅需人工标注1~3万,人工事情量减少70%至90%,大大减轻了人工事情本钱。
同时,基于“增量学习+履历池”的方法使得数据资产管理平台积累的用户反馈信息代替模型更新所必需的人工调参,实现了模型的自动更新掩护。

下一步研究与实践思考

本文虽然验证了基于AIGC技能实现数据资产盘点的可行性,但出于韶光、本钱等成分考虑,对部分条件进行了限定。
为进一步将上述研究方案运用到实际事情中,后续考虑从以下几方面进行细化研究。

一是通用与专用结合的标签体系设计。
由于完善的全行标签体系繁芜度和耦合性都较高,从易用性和可行性方面考虑,应分别设计通用的标签体系和专用标签体系,并根据实际情形结合运用。
个中通用标签体系充分参考FS-LDM、企业级数据模型等行业现有成果;专用标签体系应结合银行实际的业务需求,针对单一业务场景设计专业的、细化业务的标签体系,办理通用性标签全而不深的问题。

二是多角度专家规则的提炼天生。
专家规则是永劫光、专业化的履历积累,应从多方面天生提炼。
一方面是依托各业务领域专家的历史履历进行归纳总结;另一方面是针对企业数据集自身的特性,包括所属系统、所属部门、运用处景等维度信息进行提炼加工,终极熔炼一体得到相应的专家规则。

三是履历池关键信息的有效筛选。
用户信息反馈必定伴随着无效信息或滋扰信息,为保障增量学习模型的可靠有效,必须对履历池进行有效信息过滤,可以通过建立关键词词库的办法,将用户反馈信息与关键词词库进行匹配,实现履历池关键信息的有效筛选,增强模型的可靠性。

当下,互联网、移动互联网时期已过,以人工智能和大模型为标志的新一轮科技周期已然开始。
商业银行作为企业数字化转型的排头兵,一定面临着新一轮科技周期浪潮的洗礼。
而数据资产管理作为银行数字化转型的数据基石,发展基于人工智能及大模型技能的智能化数据资产管理已是时期的一定选择。

(此文刊发于《金融电子化》2024年1月上半月刊)