实战 | 人工智能数据集标准化与共享机制的探索_数据_人工智能

2024-11-13 18:52:51 智能助手

2017年《新一代人工智能发展方案》的发布，将人工智能发展提升为国家计策目标。
一方面为金融创新带来了更多可能，另一方面人工智能运用面临的安全风险问题日益突出。
第三方测评机构安全评价是有效剖析和掌握人工智能金融运用安全风险的主要手段。
本文从第三方测评机构的视角，盘点金融行业人工智能运用存在的问题，提出金融行业人工智能标准数据集的培植方案，为人工智能金融运用的数据标准培植供应参考，探索数据开放共享的长效机制，促进人工智能在金融行业的良性发展。

实战 | 人工智能数据集标准化与共享机制的探索_数据_人工智能智能助手

人工智能标准数据集的设计思路

金融行业人工智能标准数据集的设计思路可采取自顶向下的设计方法，顶层通过标准化数据集元数据框架和元数据数据字典，统一数据集描述规范；向下通过细分金融运用处景和数据类型，分主题搭建标准数据集；终极形成知足金融行业人工智能运用需求的高质量测试数据集。

1.数据集主题

金融行业人工智能数据集主题的划分不应大略依照数据类型，还要结合场景分类，主题的划分应映射数据与场景的关系。
如图1所示。
目前，人工智能的金融运用紧张集中在智能风控、智能客服、智能营销、智能投顾等领域，紧张利用人脸识别、自然措辞处理、语音识别等技能，数据类型紧张有音***、图片、文本等。

图1 金融行业人工智能数据利用参考

因此可将数据集主题按照层次划分，第一层按照数据集的数据类型分类，划分为图像、***、音频、文本；第二层按照运用处景分类，划分为人脸识别、活体检测、笔墨识别、机器翻译、语音合成、声纹识别等。
统一数据类型的数据集可对应多种场景分类，如一个音频数据集即可用于机器翻译又可用于语音合成，通过数据集主题的层次分类，最大程度地表示数据集特色、匹配数据集用场，如图2所示。

图2 数据集主题划分参考

2.元数据数据字典

元数据的数据字典规范了元数据数据构造，金融行业人工智能标准数据集的所有元数据均应按照统一的数据格式来描述。
元数据数据字典包括数据中文名、数据英文名、数据类型、数据值域、数据定义、数据约束、备注等。

3.元数据框架

金融行业人工智能标准数据集元数据，紧张用来描述数据集的数据属性。
考虑金融行业人工智能技能运用处景丰富、任务类型多样、数据类型浩瀚、规模弘大、数据质量哀求高，为知足行业内交互与共享的需求，金融行业人工智能标准数据集元数据的内容框架可分为择要元数据、主题元数据、实体元数据。

择要元数据：概述数据集的基本描述信息，适用于所有数据集与运用处景，与数据类型无关。
如数据集解释、数据集权属、数据集主题、数据集访问地址、数据集版本号及数据集发布韶光等。

主题元数据：描述数据集所属主题的通用特色信息，突出数据类型及主题场景的通用特色。
如图片主题数据集的采集工具、拍照设备、分辨率、图片数量等；语音数据集的语种、时长、录音设备等；文本数据集的语种、语料、是否格式化文本等。

内容元数据：描述数据集内容特色的描述信息及构造化数据集的数据字典元数据等。

择要元数据统一提取金融行业人工智能标准数据集的概述信息；主题元数据突出不同数据集运用处景的共同特色，勾引细分领域下数据集的适配；内容元数据详细地描述了数据集的构造化数据及非构造化数据特色，是对付数据集最详确的表明。

按照上述构造和组成发布数据集元数据，可提高数据集可读性和易读性，从而为高质量金融行业人工智能标准数据集的搭建以及数据验证、评价供应根本保障。

人工智能标准数据集共享机制

作为金融科技家族中的主要一员，人工智能技能的创新发展和运用离不开“开源”这个核心要素。
人工智能家当生态链上游对根本软硬件及算力的需求，促进了人工智能根本举动步伐做事能力的开放共享；中游核心技能的开源开放，促进了算法的迭代更新；下贱通过数据共享的实践及业务机制的互联互通，将技能、运用与场景深度领悟，协力打造人工智能家当生态链的可持续发展。
在搭建人工智能测试数据集的过程中，也将秉持并实践“开放互助，共建共享”的理念。
金融行业人工智能测试数据集的共享机制，可分为数据集开放式共享和数据集开放式评价两部分。

1.数据集开放式共享

建立基于元数据的金融行业人工智能测试数据集的开放式共享机制，一方面是为了给金融机构供应高质量、易获取的数据集；另一方面也是为了促进金融运用细分领域下的行业标准数据基线的形成，进而辅导金融机构更好地对标人工智能运用效果。

首先，应明确数据集共享生命周期的定义及组成，并完善数据共享各阶段的管理机制，包括但不限于各阶段的参与人、角色、职责、权力等，以确保数据上传、授权、存储、***、更新、验证及销毁等各环节的流畅运转。

其次，应建立数据开放式共享协议，明确数据共享的授权分类，管理数据活动范围，保护数据所有者的干系权利。
数据开放式共享协议的建立可参考知识共享协议（Creative Commons License，以下简称CC协议）或开放数据库协议（Open Database Licence，以下简称ODbl协议）。
CC协议适用工具是创作内容和数据（包括不限于照片、文本、数据等），规定了知识共享的适用范围，知识共享授权的6种组合（包括是否许可商业利用、是否哀求署名等），且该协议已经完成了中国大陆地区确当地化，标志着该协议在中国大陆法律框架体系下的效力。
ODbl协议适用工具是数据库，供应3种类型的开放数据共用授权容许。
该协议是国际通用的容许协议，但还未完成中国大陆地区确当地化事情。

末了，应考虑数据共享的公道性与透明性，以充分调动共享机制参与者的积极性，最大程度地保障各方利益。
在这方面可考虑将同盟链作为数据共享机制的载体，将数据集支配上链实现数据集的多节点存储备份，并利用区块链特性，实现数据流转记录的可追溯，增强数据共享机制的透明度，减少数据所有者对数据存储安全性与公道性的顾虑。

2.数据集开放式评价

金融行业人工智能测试数据集的开放共享不仅是大略的数据分享及数据获取，更应是数据流利与数据评价的开放共享，以数据为驱动勾引人工智能模型的优化，充分开释数据的潜在代价，加速人工智能技能在金融行业的落地与推广。

数据集利害的评价可以从两个层面入手：一方面，从数据本身出发通过剖析数据的完全性、同等性、准确性、可用性等，评价数据集在数据质量上的好坏；另一方面，从数据集的运用与表现出发，测试通用开源人工智能模型（如Facenet、East等）在数据集上的运用效果反应数据质量的好坏（如比拟准确率、召回率、R2值等人工智能模型评估指标），剖析数据集的特色表现，详细参考可见表1。

表 1 数据集评价项参考

金融行业人工智能测试数据集的开放式共享机制的参与者，无论是数据贡献者还是数据获取者，都可公开、公正地对数据集的数据质量和运用质量，进行评价、比拟，促进金融行业人工智能测试数据集的去芜存菁，形成良性循环。

人工智能标准数据集与开放共享机制发展之路

着眼当前，落地金融行业人工智能标准数据集与开放共享机制还需诸多家当政策的扶持与行业各方的共建共治。

1.人工智能数据合规性的法律支持

环顾环球人工智能家当发展，人工智能数据的安全性及合规性成为制约人工智能发展的紧张掣肘，各国都将该问题提升到国家计策高度，并积极通过立法戒备人工智能带来的风险。

2021年4月21日，欧盟发布了人工智能立法提案。
该提案从风险监管角度为欧盟人工智能发展设计了顶层法律框架，适用于人工智能家当生态链的所有参与者，明确了人工智能高风险的属性，从风险管理、合格评定、监督管理等多个维度对人工智能发展提出管理哀求。
个中，“第10条数据与数据管理”首次提出演习、验证和测试数据集应是有代表性且精确的，且应具有统计属性的管理哀求；利用演习、验证和测试数据集前，应评估数据集的可用性、适用性、完全性及无偏性等，对人工智能数据集的数据质量提出了明确的评估哀求。
同时，“第15条准确性、鲁棒性和网络安全性”明确提出应对人工智能模型进行滋扰数据集攻击预演，以确保模型具备适度鲁棒性，具备中毒漏洞的办理方案。
该提案在多个章节提到了对人工智能演习、验证和测试数据的安全性哀求，以及标准化哀求等立法实践，足见欧盟对人工智能数据监管、数据保护及数据合规的高度重视。

与欧盟以高风险防控理念为辅导的顶层立法框架设计不同，美国人工智能立法更寻求人工智能风险防控与技能创新的有效平衡。
自2019年以来，美国各州陆续推出了一揽子人工智能立法草案，但时至今日大多数草案仍处于谈论阶段，尚未正式发布。

我国高度重视数据隐私保护和知识产权保护，已颁发《知识产权保护法》《消费者权柄法》及《网络安全法》等多项法律法规。
然而伴随人工智能技能的迭代更新，对传统法律法规的有效性带来了新寻衅，厘清人工智能立法的法律主体、内容及特色，基于原有法律体系进行调度和适配，可加速人工智能数据合规的立法速率。

2.人工智能家当链的资源整合

金融行业人工智能标准数据集的建立与开放共享机制的形成，仅靠一方之力远远不足，须要人工智能家当链的多方共建。
科技企业、金融机构、监管机构、三方测评机构，着眼于行业共同利益，认识到行业共享的实质不是代价的让步而是代价的再造，冲破彼此壁垒，整合数据资源、科学技能与测评手段形成家当协力。

放眼未来，形成具有金融行业特色的人工智能测试数据集，面对金融机构供应测试数据的通用标准，拉平细分领域下测试数据的差异，辅导人工智能金融运用模型的选型与评价，进一步可助力监管机构实现穿透式监管目标，促进人工智能金融运用生态圈的良性可持续发展。

结语

综上所述，搭建金融行业人工智能标准数据集，为行业创新供应公共数据资源和试验土壤，建立人工智能数据集开放式共享机制，明确数据授权的分类和利用限定，有效掌握数据共享安全风险促进数据合理化利用，从而形成统一的数据集发布和评价规范，不仅有助于引发人工智能模型检测方法和检测手段的创新，也有利于建立客不雅观公正的评价体系，更有益于人工智能金融运用干系标准培植的推动。

（栏目编辑：韩维蜜）