6个方面分析:常识图谱的价值和应用_图谱_常识
一、知识图谱无处不在
说到人工智能技能,人们首先会遐想到深度学习、机器学习技能;谈到人工智能运用,人们很可能会立时想起语音助理、自动驾驶等等,各行各业都在研发底层技能和寻求AI场景,却忽略了当下最时髦也很主要的AI技能:知识图谱。
当我们进行搜索时,搜索结果右侧的遐想,来自于知识图谱技能的运用。我们险些每天都会吸收到各种各样的推举信息,从***、购物到用饭、娱乐。
个性化推举作为一种信息过滤的主要手段,可以依据我们的习气和爱好推举得当的做事,也来自于知识图谱技能的运用。搜索、舆图、个性化推举、互联网、风控、银行……越来越多的运用处景,都越来越依赖知识图谱。
二、知识图谱与人工智能的关系
知识图谱用节点和关系所组成的图谱,为真实天下的各个场景直不雅观地建模。通过不同知识的关联性形成一个网状的知识构造,对机器来说便是图谱。
形成知识图谱的过程实质是在建立认知、理解天下、理解运用的行业或者说领域。每个人都有自己的知识面,或者说知识构造,实质便是不同的知识图谱。正是由于有获取和形成知识的能力,人类才可以不断进步。
知识图谱对付人工智能的主要代价在于,知识是人工智能的基石。机器可以模拟人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,乃至某些感知能力比人类更强,比如:狗的嗅觉。
而“认知措辞是人差异于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的主要根本。” 知识对付人工智能的代价就在于,让机器具备认知能力。
而构建知识图谱这个过程的实质,便是让机器形成认知能力,去理解这个天下。
三、图数据库
知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论根本,图论中图的基本元素是节点和边,在图数据库中对应的便是节点和关系。用节点和关系所组成的图,为真实天下直不雅观地建模,支持百亿量级乃至千亿量级规模的巨型图的高效关系运算和繁芜关系剖析。
目前市情上较为盛行的图数据库有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于关系型数据库,一修正便随意马虎“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库比较,图数据库更善于建立繁芜的关系网络。
图数据库将原来没有联系的数据连通,将离散的数据整合在一起,从而供应更有代价的决策支持。
四、知识图谱的代价
知识图谱用节点和关系所组成的图谱,为真实天下的各个场景直不雅观地建模,利用“图”这种根本性、通用性的“措辞”,“高保真”地表达这个多姿多彩天下的各种关系,并且非常直不雅观、自然、直接和高效,不须要中间过程的转换和处理——这种中间过程的转换和处理,每每把问题繁芜化,或者遗漏掉很多有代价的信息。
在风控领域中,知识图谱产品为精准戳穿“敲诈环”、“窝案”、“中介造假”、“洗钱”和其他繁芜的敲诈手腕,供应了新的方法和工具。只管没有完美的反敲诈方法,但通过超越单个数据点并让多个节点进行联系,仍能创造一些隐蔽信息,找到敲诈者的漏洞,常日这些看似正常不过的联系(关系),常常被我们忽略,但又是最有代价的反敲诈线索和风险打破口。
只管各个风险场景的业务风险不同,其敲诈办法也不同,但都有一个非常主要的共同点——敲诈依赖于信息不对称和间接层,且它们可以通过知识图谱的关联剖析被揭示出来,高等敲诈也难以“隐身”。
凡是有关系的地方都可以用到知识图谱,事实上,知识图谱已经成功俘获了大量客户,且客户数量和运用领域还在不断增长中,包括沃尔玛、领英、阿迪达斯、惠普、FT金融时报等有名企业和机构。
目前知识图谱产品的客户行业,分类紧张集中在:社交网络、人力资源与招聘、金融、保险、零售、广告、物流、通信、IT、制造业、传媒、医疗、电子商务和物流等领域。在风控领域中,知识图谱类产品紧张运用于反敲诈、反洗钱、互联网授信、保险敲诈、银行敲诈、电商敲诈、项目审计作假、企业关系剖析、罪犯追踪等场景中。
那比较传统数据存储和打算办法,知识图谱的上风显现在哪里呢?
(1)关系的表达能力强
传统数据库常日通过表格、字段等办法进行读取,而关系的层级及表达办法多种多样,且基于图论和概率图模型,可以处理繁芜多样的关联剖析,知足企业各种角色关系的剖析和管理须要。
(2)像人类思考一样去做剖析
基于知识图谱的交互探索式剖析,可以仿照人的思考过程去创造、求证、推理,业务职员自己就可以完玉成体过程,不须要专业职员的帮忙。
(3)知识学习
利用交互式机器学习技能,支持根据推理、纠错、标注等交互动作的学习功能,不断沉淀知识逻辑和模型,提高系统智能性,将知识沉淀在企业内部,降落对履历的依赖。
(4)高速反馈
图式的数据存储办法,比较传统存储办法,数据调取速率更快,图库可打算超过百万潜在的实体的属性分布,可实现秒级返回结果,真正实现人机互动的实时相应,让用户可以做到即时决策。
五、知识图谱的紧张技能5.1 知识建模
知识建模,即为知识和数据进行抽象建模,紧张包括以下5个步骤:
以节点为主体目标,实现对不同来源的数据进行映射与合并。(确定节点)利用属性来表示不同数据源中针对节点的描述,形成对节点的全方位描述。(确定节点属性、标签)利用关系来描述各种抽象建模成节点的数据之间的关联关系,从而支持关联剖析。(图设计)通过节点链接技能,实现环绕节点的多种类型数据的关联存储。(节点链接)利用事宜机制描述客不雅观天下中动态发展,表示事宜与节点间的关联,并利用时序描述事宜的发展状况。(动态事宜描述)5.2 知识获取
从不同来源、不同构造的数据中进行知识提取,形成知识存入到知识图谱,这一过程我们称为知识获取。针对不同种类的数据,我们会利用不同的技能进行提取。
从构造化数据库中获取知识:D2R。
难点:繁芜表数据的处理。
从链接数据中获取知识:图映射。
难点:数据对齐。
从半构造化(网站)数据中获取知识:利用包装器。
难点:方便的包装器定义方法,包装器自动天生、更新与掩护。
从文本中获取知识:信息抽取。
难点:结果的准确率与覆盖率。
5.3 知识领悟
如果知识图谱的数据源来自不同数据构造的数据源,在系统已经从不同的数据源把不同构造的数据提取知识之后,接下来要做的是把它们领悟成一个统一的知识图谱,这时候须要用到知识领悟的技能(如果知识图谱的数据构造均为构造化数据,或某种单一模式的数据构造,则无需用到知识领悟技能)。
知识领悟紧张分为数据模式层领悟和数据层领悟,分别用的技能如下:
数据模式层领悟:观点合并、观点高下位关系合并、观点的属性定义合并。数据层领悟:节点合并、节点属性领悟、冲突检测与办理(如某一节点的数据来源有:豆瓣短文、数据库、网页爬虫等,须要将不同数据来源的同一节点进行数据层的领悟)。由于行业知识图谱的数据模式常日采取自顶向下(由专家创建)和自底向上(从现有的行业标准转化,从现有高质量数据源(如百科)转化)结合的办法,在模式层基本都经由人工的校验,担保了可靠性,因此,知识领悟的关键任务在数据层的领悟。
5.4 知识存储
图谱的数据存储既须要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时打算等运用,因此须要存储以下信息:三元组(由开始节点、关系、结束节点三个元素组成)知识的存储、事宜信息的存储、时态信息的存储、利用知识图谱组织的数据的存储。
其关键技能和难点就在于:
大规模三元组数据的存储;知识图谱组织的大数据的存储;事宜与时态信息的存储;快速推理与图打算的支持。5.5 知识打算
知识打算紧张是在知识图谱中知识和数据的根本上,通过各种算法,创造个中显式的或隐含的知识、模式或规则等,知识打算的范畴非常大,这里紧张讲三个方面:
图挖掘打算:基于图论的干系算法,实现对图谱的探索和挖掘。本体推理:利用本体推理进行新知识创造或冲突检测。基于规则的推理:利用规则引擎,编写相应的业务规则,通过推理赞助业务决策。5.6 图挖掘和图打算
知识图谱之上的图挖掘和打算紧张分以下6类:
第一是图遍历,知识图谱构建完之后可以理解为是一张很大的图,怎么去查询遍历这个图,要根据图的特点和运用的场景进行遍历;第二是图里面经典的算法,如最短路径;第三是路径的探寻,即给定两个实体或多个实体去创造他们之间的关系;第四是威信节点的剖析,这在社交网络剖析中用的比较多;第五是族群剖析;第六是相似节点的创造。5.7 可视化技能
目前两个比较常见的可视化工具是:D3.js和ECharts。
D3.js:全称Data-Driven Documents,是一个用动态图形显示数据的JavaScript库,一个数据可视化工具,它供应了各种大略易用的函数,大大方便了数据可视化的事情。ECharts:是一款由百度前端技能部开拓的,同样基于Javascript的数据可视化图标库。它供应大量常用的数据可视化图表,底层基于ZRender(一个全新的轻量级canvas类库),创建了坐标系、图例、提示、工具箱等根本组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、K线图、舆图、力导向布局图以及和弦图,同时支持任意维度的堆积和多图表稠浊展现。六、知识图谱的运用
知识图谱的运用处景很多,除了问答、搜索和个性化推举外,在不同行业不同领域也有广泛运用,以下列举几个目前比较常见的运用处景。
6.1 信用卡申请反敲诈图谱
6.1.1 敲诈手腕
银行信用卡的申请敲诈包括个人敲诈、团伙敲诈、中介包装、伪冒资料等,是指申请者利用本人身份或他人身份或编造、假造虚假身份进行申请信用卡、申请贷款、透支敲诈等敲诈行为。
敲诈者一样平常会共用合法联系人的一部分信息,如电话号码、联系地址、联系人手机号等,并通过它们的不同组合创建多个合成身份。比如:3个人仅通过共用电话和地址两个信息,可以合成9个假名身份,每个合成身份假设有5个账户,统共约45个账户。假设每个账户的信用等级为20000元,那么银行的丢失可能高达900000元。
由于拥有共用的信息,敲诈者通过这些信息构成敲诈环。
一开始,敲诈环中的账户利用正常,敲诈者会进行正常的购买、支付和还款行为,这种行为称为“养卡”。“养卡”了一段韶光后,信用额度会有所增加,随着韶光推移会增长到一个让敲诈者相对“满意”的额度。
溘然有一天敲诈环“消逝”了,环内成员都最大化地利用完信用额度后跑路了。
6.1.2 知识图谱办理信用卡申请反敲诈问题
利用传统的关系数据库,来戳穿敲诈环须要技能职员实行一系列的繁芜连接和自连接,而且查询构建起来非常繁芜,查询效率低、速率慢且本钱高。
知识图谱产品利用图数据库的天然上风,直接将银行敲诈环节可能涉及的所有有用的数据字段:如申请号、账户、***、手机、地址、家庭电话、联系人、设备指纹等设计成图谱的节点,定义好图谱所需的所有节点和节点属性后,定义两两节点间的关系。
如:申请号节点与设备指纹节点相连构成“申请设备”关系,人节点与地址节点相连构成“申请人地址”关系。
根据业务上设计好的图谱进行建图,建图后,用户可以直接在关联图谱平台上,输入某个节点值查询节点的关联信息,如:输入某个黑手机号,看其关联5层范围内的涉及到的申请人信息,看该节点是否与其他节点关联成敲诈环,看节点与历史的黑节点间是否有过关联等等。
用户可借助知识图谱产品,在贷前防御风险,贷中进行关联剖析找出可疑点,掌握风险,贷后进行风险把关,让丢失降到最低。
6.2 企业知识图谱
目前金融证券领域,运用紧张侧重于企业知识图谱。企业数据包括:企业根本数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失落信数据、企业***数据等。
利用知识图谱领悟以上企业数据,可以构建企业知识图谱,并在企业知识图谱之上利用图谱的特性,针对金融业务场景有一系列的图谱运用,举例如下:
(1)企业风险评估
基于企业的根本信息、投资关系、诉讼、失落信等多维度关联数据,利用图打算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。
(2)企业社交图谱查询
基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直不雅观立体展现企业关联。
(3)企业终极掌握人查询
基于股权投资关系探求持股比例最大的股东,终极追溯至某自然人或国有资产管理部门。
(4)企业之间路径创造
在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。
(5)初创企业融资发展进程
基于企业知识图谱中的投融资事宜发生的韶光顺序,记录企业的融资发展进程。
(6)上市企业智能问答
用户可以通过输入自然措辞问题,系统直接给出用户想要的答案。
6.3 交易知识图谱
金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技能,包括很多业务干系的规则,来剖析实体与实体之间的关联关系,终极形成金融领域的交易知识图谱。
在银行交易反敲诈方面,可以从从***,手机号、设备指纹、IP等多重维度对持卡人的历史交易信息进行自动化关联剖析,关联剖析出可疑职员和可疑交易。
6.4 反洗钱知识图谱
对付反洗钱或电信诱骗场景,知识图谱可精准追踪卡卡间的交易路径,从源头的账户/卡号/商户等关联至末了收款方,识别洗钱/套现路径和可疑职员,并通过可疑职员的交易轨迹,层层关联,剖析得到更多可疑职员、账户、商户或卡号等实体。
6.5 信贷/消费贷知识图谱
对付互联网信贷、消费贷、小额现金贷等场景,知识图谱可从***、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多重维度对申请人的申请信息,进行自动化关联剖析,通过关系关系并结合规则,识别图中非常信息,有效判别申请人信息真实性和可靠性。
6.6 内控知识图谱
在内控场景的经典案例里,中介职员通过制造或利用对方信息的不对称,将企业存款从银行偷偷转移,在企业卖力人不知情的情形下,中介已把企业存在银行的全部存款转移并消逝不见。通过建立企业知识图谱,可将信息实时互通,创造一些隐蔽信息,探求敲诈漏洞,找出资金流向。
本文系作者个人观点,不代表本站立场,转载请注明出处!