创邻科技|图数据库技术在金融风控中的应用
分享嘉宾:吴菁博士 创邻科技 联合创始人
编辑整理:王帅 金山云
出品平台:DataFunTalk
导读: 随着数字化、电子化的发展,犯罪份子日趋职业化、集团化、手段多样化,金融风险日益呈现规模化、隐蔽性、动态变化的特征,给金融机构带来巨大的识别挑战。随着从聚焦单个客户观察到以全局视角进行观察的转变,新一代的金融风控要求金融机构具备全局、多维监控管理风险的能力—关联分析。图数据库作为辅助关联分析的一个强有力的工具,已经从第一阶段的Neo4j开始,经历了具备高扩展的非原生分布式存储的Janusgraph,到第三阶段具有高扩展、运算快、智能化特点的Galaxybase。
今天的介绍会围绕下面四点展开:
- 现代金融风控的特征与挑战
- 图数据库技术简介
- 图数据库在金融风控中的应用
- Galaxybase图数据库简介
01 现代金融风控的特征与挑战
1. 金融风险的现代化特征
首先介绍一个案例:2020年6月10日上海市公安局对外披露了警方破获的一起特大系列诈骗金融机构案,涉及46名犯罪嫌疑人。警方查实,该犯罪团伙进行虚假交易,非法套现9700余万元。
案例经过:犯罪团伙非法购买具有办理信用卡资格的人员信息,并将其伪装成某公司的虚拟“员工”为其缴纳社保;一段时间后,填写相关信用卡申请资料,待银行卡申报下来,整个流程不到一个月即可完成。
金融风险的现代化特征 :随着数字化、电子化的发展,犯罪份子越来越职业化、集团化、手段越来越多样化,金融风险日益呈现规模化、隐蔽性、动态变化的特征,给金融机构带来巨大的识别挑战。
2. 金融风控的痛点
①风险现状:隐蔽性X动态性X规模性
②现有方法:专家规则+有监督机器学习+人工电审核查
- 专家规则:业务员基于历史信息,总结风控策略。
- 有监督机器学习:基于好样本和坏样本进行建模。
- 人工电审核查:上述两种方法以外,有经验的业务员进行案件审核。
③核心痛点:
- 个人信息易伪造,针对个体行为、属性特征的评分规则,犯罪份子易识破绕开、难以发现团伙行为,准确率低。
- 对标签数据数量要求较高,黑样本稀缺,易泄露、污染,使得学习效果差。
- 缺乏完整统一的用户视图,客户信息散落在不同业务线的数据表中,整合分析对人工经验要求高,耗时长、成本大。
3. 关联分析
(1)关联分析必要性
随着从聚焦单个客户观察到以全局视角进行观察的转变,新一代的金融风控要求金融机构具备全局、多维监控管理风险的能力,该能力即为关联分析。关联分析已经成为当今环境下金融风控的底层核心能力。
在信息联通、设备联通、关系联通,以及商业日益纵深整合的背景下,关联是不可逆的趋势。
关联分析不仅存在于金融领域,在社交网络、零售、电力、电信、政企、制造、网络安全等生活的方方面面都存在。
(2)关联分析难点
关联分析,由于针对的是群体,通常具有数据规模大、关联链路复杂、实时性要求高等难点。
在此背景下,亟需新的技术突破关联分析的难点,下面对图数据库进行介绍。
02 图数据库技术简介
1. 基本概念
- 什么是图数据?
基于图论以点(实体)和边(关系)描述现实世界中个体和个体之间网络关系的数据结构。
- 什么是图数据库?
以点、边为基础存储单元,以高效存储、查询图数据为第一设计原理的数据管理系统。
下图为美国穆斯林黑帮组织的图,图中包含相关组织和人员,以及相关的资金和枪支交易,通过该图可以去做恐怖分子挖掘分析。一张图可以将复杂的现实问题展现出来,可谓之:“一图胜过千言万语”。
2. 数据库技术的价值
(1)更贴近业务的数据模型
数据模型直观还原业务场景,相比传统数据模型复杂度极大降低,让业务与技术的沟通效率极大提升。
上述的右图采用图数据库模型,更加简介直观,而采用关系型的数据库模型在建设和变更中都较为复杂。
(2)更简洁的查询语言
让代码量极大下降,开发效率提升。
右图展示了产品属于某一个子品类,子品类可能还有母品类的关联关系。在进行查询时,如“所有的奶制品有哪些?”采用图书库的Cypher查询,只需要一句话。而采用关系型的数据SQL查询,涉及到多表的关联查询,较为复杂。
(3)更高效的关联查询性能
复杂深度关联查询性能指数提升。
面对大规模业务的深链查询,图数据库可以极大提高效率。
如上图采用具有7万个点,50万条边(小于通常的金融领域使用的图)的数据集,分别采用MySQL加索引查询和图数据库Galaxybase进行查询,对比结果可以看出,图数据库的查询在4跳的时候已经比MySQL的快1994倍,在5跳的时候快几万倍。
**03 图数据库在金融风控中的应用 **
1. 图分析用于金融风控的社会学原理
图技术应用与数据分析的底层社会学原理是“物以类聚、人以群分”,该法则同样适用于金融领域。 金融机构可以将其所拥有的各类数据 ,如灰黑名单、交易数据、客户数据、设备数据、标签数据等构建知识图谱, 从中找关系、找路径、找群体、找特征,进而辅助业务人员实现业务应用 ,如身份识别、反洗钱、失联修复等。
由于犯罪份子追求经济效应,在团伙犯罪时,相同的犯罪资源会重复利用,比如在同一个地点用相同手机不同的身份证申请不同的信用卡,因此可以通过设备ID、IP地址、联系人手机等资源实体出发,由点到面,挖掘识别犯罪团伙。
2. 图分析在金融风控的场景
(1)身份识别(Identity Resolution)
- 背景
银行多条线业务数据间因数据收集时间不同、客户笔误、录入/识别误差等原因,存在矛盾/不一致,众多联系人数据缺乏有效唯一标识,无法有效分析风控对象的信息全貌。
- 解决方案
通过使用图计算找共同邻居,分析两点间的相似度,判断数据唯一标识/推理数据关系。例如,通过相同的登录设备、居住地址、定期的转账关系,推理李四与张三和黑名单用户王五为疑似亲属关系,并通过多种相同关系,推理王五与王六为同一人。
(2)实际控制人挖掘
- 背景
企业及相关个人间具有错综复杂的控股关系,业务员很难看清全貌,以致系统性的不确定风险难以规避,导致银行不敢贷,优质企业贷款难。
- 解决方案
整合行内外企业股权关系,构建股权关系图谱,向上追溯企业股东及其出资比例,深度剖析企业的实际控制人/企业,以其为资本系中心分析相关组成机构,实现利益集团/资本系全貌识别与分析,方便监管。
(3)社群发现
①社群发现(1)
- 背景
企业间具有错综复杂的交易、股权、担保、共同相关人等多种关系将企业构建成了多种类别及形式的社群。这些社团的发现对普惠业务部或企业信贷管理部门了解企业真实业态发现欺诈团伙至关重要。
- 解决方案
整合交易流水、客户贷款、工商、征信、司法等系统信息,构建全方位关联网络,利用社区发现等算法识别可疑/高风险企业社群进行社群画像,计算群内指标,识别重要风险节点,辅助客户风险等级评定。
②社群发现(2)
- 背景
金融风险会在其上下游企业生态中传播,速度之快往往令监管机构措手不及,被动响应往往又为时过晚。现有风控手段无法有效量化企业的系统性外部风险。
- 解决方案
企业中心度越高,在网络中的重要程度越高,与其他企业的连通性越强、风险传导性也越强。构建企业关联图谱,企业之间的交易、担保、产业上下游关系等构件不同权重与类型的边,通过中心度计算、标签传播等算法,可以为每个企业在整体产业业态中的影响力与受影响程度评分,有助于监管者在风险放生前从源头遏制风险,在社群中其他企业发生风险风险时,及时防范。
(4)风险对冲
- 背景
投和研割裂,无法形成续性优化闭环过程。市场瞬息万变,信息爆炸增长,各投研平台通常罗列繁多的研报、企业、市场数据。数据间缺少有序整合,对数据的整合以及发掘关联价值,有赖于研究人员的行业研究经验与积累,研究知识与能力难以从个体复制到群体。
- 解决方案
公司数据、行业数据、研报数据、指标数据、新闻媒体等多源数据整合,构建产业链图谱,利用可视化产业链分析,寻找产业链与产业链之间、行业与行业之间、行业与产品之间、产品与公司之间的关系,量化分析这些关系之间的波动关系,寻找更加稳定的反响波动投资组合,实现高效风险对冲。
(5)信用卡申请反欺诈
- 背景
在信用卡申请过程中,个人信息及行为容易被伪造,针对个体的评分规则易被识破,隐蔽欺诈团伙容易对银行造成大量损失。
- 解决方案
整合行内销售、审批、风控、电销、交易、催收等系统的多源数据以及第三方数据,构建全方位用户关联网络,利用多维交叉关联信息深度刻画申请和交易行为,识别多种复杂的规模化、隐蔽性欺诈。
(6)信用卡养卡提额检测
- 背景
有些人通过和商家合作,利用多个账号来进行刷单,以达到伪造商家信用/销售数据,或提升信用卡刷卡额度的目的。
- 解决方案
通过使用图计算找特征的技术,进行子图匹配,发现类似的模式,并将对应的账号及商户标黑。
(7)对公信贷风险检测
- 背景
外部企业分摊的客户违约风险有可能会随着担保及上下游交易等关系转移到目标客户身上,除了自身经营能力,银行需要对企业进行外在风险的评估。
- 解决方案
通过执行全图遍历,在复杂关系统网络中识别出特定的有向连通网络结构,检测出互保、连环担保等特殊担保形态,预警当前信贷申请。
(8)反套现
- 背景
不良商家常常通过银行卡、熟人来完成套现这个“回路”,纯资金流的模式无法看出端倪。
- 解决方案
通过使用图计算找关系的技术,寻找闭环关系,扫清套现“死角”。
(9)贷后资金监控
- 背景
为响应国家普惠金融战略,支撑小微、个体户实体经济发展,银行业推出了“无需抵押、便捷高效、使用灵活”便捷线上融资产品。但有些小微、个体户没有将贷来的钱用于生产经营,而是直接或间接流向投理财、证券、房地产、P2P等违禁领域。
- 解决方案
基于图技术关联分析及深链查询优势,基于广度优先遍历算法及环路自图发现算法,快速定位3跳及以上违规交易链条几跨行、分拆回流等交易模式。
(10)失联修复
- 背景
客户数据被分散在各个不同业务线的大量表格中,一旦某个业务线的客户失联,信息查询效率低下,增加了银行坏账率。
- 解决方案
构建360度全息客户视图,助力银行基于客户多维联系查找失联客户,完成失联(客户)修复,并进一步完成智能分类、传达和差异化催收。
(11)反洗钱
- 背景
洗钱过程往往存在着通过多个核心账户进行深链转账行为,将大额变为小额,降低被识别的风险。
- 解决方案
利用图技术的深链查询性能,高效定位转账链路,分析资金流向,快速定位可疑洗钱账户。
3. 图技术在金融风控场景的核心价值
①实时性
提高识别效率,在事前、事中及时发现风险,降低损失。
②准确率
发现传统方法很难发现的规模型风险,提升准确率,降低误杀率。
③样本增益
增加黑样本的维度与数量,反哺给现有业务,提升业务效果。
**04 Galaxybase图数据库简介 **
1. 图数据库技术发展的三个阶段
2. Galaxybase简介
Galaxybase是一个国产高性能分布式图数据库,具有如下特点:
- 速度快 :原生分布式并行图存储,毫秒级完成深链查询,较同类技术百倍提升。
- 高扩展 :完全分布式架构,动态在线扩容,高效支持万亿级超级大图。
- 实时计 算 :内置丰富分布式图算法、无ETL实现实时图分析。
- 高效数据压缩 :优化资源利用,节省硬件和维护成本。
- 内核代码100%自研、全自主可控、兼容国产底层软硬件 。
3. Galaxybase图数据库优势
(1)优异的深链查询性能
与市场中其他的图数据库进行比较,Galaxybase查询速度最快,且查询跳数越多,性能优势越明显。
注:N/A为超时报错,没有办法返回结果。
(2)优异的交互式查询及BI查询性能
- LDBC-SNB测试
LDBC是迄今为止国际上最完整的图数据库基准测试,能够通过交互式查询与模拟真实业务场景的BI查询更全面的测试数据库的性能。Galaxybase的测试性能全球领先。
(3)优异的横向扩展能力
Galaxybase仅使用50台机器集群,实现了5万亿规模大图分布式存储、实时在线查询。创邻科技打破了图数据处理规模的世界纪录(2021年Neo4j使用100台机器完成1.2万亿规模图存储查询),涵盖出入度最大超过1000万的超级节点,六跳深链查询平均耗时仅6.7秒。
(4)优秀的图算法支持
Galaxybase是首个信通院完成测评的图计算平台,涵盖多类图算法,如图遍历、路径发现、社群发现、相似度、中心性和子图模式匹配等。
(5)完备的数据管理工具
通过可视化视窗对图项目进行创建、搜索、排序、布局,对图数据的格式、名称、来源进行管理;完备的权限管理系统可对不同用户进行细化到属性颗粒度的权限管理。
(6)简易图分析视窗
符合人类直觉的可视化展现与交互,从业务视角展现数据之间盘根错节的关系,帮助终端用户理解复杂关联,发现隐藏线索,洞察真相。复杂关系网络图展现不卡顿,流畅查询和探索。无需编程,通过直观的拖拽操作完成高复杂度的分析挖掘。
(7)云企创新生态
创邻科技加入云启创新生态,与腾讯合作联合推出高性能图数据库产品TGDB,已在农行、交行、国家电网等超大型客户场景中落地,TGDB当前在墨天轮的图数据库类目中排名第一。
4. 标杆客户与合作伙伴
分享嘉宾
吴菁 博士
创邻科技联合创始人&COO