Fork me on GitHub

于晓路:贯穿事前事中事后,图计算在信贷反欺诈的探索和实践

图片

分享嘉宾:于晓路 蚂蚁集团
编辑整理:吴建华 电子科技大学
出品平台:DataFunTalk

导读: 近年来,大数据等新技术快速发展,推动金融信贷业迈向智能化、数字化时代。以AI为技术支撑,构建信贷“智慧大脑”,实现了信贷业务全流程管控和授信客户评级模型优化,降低信贷管理风险,增强了风险防控能力。本次分享题目为图计算在信贷反欺诈的探索和实践,主要介绍4个方面的内容:

  • 信贷反欺诈背景介绍
  • 信贷反欺诈事前事中事后的图应用
  • 风险大数据图体系介绍
  • 信贷图计算性能优化

01 信贷反欺诈背景介绍

1. 信贷反欺诈背景介绍,以及其中的图应用

图片

信贷反欺诈主要包括了对反骗贷和反套现的感知、拦截和监控处置,需要对B端和C端在信贷反欺诈整个事件中全面防控。先介绍一下图计算在信贷反欺诈事前事中事后应用的业务背景:

① 事前 :主要是对风险的感知认知,一方面用整个图谱推理技术做精细化的商户准入和风险评级,另一方面用时序图分析技术持续地做异常检测,提前发现一些可以规避的风险。

② 事中 :主要对感受到的风险做申请/支用拦截,一方面可以用图数据做数据升维去捕获到更多的数据和信息,再通过量化策略或模型算法做判断;另一方面是用户提供材料进行身份自证,此时可以使用图谱的技术做信息交叉验证,证明提供的材料是真的,即可通过申请/支用。

③ 事后 :主要对整个风险做一个全面的监控和处置,可以用图模式识别或团伙发现技术对资金用途进行监控,识别套现行为和团伙挖掘。

2. 为什么信贷反欺诈要用图

图片

为什么信贷反欺诈要用图?因为图包含的信息量是非常高的,时序动态图的信息量是行为序列的指数倍,图这类关系网络更有利于发现隐藏的欺诈风险。

① 传统的行为序列数据,是对用户/商户的特征做一些聚合,根据这些聚合特征来判断风险,但是聚合特征其实是单维的,并不能表达更多的有用信息量。

② 当考虑数据多度关系的聚合,传统的行为序列就变成了静态关系网络。此时的聚合特征就不是单维的,是两度或三度以上的关系分析,这是能提升整个数据的信息量和业务效果。

③ 当再把离线的静态关系网络图,变成一个动态时序图。我们不仅能知道整个数据的一个多维关系网络信息,还能够知道这个多维关系网络是如何演进发展的,这就能比在一个静态关系网络中获得更多的信息和细节,更有利于判断哪些行为是有风险的,能及时将有风险的申请/支用拦截。

02 信贷反欺诈事前事中事后的图应用

1. 图在信贷反欺诈事前事中事后的应用

图片

蚂蚁在图数据上做信贷反欺诈的体系贯穿了整个事前事中事后:事前通过离线的调度或者近线事件驱动去检测风险;事中是在线用户的请求来驱动在线的拦截风险;事后也同时用近线子图做实时的秒级风险识别,离线时可以定时调度天级全量的图去做更深入的全图风险分析,也可以做一些人工交互式的图分析,这就是蚂蚁整个一套完整的事前事中事后的图计算在信贷反欺诈中的应用体系。

① 整个发展历程:

  • 2018年,花呗高速发展,反套现的压力比较大,我们通过图计算的创新,主要是在近线监控处置这部分上线了秒级风险识别和处置,同时可以得到更多的异常数据信息,把它抽象成图数据,对固定模式的反套现行为识别的准确率会很高,但是覆盖率很低,泛化能力也很弱。
  • 2019年,随着信贷欺诈逐渐出现产业和团伙化的趋势,为了提升风险识别的能力,在近线监控处置部分上线了团伙挖掘的算法,扩大了整个防控面和覆盖率。
  • 2020年,为了进一步提高覆盖率和泛化能力,在事中拦截时,不仅看简单的实时的多度累积聚合特征,还看整个交易的关联风险子图,把风险子图作为图神经网络的输入,这样信息量就是最高的,能够大大提高泛化能力,在保证召回率的情况下,准确率也有所提升。
  • 2021年,我们开始探索风险大数据图体系,可以提高图技术规模化的效率。

② 沉淀的图技术 :Traversal & Aggregate图多度关系聚合特征;利用Pattern Detecting & Matching识别资金闭环、黑产网络;Graph algorithms & community detection LPA、Louvain、K-Core;Graph learning & Knowledge graph GCN、图推理技术。

今年开始我们一方面主要通过图的数据升维,从基础数据层面持续提高策略和模型效果,另一方面我们建设全链路的自动化,智能化的平台能力,目标是打造一个图原生智能高效的攻防体系。

2. 图在花呗反套现的案例

图片

① 案例1:图在花呗反套现的事后处置

  • 问题:套现模式覆盖率不全,聚集性风险危害大。
  • 图风控解决方案:做一个图的团伙识别方案,通过实时构建图的关系网络,当别的一些确定的专家经验算子检测到其他的风险异常,抓到一些很确信的信息,可以根据这些确定的信息做团伙扩散,再利用无监督的图算法,就可以持续地挖掘更多的黑产团伙。
  • 业务效果:图团伙的方案让我们识别的更加全面,显著提高套现定性效率,扩大了风险识别面,带来了更好的风险防控效果,并且可以反哺整个事前事中的算法策略的优化,让整个反欺诈体系持续的优化起来。

② 案例2:图在花呗反套现的事中拦截

  • 问题:原来统计类的特征对套现交易的刻画不充分,特征聚合过程中还会发生信息丢失,且专家经验对套现模式认知不充分,很难覆盖所有的风险。
  • 图风控解决方案:持续地构建实时和离线的资金关系动态图,当每一笔交易发生,就会去抽取买家和卖家的子图,还有整个买卖交易关系的子图,把这三个子图通过特征工程构建图表征,尽量减少信息的丢失,然后通过时序图神经网络模型进行打分,来判断存在套现的概率。
  • 业务效果:大大提高了风险覆盖率,并且显著降低误拦截率和套现率。

03 风险大数据图体系介绍

1. 风险图数据体系

图片

没有这个风险图数据体系之前,做事后风险的识别和处置这第一个图应用,用了3个月时间。为什么用了这么久,存在的三大问题:

① 问题1 :做图建模把实时的数据,离线的表构建成图的语义,在业务和技术方面分别进行图建模存在数据源的口径不统一,便会导致后续做业务论证和技术实现,会一直存在偏差。

② 问题2 :在离线数仓做图建模计算和实时图计算的实现语义很难保持一致,两边的实现逻辑也是存在很大差异,最后业务离线做测算的效果和上线的效果就很难对齐。

③ 问题3 :信贷业务需要一个长周期的仿真回测,来保证整个策略和模拟效果是稳定的。

为了解决以上问题,蚂蚁搭建了一个微贷图平台(RiskGraph),这个流程的第一步就是定义图建模和自动构图,第二步需要做图分析,通过图分析的平台去分析业务,找到一些潜在的风险,如果分析的结果可用,就需要做图的仿真回测,算出历史某个请求的时间点下该图的数据结果,我们就能推测业务在长周期稳定下的效果。由于这个平台实现的是统一图资产在分析、仿真和上线语义一致,三线一体模式,所以推到在线的环境中,也是同一个语义,就可以使离线测算的结果和上线之后的效果是一致的,实现图特征和图算子的一键发布。有了这个平台之后,以前需要3个多月做的一个项目,现在就只需要一周就可以完成,效率提升了,也可以规模化地处理图。

04 信贷图计算性能优化

1. 图计算性能优化

图片

① 图计算性能优化的思路

  • 思路1:增加并发。如果有数据倾斜,图里有大热点会导致整个并发不足的问题,可以考虑从集群维度提高并发;还可以从进程维度提高并发,常见的方法有异步化、多线程。
  • 思路2:减少开销。图计算中,首先确定基础框架的选型,根据图业务逻辑和实现效果判断是适合做点切还是边切;第二个是在实现层面对图算法减小开销,常见的方法有不加锁、减少上下文切换等;第三个是整个单次IO成本的降低,常见的方法有添加索引、将磁盘的DB变成内存的缓存或者做一些localCache,都可以减少开销;第四个是可以通过将批量的IO尽量合并来减少开销。

② 案例1:图仿真性能优化

  • 问题:一天仿真回测90天的数据,就会使图计算吞吐量是日常图计算的90倍,需要持续构建百亿点边,几十万TPS去回测数据。
  • 解决方案:第一个是异步化,增加并发,在Geaflow引擎中的构图、请求、计算是一个迭代串行的过程,异步化source,预先构图就只有第一次构图开销,在后面实时计算时,计算的开销也只有第一次。对迭代计算之后的结果,也做异步Sink写到数仓表中,减少串行等待的开销,不阻塞计算。第二个是增加出边索引,出边计算的时候快速筛选出需要关注的边,便可以减少整个计算的开销。
  • 效果:从之前回测90天数据需要一周时间降到现在只需要一天时间

③ 案例2:实时资金闭环性能优化

  • 问题:实时资金闭环是在知识图谱中寻找资金闭环,例如从A->B->C->A,因为这中间是3度的图计算,会造成图计算的开销很大。
  • 解决方案:第一个方法是在实现层面做简化,通过双流Join先找到常见的A->B->A的二度闭环,大约能将80%的图计算简化为流计算,并减少图计算的迭代深度,从而减少计算开销。第二个方法是针对大热点,会根据业务风险评估来制定limit,再结合前面的索引,筛选出关心的出边,就能大大减少计算开销。
  • 效果:资金闭环的图计算算子,从分钟级优化到秒级,并且在大促上依然能保证风险。

05 问答环节

Q:蚂蚁图计算在信贷反欺诈中这里面用了Ray吗?

A:Ray是伯克利研究的一个新型的开源分布式框架,蚂蚁用Ray是比较多的。关于图计算,其实是一个图的引擎和算子,本质是图算子的一个框架。蚂蚁底层的计算引擎用了Ray,Ray也能够帮我们解决很多问题。

Q:图存储有什么开源推荐?

A:TigerGraph、Neo4j,这些都是相对常用的;业界的图存储有些做得很好,可以上网查一下,也都有各种各样的benchmark。

Q:图计算可以用SQL吗?

A:因为图上的查询比较复杂,图计算现在用的比较多的图查询语言是Gremlin。

Q:目前现在蚂蚁做的图计算框架开源吗?

A:目前还没有开源,有开源意向,未来可以期待一下。

分享嘉宾:

图片


本文地址:https://www.6aiq.com/article/1655393190187
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出