Fork me on GitHub

外部数据在信贷风控和经营中的应用

以下文章来源于 https://zhuanlan.zhihu.com/p/628949074

导读: 本文将介绍外部数据在信贷风控经营中的应用实践。把数据用好最核心的是把握三个要点,第一点了解数据要用在什么地方、解决什么问题,于风控经营而言就是要用在什么策略/模型上,解决优胜劣汰问题;第二点,需要了解数据自身的特点及适用场景;第三点是如何应用数据,即评估和应用方法。

本次分享主要包含四个部分,首先简要概述消费信贷风控经营的框架及所需数据类型,然后介绍引入外部数据面临的问题,进一步结合度小满信贷金融科技的实践分享应用评估方法,最后介绍如何通过联合建模提升外部数据的效果。

具体如下:

  1. 消费信贷风控经营模型策略及数据简介

  2. 消费信贷风控经营引入外部数据面临的问题

  3. 外部数据在风控经营中的应用评估方法

  4. 通过联合建模提升外部数据的效果


分享嘉宾|许贤铭 度小满 模型负责人

编辑整理|薛敏

出品社区|DataFun


01/消费信贷风控经营模型策略及数据


1. 消费信贷风控经营框架简介

在息差收窄、人口红利消退的背景下,消费信贷更加强调风控与经营目标一致、高度协同地支持业务健康发展。这里分享一种在度小满业务实践中沉淀的框架,和大家做个简单交流。

业务目标包括规模、盈利、风险、效率,不同机构由于其经营目标及自身发展阶段的不同,在四个业务目标上的重视程度也有所不同。各业务目标由对应的风控经营策略来支撑,包括获客、贷前、贷中、贷后,这几个阶段的主要工作可以概括为"优存劣汰",即识别优劣(风险、需求、价值)、拦截高风险低价值用户、促动和留存低风险高价值客户。其中,获客阶段 主要诉求是以极低的单位成本初筛、拦截高风险用户,合理出价营销获客;贷前阶段 包括准入、反欺诈、信用审批、定额定价等环节,这个阶段的主要工作是以较低的单位成本初步识别客户风险、需求、价值,准入可经营客群,并给予客户合理的额度和定制促动用信;贷中阶段 主要工作是以合理的单位成本识别客户风险、需求的变化,做好高风险客户的处置、高需求较低风险客户的经营,最大化客户价值,优化资产结构。贷后较普适,核心目标是以合理的成本合规催收,挽回损失。

为了使这些环节的经营和风险策略效果更好,模型及相应数据解读至关重要,其中数据是基石。数据分为内部数据和外部数据,今天重点分享的是外部数据在风控经营里的应用。



2. 消费信贷风控经营环节所需数据类型

消费信贷风控经营环节所需的数据类型主要包括三类:

① 需求类:需求频度刻画、当前是否有需求、需求紧迫程度、额度利率需求(定额定价)、需求合理性(主要从借款用途考虑);

② 履约风险:基本属性、金融行为(如征信数据、支付类数据)、非金融行为(一些与金融弱相关的行为数据)、社会公共数据(如法院失信名单等)等;

③ 履约能力:基本属性、收入信息、资产信息、负债信息、经营信息。

下面从获客、贷前两个角度概述这些数据是怎样支持相应策略的:

(1)获客环节

获客的一种策略流包括渠道策略、黑名单策略、人群识别策略、出价和创意策略、注册未申请召回策略等,其中:

① 渠道策略:结合渠道客群画像和金融产品客群画像的匹配度来选择渠道。

② 黑名单策略:使用内外积累的风险名单等风险数据,将在经营上无法服务的客户在获客阶段拦截掉,从而降低成本、提高获客效率。

③ 人群识别策略 & 出价策略:在渠道流量上使用渠道数据、互联网行为数据识别客户的需求响应度及风险等级,结合与金融产品、经营目标的匹配度给出合理的出价策略。

④ 注册未申请召回:这个阶段主要还是通过客户的需求、风险和价值设计召回策略。由于注册阶段已提供了手机号,可以通过手机号匹配更丰富的互联网行为、申请查询行为数据来刻画客户的需求响应度、用户价值和风险。

(2)贷前申请环节

贷前申请环节的策略流较复杂,一种划分方式是准入策略、反欺诈、拒绝回捞策略、定额策略、定价策略、授信未用信召回策略等。这里简单介绍其中两部分:

① 准入、反欺诈策略:首先,借款用途涉及到资金流向,因此需要结合用户的借款用途来作基本准入。其次,结合监管要求和金融产品定位做政策准入,把法院失信等不符合政策要求的用户拦截掉,从而节约风控成本。典型地,欺诈包括一方欺诈和三方欺诈,往往通过身份核验和活体识别、三四要素核验等技术识别本人降低冒用风险,通过设备、地理位置及关联网络信息识别团伙欺诈概率,通过黑名单、严重多头拦截疑似欺诈。信用准入更多从长 mob 风险的角度控制风险,多用到人行征信、互联网大数据评分、资质类相关数据。

② 定额策略:合理的额度不仅考虑客户的还款能力、还考虑客户的支用概率,毕竟资金都是有成本的。因此,我们往往会从风险、偿债能力、客户自身需求、市场竞争情况 角度来搭建定额框架,给予一个科学的 offer,从而促进用户能把额度用起来。

--

02/消费信贷风控经营引入外部数据面临的问题


面临的典型问题包括三个。

问题 1:如何选取外部数据?这是个准入问题。

问题 2:如何应用和评估外部数据?

这个问题后面会重点和大家交流,同时重点就样本选择、数据漂移、效果衰减等问题作探讨。

问题 3:如何提升优质数据源的效果?

因合规要求,很多互联网大数据只能从征信平台以评分的形式引入。通过联合建模的方式,能更好地提升优质数据源的效果。后面会重点探讨无 Y 样本或小样本的建模问题、分群建模问题。

--

03/外部数据在风控经营中的应用评估方法


1. 外部数据的选择标准

① 合规:数据来源、数据获取途径必须合法合规;

② 稳定:数据在不同时间点稳定产出,且可以长期提供数据服务。建议和可长期输出的自有数据源合作;

③ 可解释:数据类型在信贷风险、需求等方面逻辑上可解释;

④ 有效:数据是否能有效、稳定地反应客户的需求、履约能力、履约意愿;

⑤ 有业务增益:应用于业务是否能带来增益,如收入、利润等;

2. 外部数据引入环节及应用评估要点

一般来说,引入外部数据的过程包括 6 个环节:① 确定应用场景、目的和应用方式;② 准备样本;③ 交由三方机构回溯数据;④ 拿到回溯结果后作离线评估;⑤ 评估通过后接入数据;⑥ 在线上做数据实验、监控和分析,如果评估效果达标,则进一步扩大调用量。

接下来,对 1、2、4、6 环节做进一步展开:

第一步是指挥棒,只有把应用场景、目的和方式确定了,才能确定更针对性的评估方法,拿到数据的最大价值。有时数据引入后想用的地方很多,我们可以把重点的场景先确定下来,比如用在贷前风险环节。场景确定后才能更好地明确样本的 Y 定义、样本构造方式。进一步,明确引入该数据是用于解决什么问题。结合经营目标,如果风险可接受,目标可能是提高通过率,也可能是希望进一步优化风险分层以更好地定额定价。比如通过率达到了 40% 已满足需求,但其中最优质客群的 A 分层还不够多,则需要引入数据把 BCD 等分层里更优质的人找出来放在 A 分层中,这是一个分层优化的需求。应用的场景和目的确定后,应用方式也会比较清晰,比如策略应用、入模使用。

第二步,结合对数据的了解、以及支持的回溯周期、量级,确定样本构造方式。样本构造是非常关键的环节,首先要根据应用场景确定样本 Y,定义好坏及灰度样本。其次,样本需具有代表性,包括代表整体经营目标对应的客群,如覆盖渠道;代表现在和未来,去除特殊样本;代表场景,如贷前风险场景下如果只输出通过样本,则用来建模的客群变窄,模型泛化范围有限,此时应考虑拒绝推断的方法增强样本代表性。此外,需要保证样本量充分,有一定量级。如果坏样本特别少,那么输出样本的分析结论很可能是统计不置信的。

拿到样本及机构的回溯数据后,进一步需要分析数据是否可用、是否有价值。具体从三个方面来看:首先是数据质量和稳定性,包括覆盖是否稳定,分布是否稳定,是否有变量漂移;然后是有效性,包括变量区分度(IV、Lift)、入模区分度(KS、AUC、Lift)、分箱排序性以及是否对场景策略有增益。最后是可行性,即结合数据应用方式设计上线节点,估算数据调用量,结合策略增益、数据成本评估 ROI。

上线后需做小流量实验,在线上验证线下评估结论一致后,再逐步放量。

3. 实践中几个相关问题点的探讨

(1)样本选取的问题及技术方案

选取代表性样本时经常碰到需要圈定特殊样本的情况,这里简单分享两点。

第一种是由于策略调整等事件影响整体样本分布,会影响到数据稳定性评估结论。此时可以通过事件时间回溯来圈定特殊表现样本集。

另一种是特殊事件导致客户表现偏移,此时可以通过分类算法、距离度量等方法找到偏移样本。比如疫情原因导致平时能正常还款的特定人群无法正常还款,等疫情缓解了这些人还款能力可能就恢复了。这种受疫情影响的样本对整体样本状态可能有一些扰动,那么对于该类样本可通过二分类算法识别。



(2)外部数据可行性评估

数据可行性评估需要结合数据成本进行收益预估,工作包括多路数据的选择、数据调用策略设计等。如以回捞策略为例,回捞产生的收益减去回捞产生的风险损失及外部数据调用成本,就是其产生的利润。其中比较考验经验的点在于数据调用策略、缓存策略的设计,实践中需要考虑数据的更新频率及信贷风控经营里的时效性要求来设置合理的缓存天数。

(3)数据应用评估示例:风险评分的应用评估

以风险评分的应用为例,首先确定其应用场景是用于贷前准入环节,目的是提升通过率或降低风险;然后确认其应用方式是先策略运用,上线稳定后再入模使用。策略应用的典型评估方法包括两种:

① 策略交叉矩阵评估,和主模型交叉后的分析 swap in & swap out,评价是否可以通过交叉矩阵进一步找好抓坏。

② 通过 LR 和主模型融合为新模型,并与老的主模型对比排序性,分析通过率/风险变化;最后计算相应成本,评估收益。

(4)监控和效果分析:数据漂移问题的定位和解决

引入三方数据经常会出现数据"漂移"问题,即离线时数据效果较好,但上线后变量分布发生明显变化,影响模型及策略效果。具体分析时先从数据入手定位问题:

① 首先确定外部数据是否整体偏移:一方面分析同数据源下同类型变量分布是否发生偏移,另一方面是分析不同数据源下同类型变量分布是否类似。如果是的话,说明该类数据都有偏移,很有可能客群在该类数据上已经不匹配了,此时需进一步分析客群是否变化。对于评分类变量,可以和稳定性强的基准模型分作对比。

② 其次分析客群是否变化:可以回顾相同时间点内外部政策是否存在导致客群变化的调整,也可结合客户基础属性变量的分布情况来看,如学历等。

定位到问题后,如果确定数据是有偏移的,则进一步通过策略和模型决策点变分布的变化,评估对业务的影响程度;对于偏移问题的解决,如果是数据源问题,需要先做容灾处理,再考虑作数据修复或替换;如果是客群变化引起的,则结合业务目标进行模型、策略、数据优化。

(5)监控和效果分析:数据评分 KS 衰减问题

KS 衰减问题是指评分类产品上线应用后,观测到 KS 较上线前有明显衰减。其可能原因有两种:

**① 观测样本变化导致的衰减。**上线前后的评估集已不一致,KS 不具备可比性。离线评估时所用的历史样本中逾期客户包括了一部分上线后被拒绝的客户,逾期客户量一般高于上线后的逾期客户量。该情况下需要结合策略决策点分析模型评分是否依然具有排序性,若分层稳定则模型依然可用,若排序能力下降时则需进行模型评分和应用策略升级;

② 客群变化导致的衰减,此时需要分析其他相关数据的 KS 和 IV 是否具有同样的趋势,同时分析客群属性变化情况确定客群的差异性。客群差异导致数据评分效果不足以支撑业务应用时,需要考虑升级策略和评分。


--

04/通过联合建模提升外部数据的最优效果


1. 为什么需要联合建模?

(1)一些优质数据源只能输出评分,效果并非最优,因为建模样本的差异直接影响到评分效果。

(2)实践表明,在各类型机构样本上通过联合建模相对标品评分 KS 显著提升,提升比例甚至可达 60%。

(3)市场上合规、稳定、可解释且区分能力强的数据源并不多。对于这类数据建议通过联合建模取得最优效果,特别是标品效果不及预期时。

2. 外部数据联合建模经常面临的挑战和解决方案

在实践中,由于监管合规、业务发展阶段和业务模式的影响,联合建模经常面临各种挑战,这里和大家交流几个典型的问题:

问题 1:合规原因不能输出 Y,如何联合建模?

问题 2 : 合规原因能输出的带 Y 样本少,如何建模?

问题 3:业务早期样本量少,如何联合建模?

问题 4:有多种资产渠道,多条业务线,是否需要分群建模、如何分群?

其中,问题 1~3 基本都属于样本量少或样本无 Y 的情况,这类问题往往在一些监管较严的机构或业务发展早期出现,可行的解决方案是迁移学习。问题 4 是分群建模问题。

3. 外部联合建模-迁移学习解决方案



(1)有 Y 的小样本场景的解决方案

① 当机构类型或客群分布较相近时,利用正负样本的条件分布信息来做样本迁移学习。核心思路是通过分别学习源域正负样本权重,减小源域和目标域的条件概率差异。具体实践过程中,通过 MMD 等算法找到相似客群,从而构造出一个类似于目标域的源域样本,再建模;

② 机构类型或者客群差距相对大时,利用样本的边缘分布信息来做样本迁移学习。核心思路是要先找到相似客群,然后学习整体样本权重,构造更相似目标域的源域样本。具体实践分为两步,第一步通过业务 lookalike 找到更近似的客群,第二步是通过 MMD 等相似度算法学习源域样本权重。

(2)无 Y 样本场景的解决方案

① 当机构类型或客群分布较相近时,利用正负样本的条件分布信息来做样本迁移学习。和有 Y 小样本场景不一样的地方在于,需要增加一层预测目标域样本好坏的过程,利用 EM 迭代的思路,不断找到源域样本更接近于目标样本的组合,从而提升迁移模型效果。

② 机构类型或者客群差距相对大时,利用样本的边缘分布信息来做样本迁移学习。核心思路与有 Y 小样本场景下的处理逻辑相同。

从实践效果来看,和使用标准产品评分的效果比,通过迁移学习建模基本可以相对提升 5%~21% 左右的 KS。

4. 分群建模解决方案

分群建模是精细化风控经营管理中不可或缺的一环。以风控为例作进一步探讨其核心思路:

(1)为什么要分群?

分群实际是模型管理与效果 ROI 之间的一种权衡考虑。

(2)分群主要参考 2 个逻辑

① Y 定义是否可拉齐:可以通过一些业务指标辅助客群差异的判断,如借助 Vintage 分析或者滚动率分析。当客群风险表现差异明显时,则需要通过分群建模来进一步优化风险表现。

② 单独建模收益显著,结合模型管理成本、业务管理成本来考虑是否需要分开建模。如客群样本在特征空间分布差异显著时,可以通过分群建模优化模型效果。

(3)一种分群的维度

在业务实操中,可以结合业务进展情况,从多个角度入手进行客群细分,达到精细化风控经营的目的。下面分享一种分群维度:

① 客群差异:客群差异往往会导致风险表现不同,如经营客群和消费客群;

② 渠道差异:渠道差异也是判断客群区别的一个主要维度,不同渠道资产很有可能对应的着不同的特征分布,其风险水平也有较大概率有所差异;

③ 数据薄厚:数据薄厚是产生特征分布不一致的直接原因之一,如贷前评估时的薄征信用户与厚征信用户的分布不同,又比如贷中时活跃用户与非活跃用户的行为数据也有差异。



(4)如何根据模型效果判断分群的必要性?

分群建模主要是一种业务权衡,因为分群建模带来风控效果提升的同时,也会带来模型管理迭代成本的提升。可以通过主模型和分群模型的对比评估确定分群建模的必要性。具体做法是可以把所有客群糅合在一起建一个基准模型,在各客群上分别打分,评估分布、分箱排序性;各客群也可以单独建模,去评估相应指标,并与基准模型打分结果对比。在此过程中,如果有些客群样本量少,则可以预先将相似客群合并建模。最终在模型效果差距不大的前提下,优先使用主模型,一方面可以节约后续模型迭代成本,另一方面相对于小样本渠道单独建模,主模型的稳定性可能更高一些。



今天的分享就到这里,谢谢大家。




本文地址:https://www.6aiq.com/article/1683886831466
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出