中原银行实时风控体系建设实践
摘要 :本文整理自中原银行数据平台中心开发工程师陈玉强在 Flink Forward Asia 2021 行业实践专场的演讲。
01 建设体系
银行是经营风险的企业,对风险进行识别、衡量、定价和防范的能力是银行核心竞争力。中原银行构建了面向反欺诈、信用风险、运营风险的业务全流程风控体系。
银行业务的申请、交易、营销等环节都可能存在欺诈行为,随着技术发展,在欺诈行为团伙化、隐蔽化、专业化、实时化情况下进行反欺诈难度越来越大。同时,随着业务种类增多,传统的专家规则评分卡模型难以应付复杂的风控场景,需要借助大数据、实时计算、机器学习、知识图谱等高新技术打造高质量的授信能力。此外,是否能够及时发现和化解业务运营风险,包括流程风险、员工异常行为、资产及负债流动性风险也面临较大挑战。
传统技术应对这些挑战时难以实时获取用户多渠道的操作行为,难以达到全方位、实时化的防控效果。传统风控体系普遍基于专家规则进行测算,存在规则触发阈值难以控制、吸收低饱和噪音数据难度大等特点,很难通过累计规则数量来提升精准度。此外,传统系统间相对孤立、数据流通难度大、数据孤岛的情况导致了专家规则制定和模型训练难度大,不利于整体风控效果。
新的风控体系首先实现了实时化,通过流计算、内存计算等技术提高数据处理的时效性,做到了及时识别跨系统的风险行为,并通过云原生、资源弹性等技术提高系统的高并发能力。在提升硬实力的同时更注重智能化,将基于概率的机器学习模型与专家规则结合,充分释放大数据价值,避免专家规则经验盲区。此外,通过打造平台化的产品,形成不同场景的快速支撑能力和完善的风控体系。
近三年我们经历了对实时计算的探索、尝试和平台化建设,并将实时计算技术应用至反欺诈、事件驱动、实时 OLAP 等多种场景,2021 年底任务数量和日均处理数据量都提升数倍。在风控方面,经历了从引入国外决策系统到自研决策平台的转变,2021 年自研决策平台已经开始承接新需求和部分国外决策系统迁移而来的规则模型。
智能风控体系能力模型可以总结为:
- 风险特征识别及计算实时化;
- 融合专家规则与机器学习模型通过复杂编排提供智能化的决策能力;
- 通过平台化屏蔽技术细节,给用户提供友好的使用体验;
- 在风控体系中通过标准化来制定规范、构建数据标准和开放数据能力;
- 并通过构建 ModelOps 管理体系实现风险模型从需求到投产的全生命周期管理;
- 此外,通过低代码、可视化的方式有助于降低使用门槛。
02 选型 & 架构
在本体系架构中,Flink 主要用于数据清洗、实时维表加工与关联以及窗口计算等场景,通过预计算、内存计算、聚合计算实现基础指标、衍生指标、复合指标的加工,为决策模型提供特征支持。模型编排专注于编排决策集、评分卡、决策树、决策表等丰富和易用规则模型,同时在规则中可以调用指标服务、算法模型服务共同参与逻辑运算。
风控体系基于云原生架构和开源技术实现,支持报文、接口、多种类型数据库。通过数据源、维表、参数配置界面化,并支持用户用 Flink SQL 编写业务逻辑,极大程度降低了实时计算的使用门槛。通过可视化编排 (DAG) 将规则/模型/指标引擎的计算能力进行组合以支撑风控决策。此外还有一些特色功能,如 SQL 评分、网关分流等。
实时指标可以用于专家规则,实时特征可以供在线 (online) 模型训练。机器学习平台使用离线 (offline) 数据进行模型训练和模型推理,同时结合规则筛选出来的风险数据,基于离线数据进行有监督和无监督的算法训练。
03 应用场景
反欺诈是交易的重要环节,通常会基于黑白名单、知识图谱、司法、税务、工商等内外部数据对交易数据打宽,打宽后的数据用于专家规则和机器学习模型。交易发起系统会根据智策平台的决策结果对交易放行或加强验证。风险结果数据可作为样本,用于图数据进行关联挖掘或特征分析,或者用于有监督学习。
技术实现方面,针对交易请求,智策平台会根据 DAG 编排逻辑来调用不同的计算引擎,并返回计算结果。同时,实时计算平台会使用交易系统数据库的变化数据计算交易/行为等实时指标。此外,历史数据会被抽取到离线数仓和数据湖中,供下游的机器学习平台使用。
对授信狭义且简单的理解就是金融机构向客户提供资金的行为。智策平台通过评分卡、决策集等方式承载了贷前阶段 50 余个场景,日均接收授信请求约 3 万笔;对于以批量数据处理为主的贷中、贷后环节,日均处理数据 1300 万条。
授信场景较交易反欺诈场景在技术架构明显的差异在于它需要外部数据支持。智策平台将关联了内外部数据的交易变量进行专家规则运算、机器学习模型推理。授信场景暂时没有使用实时指标。
员工行为、信贷管理、舆情分析都在运营风险的范畴内,将冲正行为、机具管理等场景数据加工成离线运营风险指标,将高敏感行为数据加工为实时指标,通过智策平台对两类指标进行规则、模型运算而得出预警结果,进而形成风险核查事件、名单等。结果数据也会作为风险特征样本来训练算法和挖掘风险。
运营风险的技术架构比较直观,每天将历史业务数据同步到数据仓库,在数仓中完成风险指标的加工,同时离线数据也会被用于模型训练。智策平台每天定时对离线指标进行规则运算,并将风险预警结果推送给下游运营系统。
04 建设成效
业务成效方面,反欺诈系统对接了 14 个渠道,105 类场景,在传统反欺诈技术上引入流计算实现实时反欺诈,助力管控了 1 万多高危账户,协助阻断转出资金超千万元,实现了全年线上交易零欺诈损失。授信方面,支撑了全周期的信贷场景,包括额度评估、风险定价、贷后预警等 50 多个场景,每天处理进件 3 万余笔。每天批量处理运营指标数据 30 余万,同时通过 Flink 每天实时处理员工行为数据约 3000 万条,具备实时发现内部的高风险行为的能力。
技术成效方面,智策平台每天接收业务交易请求 5 万余笔,响应时间约 8 毫秒 (最新数据)。规则和模型编排场景响应时间小于 3 秒,每天处理批量数据约 1800 万条。实时计算平台日均处理数据 2.7TB,较年初增长了 5 倍。在平台化基础上,本体系具备灵活编排专家规则和机器学习模型的能力,每天调用机器学习模型服务超过 2 万次。