图算法在阿里风控系统中的实践
导读: 本文将分享图算法在阿里电商风控系统中的实践。主要包括以下六个部分:
1.电商风控场景中的图算法介绍
2.交互内容风控的图算法
3.商品内容风控的图算法
4.动态异质图的风控实践
-
ICDM2022 比赛:大规模电商图上的风险商品检测
-
图算法落地方式总结和展望
分享嘉宾|李东 阿里巴巴 资深算法专家
编辑整理|罗佩 腾讯
出品社区|DataFun
01/电商风控场景中的图算法介绍
首先简单概述下阿里电商风险特点、图算法的应用历史与现状。
1. 阿里电商风险特点
阿里电商风险的主要特点:对抗性 & 排列组合式的复杂性。
风险一定存在对抗性,同时阿里电商的风险还具有排列组合的复杂性。做风险识别主要是用 X(数据)去预测 Y(风险):P(Y|X)。而在阿里电商 X 非常复杂,因为阿里电商是一个非常高维的经济生态:
① 多样的市场 -- 淘宝、闲鱼、天猫、1688、Lazada 等,不同市场的风险特点不一样;
② 多样的业务场景-- 账号,商品,促销等,且随着业务的迭代与创新会产生新的风险;
③ 多样的应用端 -- PC、H5、APP 等,每个端都需要做防控;
④ 多样的数据源,需要有能力处理和整合不同模态的数据。
同时 Y 也很复杂,主要体现在三方面,第一是风险种类很多,常见的内容风险、行为风险等只是众多风险中的沧海一粟;第二是这些风险是有关联的,比如卖家欺诈跟注册、被盗、商品内容都有关系;第三是风险会转移,当一类风险防得比较好了,作案成本高了,又转移到其他风险或者产生新的风险。
所以整个的风险防控非常复杂,具有排列组合式的复杂性。
2. 图算法的重要性
图算法可以提升风险识别模型的对抗能力。平台上大部分的"坏事"只是少数人干的,"坏人"有很多马甲,我们可以通过"关系"找出蛛丝马迹,提前识别和处置。比如下图中黄色的点,假设它是一个有异常行为的用户,仅凭他自身的行为很难判断他是一个欺诈用户,但是可以通过分析和他关联的其他三个欺诈用户(黑点)来确定他是一个欺诈用户。同时我们把这四个账户关联紧密的账户都找出来,发现是一个团伙,提前的批量处置这些账号,可以提升作恶的成本。
此外,异质图可以自然的全局融合各模态、各风险对象数据,计算出各个不同对象的表征,进而进行不同风险的识别,来应对排列组合式的复杂性
3. 图算法的历史与现状
基于图算法的重要性,阿里电商风控从 2013 年就使用图算法。
起初图算法被用来构建整个账号库的关系网络。这个关系数据是欺诈、账户安全、反作弊、假货等所有风险防控场景所需的基础数据,主要使用的数据有设备信息、手机号等媒介数据。它主要是刻画账户与账户之间的相关性、关系类型和群体识别等。目前已对该关系网络建立了从生产到应用的闭环反馈通道。
底层的关系数据非常多,整体的进行一次关系数据的汇总、清洗、图计算和存储,成本是很高的,而且后面还要保持不断的更新,所以构建关系网络的成本很高,但因为我们有很多风险的模型、策略依赖这个关系网络,所以还是很值得的。
而对于图神经网络,我们在 2016 年就开始探索应用,那时我们还叫 GGL(Geometric Graph Learning,几何图学习),当时还没有直接可用的图神经网络算法框架,所以我们用 C++ 实现了一个 GGL 算法框架。在 2018 年的时候转移到了阿里计算平台提供的 Graph learn 上,这个框架目前也是开源的,我们也在这个框架中贡献了一些图算法代码。
电商风控场景丰富,在图算法验证阶段选择合适的场景也尤为重要。风险场景中占比较大的行为风险"判断标准"不直观,在工业场景里行为风险白样本混杂着很多还未被发现的黑样本,当图算法将白样本判断为黑样本时很难判断是误召回还是增益召回,这会影响模型的调优和上线效果的判断。相反,内容安全场景,比如垃圾消息、辱骂,是一个有"直观判断标准"的场景,更适合验证图算法有效性。所以我们先在内容安全场景探索算法,验证有效和沉淀最佳实践后,铺开应用到行为风险场景。
目前为止,阿里电商各类风险业务都会用到图算法。整个图算法应用框架如下图,首先在底层维护一个关系数据层,汇集和清洗各类关系数据,便于上层的应用;在数据层之上,沉淀常用的图算法;再上一层利用关系数据层和算法层构建了账号关系网络,它横向支撑业务层的各类风险场景的防控;在最上层的业务层,结合具体风险的特点,我们利用这些图算法和关系数据构建图模型,识别各类业务风险。
接下来的分享将主要介绍"交互内容风险"、"商品禁限售"、"假货治理"这三类风险应用的一些图算法。
--
02/交互内容风控的图算法
阿里电商平台有丰富的交互内容场景,比如商品评价、评论、问大家,以及手淘逛逛、闲鱼社区等,下面以闲鱼留言垃圾广告的识别为例来介绍内容风控图算法。
在闲鱼 APP 里的商品留言里很容易出现"垃圾广告"这类的内容风险,比如兼职、刷单、卖减肥药等,且对抗性很强,比如上面截图里的"兄弟看看我",其真正的广告不在文字本身,而在该用户的首页。
闲鱼留言的垃圾广告识别是我们图神经网络算法第一个落地应用的场景,这个识别模型我们简称为 GAS。整个模型由一个异质图和一个同质图构成。异质图学习每个节点的局部表征,包含商品、留言和用户,同质图则是一个 comment graph 学习不同留言的全局表征,最后将这四个表征融合在一起进行二分类模型训练。
训练整体数据集包括留言有 3kw+,商品 2kw+, 用户 900w+,上线后相比原来的 MLP 模型识别多召回了 30% 的风险。此外,通过消融实验也证实,加入全局信息提升也很显著,这是由于垃圾广告本身的特点------需要大量转发才有较好的收益。这个工作最终整理并发表于 paper[1],获得了 CIKM2019 的 Best Applied Research Paper。
--
03/商品内容风控的图算法
这里主要介绍两类商品内容风控的图算法:一类是商品图结构学习,一类是商品图结构与专业知识图谱的融合。
商品风险管控主要是管控"禁限售"风险,很多种类的商品是国家法律法规规定不能售卖的,比如国家保护动植物、作弊造假、管制医疗器械等。
商品的管控很复杂,商品数据是多数据流、多通道、多模态的:
**① 多数据流:**标题、描述、主图、副图、详情图、SKU;
**② 多通道:**文字的音、形、意,图片的 RGB;
**③ 多模态:**文字、图片、元信息(价格、销量) 。
同时商品内容风险也是复杂多样且对抗激烈的,比如上图中看上去是卖串珠,但实际上是卖象牙。
商品内容风控图算法主要有两类 :一种是多模态融合的模型,用深度模型构建一个商品的神经网络,通过多模态的融合进行多任务的学习,这是商品局部信息的学习;另一种是为了提升对风险的召回,用异质图建立商品和商品、商品和卖家、卖家和卖家之间的关系,进行全局信息的融合学习。
1. 商品图的图结构学习
GCN 的本质是融合邻居特征的特征平滑,因此图神经网络的学习对图结构的质量有一定要求,好的网络图是稠密且同质率高的。然而,风险商品图稀疏且同质率比较低(0.15,对公开数据集统计发现 0.6 以上才比较好),所以我们必须对图结构进行学习。
商品图里面有三种边分别构成三种图,如下图右边框架图所示:一类是两个商品是同一卖家卖的同卖家图,第二类是两个商品被同消费者浏览过的同浏览图,第三类是两个商品的卖家有很强关联的关联卖家图。
商品图结构学习本质是加边和删边的过程:首先根据商品 embedding 用 KNN Graph 构建一个 KNN 图,之后将以上四类边和商品 embedding 一起放入 HGT 学习商品新 embedding 并对 attention 值较低的边作为噪声进行删除,新的商品 embedding 可以用来更新 KNN Graph,如此往返迭代直到 loss 收敛。在真实数据中的实践表明该图结构学习框架相比同质图/异质图,达到了 SOTA 的效果。
2. 图计算与风险知识图谱的融合
商品图算法的提升算法是图计算与风险知识图谱的融合。有些商品风险很难通过常识判断,需要结合一定的专业领域知识。所以针对这些具体的风险领域知识点构建了特定的知识图谱,以此来辅助模型识别和人工审核。
比如下图左侧显示的两个商品,直观看是卖简单的饰品,实际上是卖藏羚羊角,而藏羚羊是国家一级保护动物,它的相关产品是禁售的,我们通过该商品和藏羚羊相关知识进行匹配可识别出该商品风险。融合算法框架如下图右侧所示:模型目标是判断候选商品和风险知识点是否匹配。Item p 是商品图文表征,Risk-Point R 是知识点表征,通过实体识别、实体链接和关系抽取等得到商品和该知识点的子图,再用 GNN 计算子图的表征 ,最后用该表征进行风险的分类识别。其中,CPR 是商品表征和知识点表征的融合,它主要用来指导图表征学习一些全局信息。实践表明,相比商品多模态识别,加入风险知识图谱对长尾风险的召回提升 10 个点以上。
在此基础上,我们还尝试引入了全局商品图。当商品内容直接关联知识图谱也不能识别风险时,可以进一步引入商品和商品之间的关联辅助判断,比如下图中某个标有"幼崽也有"的商品和"红腹松鼠"知识没有强匹配关系,但这个商品同卖家的另一个商品"红腹"和"红腹松鼠"知识匹配,因此可推理该商品实际上卖的是红腹松鼠(二级保护动物,禁售)。实践表明,做知识推理时引入整个大的商品图能再提高长尾风险召回 3% 以上。
--
04/动态异质图的风控实践
前面介绍的图算法主要还是静态图的挖掘应用,但是很多的风险场景存在动态图的风险模式。
比如售假商家先注册,再批量发布大量商品,炒作吸引流量,然后快速进行售假,在这一系列动作中时间维度的图结构变化对我们的风险识别很重要,因此动态图也是图算法探索与应用的重点方向。
动态图最大的挑战是如何设计和搜索到好的图结构。一方面,动态图在原有的异质图基础上引入了时间维度,比如有 30 个时刻,那么动态图的参数(信息量)是异质图的 30 倍,这给学习带来很大压力;另一方面,由于风险的对抗性,动态图需要有较强的鲁棒性。
1. 动态图自动学习
据此,我们提出了基于 Attention 的动态 GNN + AutoML,在限定一定参数空间下,选择最好的模型结构(DHGAS)。该模型的核心是通过自动学习对模型结构寻优,如下图所示:首选将动态图分解成不同时刻的异质图,并对不同时刻和不同节点设置不同的函数空间来表示商品表征的变化空间 (N*T 种,N:节点种类;T:时间空间),对不同时刻和不同边类型也设置不同的函数空间来表示信息传播的路径空间(R*T 种,R:边种类;T:时间空间),最后节点和邻居聚合的时候有 R*T*T 种聚合的方式(两个 T 分别是边两端节点的时间戳。
显然整个搜索空间庞大,我们尝试限定参数空间,借助自动机器学习技术构建 supernet,让模型自动搜索到最优网络架构。具体做法:限制 N*T 的函数空间数目为 K_N,R*T 函数空间数据为 K_R,R*T*T 的模长为 K_Lo,比如 N=6,T=30,理论有 N*T=180 个函数空间,实际限制到 K_N=10。
该算法当前已落地到"假货卖家识别","商品禁限售的恶意商家识别"等场景,且和业界主流算法对比都得到了 SOTA 的结果,具体可以查阅论文[2]。
2. 动态图鲁棒学习
由于风险的对抗性,动态图需要有较强的鲁棒性,其本质是希望动态图能学到一些本质的 pattern,比如下图中示例子图的本质 pattern 是冰激凌销量上升是由于天气变热了,而不是溺水人数增加。
我们希望鲁棒性学习解决电商风控动态图的一些分布偏移问题:
(1)特征偏移:比如如果过度依赖历史违规信息这类特征,对新注册的问题会员召回会不佳;
(2)结构偏移:比如过度依赖垃圾广告会员的度密集子结构,会把很活跃的正常会员误召回;
(3)时间偏移:恶意用户随着防控会发生明显的行为变异。
对此,我们提出了一个算法 DIDA,核心思想如下图所示:在学习动态图时学习两个 pattern------橙色代表的本质 pattern 和绿色代表的非本质 pattern,仅用本质 pattern 的 loss(L)+ 非本质 patterns 组合的 loss 方差(Ldo)作为模型最终学习的 loss。非本质 patterns 组合的 loss 方差(Ldo)的设计思想是:假设图中绿色的 a3 是非本质的 pattern,那么把这个绿色的 a3 换成其他非本质 patterns 如 b3、c3 等应该对模型的 loss(判别能力)影响不大。因此我们可以将非本质 patterns 的 loss 方差加入模型学习,最终预测阶段则只用本质 pattern 来进行分类。目前该算法已经落地到商品内容风控场景中,也整理出 paper[3]。
--
05/ICDM2022 比赛:大规模电商图上的风险商品检测
"ICDM2022 比赛:大规模电商图上的风险商品检测"是我们今年主办的算法比赛,提供的数据是真实场景的脱敏数据。最终从提交的技术代码和报告中也收获了一些启发:
(1)自监督预训练对于效果提升有比较大帮助,但是需要选择合适的自监督任务;
(2)GNN 结合标签传播可以带来显著提升 ,在之前的图算法应用中由于担心标签泄露而丢弃了该部分数据,但在真实数据中实践后发现并不明显。猜测原因是现在的图形网络只是做到了信息融合,还没做到推理或者推理能力较弱;
(3)解耦深度和层数有普遍提升, 可以传播一次的同时聚合好几次。
--
06/图算法落地方式总结和展望
结合我们的经验,总结了以下图算法落地方式:
(1)图算法框架/平台:应该有个图算法框架沉淀技术和最佳实践,提升技术的复用性。
(2) 半自动化建模:为了提高建模的效率,在数据层面我们最好对底层的关系媒介数据做个清洗和汇总,在建模层面可以提供一些组件(MetaPath/MetaGraph 选择组件,图采样组件,向量检索组件等)提高建模效率。
(3)自动化调用:可以自动化调用只依赖输入样本的图算法或图模型,不需要了解图模型,方便其他不熟悉图算法的风险控制同学进行模型优化使用,比如团伙识别,商品回捞,风险用户回捞等。
(4) 生产(自监督)图表征:作为单独的模态输入到模型中使用,不影响原来的建模方式,大幅提升图的应用场景。
后续工作展望:
(1)大规模的图自监督表征学习。我们有上千个风险模型,其中还有很多没应用上图算法,因此我们下一步是做大规模的图自监督表征,以扩大图特征的应用范围,帮助提升业务效果。该工作存在工程和算法上的双重挑战:首先是工程上,我们至少有数十亿节点和数百亿的边供大规模学习,其次是算法上,图表征不仅要能覆盖常用的关系表征,还要学到更高阶的图的结构的特征,具有很强的通用性,能应用到各个场景。
(2)在具体的风控场景中探索实现图的推理能力,目前图算法更多的还是知识的融合,推理能力比较薄弱,无法应对风险的高对抗性。从客观上我们需要我们的模型具备很强的智能 所以图的推理能力很重要。目前拟依靠闲鱼社区的丰富交互场景和内容来进行算法的探索。
(3)在动态异质图的频域研究、可解释性方面有更多探索落地。频域研究的目的是在动态图中学到更多的图结构变化的细节。可解释则帮助我们了解算法是否真正学到了本质的特征,一方面帮助我们完善算法,另一方面也可以更好的提供给业务同学进行应用落地。
以上探索方向我们也在寻求学术合作,特别是图推理方向。同时,我们现在也在招聘图算法的同学,有兴趣的同学可以联系我。
--
07/Reference
-
Spam Review Detection with Graph Convolutional Networks. CIKM2019 Best Applied Research Paper.
-
Dynamic Heterogeneous Graph Attention Neural Architecture Search. AAAI2023.
-
Dynamic Graph Neural Networks Under Spatio-Temporal Distribution Shift. NeurIPS2022.
--
08/问答环节
Q1:风控场景的图表征有什么特殊的挑战,相比其他领域的图表征?
A1:三个最主要的挑战:首先图结构比较差,同质率较低;其次是图的鲁棒性问题,在我们的场景里面特别是动态图,它的分布漂移还是很严重的,还有另外一个问题黑样本的风险浓度很低,并不是说 1:10 或者 1:20 之类的,在我们的图算法里面有些风险的浓度是 1:1w+ 以上的,所以我们的样本是极度极度不均衡的,这也是我们需要去解决的。
Q2:图联邦学习目前算法模型如何,行业是否有比较成熟的解决方案?你们对图联邦学习有没有一些应用和一些考虑?
A2:我们现在主要还是用在我们电商场景里面 ,当然我们还有一些非电商业务,不过这些数据都是我们自己的数据我们还是可以直接使用进行风控的,所以现在还没有用到联邦学习 ,但是图联邦学习后面还是有必要用的,因为现在为了信息安全都在做数据切割和隔离,不同域的数据是不能打通来使用的,所以后面图联邦学习后面应该会成为我们一个探索应用方向。
今天的分享就到这里,谢谢大家。
▌2023亚马逊云科技中国峰会
2023年6月27-28日9:00-17:00,2023亚马逊云科技中国峰会将在上海世博中心举办。
本次峰会将会分享数百个技术话题与最佳实践,覆盖汽车、制造、金融、医疗与生命科学、电商、游戏、泛娱乐、电信、教育、数字化营销等领域。
下面给大家预告一些精彩议题报名参会,请点击"下方链接":
2023年亚马逊云科技中国峰会 - 因构建_而可见
|---------------------|-------------------------------|
| 大数据方向议题 | 算法方向议题 |
| 下一代"智能湖仓"架构演进 | 玩转Stable Diffusion模型的微调与提示词工程 |
| 数据合规与云上安全架构构建实践 | 智能搜索技术在金融行业的应用 |
| 敏捷数据分析架构详解 | 基于开源LLM模型如何快速构建类ChatGPT应用? |
| 云原生数据库最佳实践 | 大语言模型(LLM)驱动的AIGC应用架构解密 |
| 智慧医疗: 本地化与全球化精选案例合集 | 生成式AI在游戏行业的应用 |
| 技术人员如何抓住风口获取成功? | AIGC在互联网行业与传统行业的应用与创新案例 |