主动学习以及样本不均衡在图数据场景的探索
导读本次分享为图数据场景上的主动学习以及样本不均衡方面的一些探索,主要围绕风控场景里的一些相关的问题进行介绍。
今天的介绍会围绕下面四点展开:
-
问题背景
-
图数据上的语义感知的主动学习
-
不均衡图上的节点标注问题探索
-
结论
分享嘉宾|周敏 华为 高级研究员
编辑整理|刘素辉
出品社区|DataFun
01问题背景
首先和大家简单介绍一下图问题的背景。
图这种数据形式在我们的生活中无处不在。从宇宙的角度来看,太阳、地球和月亮之间的关系可以被建模成一个图;从生物的角度来看,微观级别的分子之间的相互关系也可以被视作一种微观的图关系;在日常生活场景中,已经有许多探索分析是基于社交网络的图数据进行的;而在风控场景中,用户交易网络实际上也可以被建模成一个图结构的数据,从而进行相关的分析。
接下来将对风控场景下的图问题进行介绍。近年来,关于如何利用图数据进行分析和建模以控制风险的问题引起了广泛关注,其中一个重要的应用领域是欺诈检测。许多情况下,我们可以将欺诈检测建模成一个图的问题。在这个图中,涵盖了各种各样的节点和相互之间的关系。举例而言,我们可以探究黑产是否会通过某些链路向其他用户发送欺诈信息,这就涉及到链路预测的问题。此外,正如之前提到的,黑产往往是一个群体的行为。因此,我们的分析也需要考虑群体异常检测,以便识别出这些异常行为,这可以被视为一种社区检测,即识别出在整个网络中相互关联的群体。另一个关键领域是用户风险分析。在这方面,我们关心的问题是如何确定某个特定用户是否存在风险。这可以被视为对图中节点进行分类的任务,我们需要判断每个节点是否属于"风险用户"的类别。
现在我们进一步审视一下。在近几年里,图神经网络已被广泛应用于风险控制领域的多个问题中,并且取得了显著的成效。然而,我们也必须认识到,这个方法仍然存在两个极其重要的问题:
- 样本标签的获取相当具有挑战性。这一点可以理解,因为我们大多数时候只能观察到普通正常用户的行为,他们出于合法需求注册并使用平台。然而,那些从事不正当行为的用户,比如那些试图滥用系统的薅羊毛用户,在总体用户中所占比例较小。因此,我们能够获得的有关这些少数不良用户的标签相对较少。这种标签的稀缺性也导致了另一个问题。
- 样本不均衡。由于不良用户的数量较少,这就造成了不同类别之间样本数量的不平衡。这种情况会进一步影响模型的训练和性能。标签获取困难以及样本不均衡问题都会影响模型的效果和稳健性。
接下来,将专注于这两个问题展开分享和探讨。
02图数据上的语义感知的主动学习
在数据样本稀缺的情况下,我们应该如何应对呢?在深度学习和机器学习领域,我们都了解样本的重要性。如果我们能够为大多数样本提供准确的标签信息,就能够更好地学习到分类的决策边界。这将使得对新用户进行分类变得更加容易,我们可以轻松地确定他们应该归入红色类别还是紫色类别。然而,当数据样本本身的标签非常有限时,情况就会变得复杂。在这种情况下,我们可能会陷入困境。因此,标签信息的可用性至关重要。但是,标签的获取却面临两个主要问题:
- 标签获取通常具有挑战性,这是由于其难以获取。
- 标签获取也可能非常昂贵。在风控数据等领域,情况并不像在计算机视觉领域那样普遍。虽然大多数人都可以成为计算机视觉数据的标注员,但是在我们的问题中,数据的标注与业务场景紧密相关。这就导致了数据反馈和收集的周期较长,以及成本较高的问题。
因此,如何利用策略来更快、更好地缩短数据标注的流程,无论是时间还是数量,成为了一个备受关注的焦点。正是在这种背景下,主动学习的概念应运而生。主动学习旨在通过一些策略来更有效地选择需要标注的样本,从而加速学习过程,降低标注成本,这是我们接下来将深入探讨的内容。
现在我们来探讨一下主动学习的思路。既然我们需要进行一部分数据标注,那么我们肯定希望这些标注能够提供更多有价值的信息。因此,主动学习着眼于如何对未标注的数据进行巧妙的区分和排序,精选出对模型训练最有价值的未标注数据,从而训练出高效准确的模型。这样的策略可以让我们在有限的标注资源下,充分发挥数据的信息价值。一种常见的做法是将这些选取出的重要的样本推荐给专家进行标注。
在图像领域中,我们经常会遇到所谓的 valuable samples。通常情况下,我们会使用 uncertainty 这个概念来衡量这些有价值样本。换句话说:"我是否需要更多的信息来更好地判断这个样本是处于边界附近,还是距离边界较远?" 这就引出了我们所称的 the hardest samples 或者 informative examples 的概念。在图像领域这种数据独立同分布的情况下,每张图片之间都被认为是相互独立的。因此,我们通常会选择那些难度较大、不确定性最高的样本作为有价值样本。这样做的目的是为了更好地捕捉样本的边界情况,从而更有效地训练我们的模型。
然而,图数据的情况比较特殊。因为图中的每个节点并不是孤立的,它们之间通过边相互连接以传递信息。不同类别之间也会存在边缘的连接信息。因此,在这个背景下,业界的研究员和工程师们开始思考,如何在图数据上应用主动学习。这个问题可以分成两种方法:
- 我们在选择样本时,不仅会利用模型对样本进行分类并选择不确定性最高的样本,还会考虑图结构本身的特性。例如,我们会关注节点的度以及中心性等。这些信息与图的结构紧密相关,会指导我们制定具体的算法。这种方法的一个重点在于,在提高不确定性的同时,也要考虑选取代表性样本,以增强主动学习在图数据上的效果。
- 借鉴社交网络或图分析中的关键节点发现的思想。举个例子,我们要思考哪些节点的信息传播对整个图的影响最大,还要考虑信息的多样性,通过引入多样性来增强模型的稳健性。
然而,我们也注意到了一个问题,即使一个节点具有较高的信息传播能力,由于图神经网络通常会对信息进行聚合和平滑处理,两个不同类别的节点属性可能存在差异。因此,简单地根据信息传播的影响来选择样本可能会导致语义混淆。考虑到这一点,我们提出了一个名为"语义感知的图主动学习"的解决方案,以应对这种挑战。
Mitigating Semantic Confusion from Hostile Neighborhood for Graph Active Learning
我们采用了一种通用的主动学习方法,在这个过程中,涵盖了几个关键步骤:
- 我们首先需要获得一些用户以及他们之间的关联关系。利用图神经网络(例如GNN、GCN)来学习他们的一些基本嵌入信息。基于这些嵌入信息,我们能够计算节点的影响力。节点的影响力表示的是在整个图中节点自身的信息变化如何影响到其他节点信息的一种衡量。
- 此外,我们还希望结合节点的语义信息对其进行修正。我们的目标是,尽管节点可能在结构上具有较大的影响力,但这种影响力应仅体现在与其同类的节点上。通过这些步骤,我们得到了一种正向的影响力衡量方式。利用这个衡量方法,我们可以选择那些对相同类型的节点产生更大影响的一组数据样本。随后,在对这些数据样本进行标注时,我们可以基于其影响力进行有针对性的标注工作。
在上述基础之上,还有一点需要考虑,就是在机器学习中样本的选择。我们希望选取的样本在整个数据中分布在不同的中心位置,以增加更多的不确定性,从而提升模型的稳健性。通常情况下,人们会尝试通过聚类或计算样本间的相似性来实现这一点。然而,这些方法的效率可能较低。在此背景下,我们借鉴了"prototype"这一概念。对于选取出的节点样本,我们计算它们的中心,即计算可直接获得的中心点。然后,我们对每个样本计算其与这些中心点之间的距离,通过这种方式,我们能够快速计算样本与中心的相似性。我们希望选择那些距离特定类型中心更远的样本,因为这意味着这些样本可能具有更多的信息量。这样的选择方式不仅增加了样本的不确定性,还提升了模型的稳健性。综合起来,我们将影响力和不确定性作为评价的指标,计算出分数,从而得到最终的样本集合。这些样本集合会被推荐给标注专家进行进一步标注。标注专家将针对这些样本进行不断的标注工作,并将反馈信息回馈到模型中。通过几轮的迭代,我们可以逐步达到预期的效果。以上就是在图数据上应用主动学习的整体流程。
我们也在多个不同类型的公开数据集以及我们华为自身金融场景中的交易数据上进行了一些研究探索。从实验结果来看,我们发现整体效果相较于现有的 SOTA 方法(如基于随机选择或节点度量,以及基于不确定性熵的方法等)要更为显著。在这些实验中,我们的方法在效果提升方面表现出明显的优势。
通过融合语义信息并采用基于 prototype 多样性的方法,我们的效果得到了明显提升。与其他 baseline 模型相比,我们的方法在效果上表现出相对优势,并且在效率方面也表现出色。仅利用少量的标注样本,我们就能够实现更高水平的实际效果。以上我们介绍了在图数据中应用主动学习,特别是在样本不足的情况下,探索了借助如何更有效的选择样本并借助专家标注的方式来提升学习效果。
03不均衡图上的节点标注问题探索
正如前面所提到的,在风险控制领域,数据的标注相对不足的情况下,例如针对黑产用户、薅羊毛用户等,这些正样本数量本身就非常有限。因此,样本分布呈现出明显的不均衡。针对这样的样本不均衡问题,我们可以探究以下几个方面。
- 我们可以考虑采取一些样本平衡的策略。比如,对于数量较少的类型样本进行过采样,对于数量较多的样本进行降采样,以实现两类样本的相对平衡。
- 我们还可以在损失函数中进行优化,对不同类型的样本赋予不同的权重。对于样本数量较少的类型,可以赋予较大的权重,以期在模型学习过程中更加关注这些样本。
这些方法在处理数据不均衡问题时都具有实际效果,但在图数据上的拓展则相对复杂。如何在图数据上处理样本不均衡问题并不是一件容易的事情。
从2021年开始,针对样本不均衡问题,人们开始尝试各种方法。在采样方面,有一个经典的方法叫做 SMOTE,即通过函数对少样本数据进行合成。在图数据中,需要考虑节点属性信息以及边的连接方式。节点属性信息相对较易合成,但在连接节点时需要思考哪些节点应该与新合成的节点相连。这一问题具有重要意义。在这方面,GraphSMOTE 提供了一个有趣的技术。尽管在实际尝试时,该方案的计算复杂度相对较高,但它为解决这一问题提供了有价值的尝试和思路,值得借鉴。GraphSMOTE 的方法包括以下几个关键步骤。首先,我们需要生成节点属性。这可以通过获取原始数据并通过一层或两层的图模型(如 GNN )得到不同节点的嵌入来实现。然后,在新的样本空间中,我们可以进行节点属性的合成。在合成属性后,接下来的问题是如何确定边的连接方式。前面提到过,节点的连接关系可以看作是链接预测的问题。因此,我们可以在模型中将链接预测作为一项额外的任务,将其融合进模型中。具体做法是随机地选择一些现有节点,并判断新合成的节点与哪些节点连接会对整个模型训练更有效。因此,GraphSMOTE 的核心思想是将连接预测作为一个额外的任务,并将其纳入模型中。最终的损失函数设计包括两部分,一部分用于改进节点分类效果,另一部分用于确保合成节点的边连接更加准确。通过这种方式,既能提升节点分类准确性,又能更准确地表示节点属性。
还有一些新的研究工作涉及如何根据图的特性来进行采样,因为在某些情况下,图的结构并不适合进行降采样或过采样。在这方面,例如 Renode 和 TAM 这两项研究,它们从节点的结构信息出发,根据分类边界上的距离以及节点的拓扑信息,设计了如何选择样本的方法。然而,需要指出的是,这些工作主要是基于现有的机器学习方法,结合了图的节点特性,进而调整用于处理样本不均衡问题的策略。
然而,在我们进一步探究样本分类和节点分类问题时,除了处理样本不均衡的问题外,还存在一类情况:其中一部分节点已经被标注,但大多数节点仍然未标注。这并非典型的样本不均衡问题,而是纯粹的信息不完整问题。因此,我们的出发点非常简单,我们是否可以采用某种方式为它们打上标签呢?例如:把那些可能性很大是正样本(少数类样本)的节点,我们直接将它们添加到模型中进行训练。这种思路与自监督学习非常相似。然而,如果直接将现有的自监督学习方法应用于图问题,实际上会遇到许多问题。特别是在初始阶段,标注样本数量有限,样本不均衡问题非常严重,因此模型效果可能会严重下降。基于这一观察和发现,我们开始考虑是否可以通过利用图数据本身的特性来提升相应的方法。
因此,我们提出了一个名为"双通道信息对齐"的机制,以选择更具信息价值的节点。在具体实践中,对于一个新的图数据,我们旨在通过一个简单的 GNN 模型进行预训练,从而获得不同节点的嵌入表示。通过这些嵌入表示,我们可以同时进行两种任务:
- 分类任务:预测节点所属的类型;
- 聚类任务:获得节点应当归属于的簇。
我们利用这两个信息来进行信息的对齐。换句话说,在预测节点任务中,当模型对某节点的类型预测更加 confident 时,我们认为该节点的信息更加可靠。同时,在聚类的角度来看,如果节点距离聚类中心更近,我们也将其视为更加可靠。因此,我们选择了在几何和置信度两方面都较高的节点作为备选节点,从而解决了初始信息不足和样本不均衡问题,提高了样本选择的可靠性。同时,值得注意的是,对于那些存在于两个不同社区之间的节点,其信息的不确定性较大。因此,将这些节点引入模型可能会对其产生影响。因此,我们还需要考虑节点的中心性。对于某个节点,我们不仅要考虑其在当前社区中的距离,还要考虑其与其他潜在社区的距离。我们希望选择那些距离自身中心较近,同时与其他中心较远的节点。这些节点被视为更具确定性,从而可以作为可信的标签用于辅助模型训练。通过这种方式,我们在不改变图结构的情况下,实现了对少数样本的良好扩增,从而有效解决了样本不均衡问题。
04结论
我们对不同场景的数据进行了一些实验和分析。例如,我们运用在诸如 Cora 和 Citeseer 等数据集上,通过一些综合的方法来调整样本比例进行了金融分析。在我们的实验中,我们发现这种方法在不同的不均衡比例场景下都表现出色。尽管文章中只提及了少数实验,但实际上,我们进行了大量的实验,证明了通过不同的信息对齐策略,能够有效解决未标注数据不均衡的节点分类问题,并取得了良好的效果。
另外对于样本不均衡问题,一方面,我们进行了自身的样本采样,以调整不均衡的比例。另一方面,我们也在一些已有的公开数据集中处理了类别不均衡的情况,例如,我们在 Computer-Random 数据集中遇到了1:25的样本不均衡比例。我们观察到,我们的方法在这些情况下同样也表现出色。同时,类似TAM这样的方法也是一个可行的选择,它可以作为一个插件加入到损失函数中,通过根据分类边界的边缘来调整样本权重。这样的方法可以与其他策略如 Renode 和 GraphEns 相结合。再有,我们也对比了 Re-weight 方法,它在计算机视觉领域被广泛使用,提供了一个简单但 strong 的 baseline 。以上就是我们在风险控制场景中对于样本不均衡问题所做的一系列探索和调研的工作。
以上就是本次分享的内容,谢谢大家。