关联图谱在转转风控的实践

国产专家 · 发表于 2024-9-19 20:04:29

1背景1-1引言2关联图谱介绍2-1关联图谱的定义2-2关联图谱和图论的关系3关联图谱架构3-1关联方案3-2关系存储3-3关联架构3-4关联降噪3-5关联扩召4关联图谱应用4-1关联特征挖掘4-2关联染色4-3运营后台展示4-4关联数据分析4-5关联监控5总结1.背景1-1.引言转转上大多数“坏事”是少部分人做的，这一小部分人(黑产)为了控制成本，重复利用已有资源进行欺诈、薅羊毛、洗钱等违规行为。黑产的资源和行为会成聚集性，因此，关联在团伙识别上发挥着重要的作用，能使单一维度的用户识别升级成对团伙的对抗，对于风险控制是非常有效的手段。2.关联图谱介绍2-1.关联图谱的定义在常规的风险识别场景中，往往关注的是单一节点的属性。其实，在这背后还有另一类非常有效的信息——关联信息。比如，用户A的注册手机号是M；用户B的注册手机号也是M；那么，用户A和用户B则通过注册手机号M相互关联，M就是用户A和用户B的关联因子。如果将用户A、用户B、关联因子M这些结构型的信息用图表示出来，就构成了我们所说的关联图谱。2-2.关联图谱和图论的关系关联图谱的理论基础是图论。图论是数学的一个分支，它以图为研究对象，图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。图论本身有很多分支，如几何图论、组合图论、算法图论、随机图论、代数图论等。通常我们说的图论是组合图论，而在人工智能的领域里代数图论也有很重要的应用。2-3.图论2-3-1.顶点和边顶点表示某个事物或对象，如下图中的用户A、用户B、用户C。边表示事物和事物的关系，如下图中的关联因子a、关联因子b、关联因子c。图一2-3-2.有向图和无向图无向图：节点之间的边不存在方向。如下图：有向图：节点之间的边存在方向。如下图：图二2-3-3.同构图和异构图异构图：可以存在多种节点和边。如下图，可以存在多种节点(用户、手机号、设备)。图三同构图：只存在一种节点和边。如下图，只存在一种节点(用户节点)。图四2-3-4.邻接矩阵和邻接表邻接矩阵和邻接表是图的两种表现形式。图五邻接矩阵用一个一维数组存储顶点的信息和二维数组来边的信息上图的邻接矩阵表示：ABCDEFA001001B001101C110010D010010E001100F110000邻接表数组（顶点集）+链表（边集）的形式无向图的邻接表：图六2-3-5.路径和最短路径路径：从图中一个顶点到另一个顶点所经过的长度叫做路径。其中，长度最小的路径叫做最短路径。最短路径问题主要包括两个方面：单源最短路径：给定顶点到其它所有顶点的最短路径问题。多源最短路径：每对顶点之间的最短路径问题。一般求图中路径的方法最通用的就是广度优先遍历算法和深度优先遍历算法。求最短路径常用算法有很多，比如Dijkstra算法、Floyd算法。在此就不展开讲啦～2-3-6.连通图和连通分量在无向图G中，如果从顶点v到顶点w有路径存在，则称v和w是连通的。如果图G中任意两个顶点v和m都是连通的（即任意两个顶点连通），则称G是连通图（ConnectedGraph）。无向图中的极大连通子图称为连通分量。注意连通分量的概念，它强调：要是子图；子图要是连通的；连通子图含有极大顶点数；具有极大顶点数的连通子图包含依附于这些顶点的所有边。图七上图的图a是一个无向非连通图。但是它有两个连通分量，即图b和图c；而图d尽管是图a的子图，但它却不满足连通子图的极大顶点数；因此它不是图a无向图的连通分量。3.关联图谱架构3-1.关联方案3-1-1.同构图vs异构图上面图论基础中介绍过，同构图只存在一种行为/关系，而异构图存在多种行为和关系。只存储用户和关联因子的情况下：同构图异构图存储成本低高图的大小小大计算复杂度低高所以，同构图既符合应用场景，又能最小代价的解决问题。3-1-2.图——>树将图五中错综复杂的关系以用户A为树的根节点，F、C为第二层树节点，以此类推，将图五表示成树的形式，这种树型的形式对于线上单一用户的关联比较容易理解。如下图图八3-2.关系存储如下图所示，有一组这样的关联数据，该怎么存储呢？图九3-2-1.MySQL设备表：用户uid设备信息时间用户A设备at1用户B设备dt2用户C设备at3用户C设备bt4用户C设备ft5用户D设备ft6用户D设备ct7用户F设备bt8用户G设备ct9手机号表:用户uid手机号信息时间用户A手机号at1用户A手机号bt2用户B手机号at3用户B手机号ct4用户D手机号bt5为啥关联因子要分开存储？这是具体的业务形态决定的，各个关联因子分散在不同的业务中。3-2-2.Redis图十redis存储的是key-set结构，这样就可以快速定位到对应的用户(或者关联因子)关联的数据(类似于前面介绍的邻接表)。3-2-3.图数据库图数据库虽然对图计算和图查询有很好的支持，但是会有一些弊端（如neo4j缺少集群和横向扩展的能力)。并且集群运维也需要专门的人力去覆盖，暂时来说还不做考虑。3-3.关联架构3-3-1.关联结构图十一3-3-2.关联架构图图十二3-4.关联降噪随着关联因子纬度的增多，并非每个关联因子都能绝对准确的刻画两个用户之间的关系。有些弱关联会造成关联误伤，为了提高准确性，需要将弱关联因子降噪。3-4-1.关联增加限定条件关联因子存在过期时间，因子长时间未活跃的，设置无效关联。排除无效关联因子，比如说：手机号11111111111。弱关联因子组合使用，组合次数越多，准确越高。3-4-2.排除异常关联部分某一个关联因子关联用户太多，这种就需要考虑因子的准确性问题。3-4-3.设置关联上限设置关联上限，一是保证接口的时效性；二是防止关联过多带来的误伤太大。3-4-4.设置关联层级层级越深，召回越大，关联误伤越多；在实际业务场景中，需要根据业务权衡召回和准确。3-5.关联扩召3-5-1.弱关联因子比如说，同一个ip、同一个地址等等。弱关联也可通过降噪使用增加召回。3-5-2.行为相似关联团伙在进行操作的时候基本上都会统一操作，脚本程序自动化操作，所以行为存在很大的相似性，增加行为相似的关联也能扩大关联的召回。4.关联图谱应用4-1.关联特征挖掘我们可以根据关系挖掘出许多特征。比如，团伙用户的中心性相关的特征。中心性(centrality)体现了节点在关联中的重要程度，衡量指标主要包括度中心性(Degreecentrality)、紧密中心性(Closenesscentrality)、中介中心性(Betweennesscentrality)、特征向量中心性(eigenvectorcentrality)等。简单介绍下度中心性(Degreecentrality):度中心性定义为节点上度的数目，是关联图谱中中心度量方式。一个节点如果与很多其他节点发生直接联系，那么这个节点就处于中心地位。通过这个我们就可以挖掘一些最直接的特征，比如：用户下关联因子的数量、关联因子关联的用户数量等等。还有许多其他的相关的特征，在此不一一列出。4-2.关联染色4-2-1.关联染色定制化关联因子层级可配，关联因子可配置关联因子和关联层级针对具体的业务配置，根据业务场景的准确性进行后续的处置(直接处罚，降级处罚，人工审核等)。4-2-2.主动染色4-2-2-1.策略(运营人员)识别染色图十三4-2-2-2.场景行为关联染色图十四如上图流程，用户A在平台内进行登录行为的时候；当前请求中含有用户的唯一编码、设备信息等。此时，以用户A为树中的一个点经过设备(关联因子1)去发散，发散的层级根据具体的业务场景去决策。如果在发散的过程中，发现与之关联的账户是黑产账户，用户A就会染成黑色账户或者灰色账户，为后续用户风险识别提供决策依据。注意:如果确定要将用户A染色，务必记录染色的源头账户以及关联染色的关系链，为后续分析提供证据。比如：用户A->B->F->G，发现F和G都是黑产账户，可以将A账户染色，B账户染色。记录A、B账户的源头账户是F的源头账户(F账户可能也是关联染色的账户，因此此处记录的是最终的源头)。4-2-3.染色解除图十五如果发现黑产账户误染，解除当前账户的时候要查看当前账户是源头染色还是非源头染色；如果是源头染色，确认无误后，解除此源头下所有的染色用户；如果是非源头染色，首先要确认此账户源头染色账户是否有问题，如果属于误染，解除团伙所有的染色。如果不属于误染，再确认下当前账户是否有问题，如果属于关联因子准确性导致的误染，需要解除当前账户染色以及因为当前账户关联的染色，再将当前账户的关联因子清除(防止关联因子再次误伤)；还可以把当前账户孤立，就不会再次误伤了；账户孤立的弊端就是此账户不会再在团伙中出现。4-3.运营后台展示4-3-1.关联账户信息图十六4-3-2.用户之间的关联路径由于关联数据存储和关联层级配置，选择的是广度优先遍历算法。如图十七：用户S和用户E的关联路径图十七4-4.关联数据分析4-4-1.用户关联表1用户uid关联因子auid1关联因子1uid2关联因子2............uidn关联因子nhive表关联，一个join表操作就能将关联数据输出:select distinct zzt2.用户uid as 用户A, zzt3.用户uid as touid As 用户B, zzt1.关联因子a as 关联因子from (select 关联因子a from 表1 group by 关联因子a having count(1)>=2 ) zzt1JOIN(select 用户uid,关联因子a from 表1 ) zzt2 ON zzt1.关联因子a=zzt2.关联因子aJOIN(select 用户uid,关联因子a from 表1) zzt3ON zzt1.关联因子a=zzt3.关联因子a当然，实际工程中要比这个复杂，关联因子的数据要经过多次的预处理。4-4-2.关联分组通过Graphx的connectedComponents求图中的连通图，选取连通图中的一个id作为组id，这个是为了方便数据分析用。上面连通图已经介绍过了，此处不再次介绍。4-5.关联监控4-5-1.大团伙监控团伙数量大于n的团伙定时check。关联账户数量太多，属于很不正常的特征。需要定时review大账户的用户行为，进行染色或者重点监控。4-5-2.关联占比监控团伙用户(关联账户>2)的占比，数据波动应该稳定在一定的范围之内；否则，要引起重视。4-5-3.团伙请求qps占比这个指标需要实时监控，如果指标突然占比增多，大概率有团伙在作案，需要根据行为重点跟踪。5.总结关联图谱是一种非常有效的风控基础能力，关联强度的定义要和业务逻辑融合；关联因子的强弱选择和具体的业务场景是相辅相成的，关联图谱的准确和召回也跟具体的业务场景有莫大的联系；因此，要从实际的业务场景出发，选择适合自己业务的关联能力。作者介绍:刘冬冬，转转资深研发，多年风控研发经验，主要负责风控架构，涉及策略引擎、关联图谱等风控核心能力。想了解更多转转公司的业务实践，欢迎点击关注下方公众号：

		自动登录	找回密码
密码			会员注册