11月 10 日下午15:00 第九期《关联网络技术在业务安全中的应用》正式开讲。顶象数据科学家翼龙详尽的介绍了关联网络在反团伙欺诈中的作用,深度剖析了关联网络的技术框架、关联网络的图谱构建以及关联网络的复杂算法,为反团伙欺诈提供了重要的参考。
直播过程中也吸引了不少粉丝前来围观,就关联网络的技术难点提出了自己的疑问。现将部分问题整理出来,供大家参考。
Q1:关联网络的可解释性怎么样?
翼龙:可解释性是一个很大的话题。我们说可解释性的时候,往往指的是模型的可解释性。可解释性的含义是模型在给出预测结果同时给出决策的依据,以及决策的过程是否透明。
在常见的机器学习算法中,决策树、评分卡(线性模型)具有良好的可解释性;而神经网络则是一个黑盒,可解释性较差。
在一些业务场景,特别是金融、保险相关的,由于合规要求和风控要求,对模型的可解释性要求较高,所以在这类业务场景中倾向于使用决策树、评分卡等可解释性较高的模型。
一般来说,关联网络技术的可解释性较好,体现在:
1.复杂网络算法通常有明确的计算过程,例如标签传播算法、PageRank等,有明确的计算公式,然后不断地迭代;
2.可以通过关联指标(拓扑结构、社区指标等)对风险预测的结果提供证据支撑;
3.可以通过图谱展示工具进行查询、探索,验证结果。
基于关联网络的解决方案中往往还会将模型和关联网络技术结合(例如信用卡养卡套现的反欺诈方案),为了满足可解释性,往往也会使用树模型等。
Q2:最后是以机器学习平台来演示关联网络的技术方案的,那么顶象有自己单独的关联网络平台吗?
翼龙:曾经有,现在和机器学习平台合并了。有两个出发点:
1.关联网络的解决方案中往往会同时使用到图算法和机器学习算法(例如信用卡养卡套现的反欺诈方案),为了便于数据的共享,在一个平台中实现更为便捷。
2.要实际落地解决业务问题,基于关联网络的解决方案就不仅仅是算法问题,而是工程化的问题,需要将复杂的流程自动化运行。机器学习平台提供了“调度任务”的功能,能很便捷地解决工程化落地的问题。
其实关联网络也好,模型也好,甚至是统计报表,都可以视为是数据的应用。只要是数据应用,都需要平台工具提供对数据同步、数据存储、数据管理、数据加工、数据展示、数据输出到下游业务系统等功能的支持。正因为需要很多通用的功能,所以才有必要合并。顶象的机器学习平台不仅是一个建模平台,更是一个数据调度中心。
Q3:如何更好掌握关联网络?有什么好的学习途径吗?
翼龙:首先,关联网络技术其实覆盖了很多内容,其中主要涉及到图谱的构建和复杂网络算
法的应用,所以可以重点学习一下知识图谱相关和图数据挖掘的相关内容。直播中也提到,斯坦福大学的《图机器学习》是很不错的教程,值得深入学习。
其次,关联网络技术是解决具体业务问题的解决方案,因此建议多了解相关的案例,并学会举一反三,针对一个业务问题的解决思路往往可以应用到别的场景中去。本次直播中分享了三个基于关联网络的解决方案,可以说是干货满满,希望大家多总结、多思考。
Q4:关联网络技术有什么局限性?
翼龙:我认为有两点:
1、效率问题
当网络中节点和边比较多的时候,不管是构建图谱还是运用图算法,都非常耗时。
2、实时性
也正是因为效率问题,通常以离线T-1的方式构建图谱,意思是线上使用的图谱,是由昨天及昨天之前的数据构建而成的,无法做到实时更新图谱。
弥补方式:风控策略中需要用到的风险关联性指标通过流计算直接得到。
Q5:信用卡养卡套现的案例中,在使用标签传播算法之前,为何采用卡与POS机的二部图,而不进一步抽象为只有卡的同构网络?
翼龙:在二部图中使用标签传播算法时,可以理解为拆分成了计算卡和计算POS机的风险概率两部分交替进行(即风险只能从卡传播到POS机或从POS机到卡)。
实际情况是卡的数量远远多于POS机的数量,如果利用隐含关系直接从二部图中抽取卡的同构网络,边的数目会远远多于点的数目,会大大提高计算的复杂度。
在直播的案例分享中,我们还介绍了一个变体,就是通过时序关系构建卡的时序关联网络,其本质就是简化了上述卡的同构网络。
Q6:超级节点如何处理?
翼龙:首先判断这个超级节点是否是具有特殊业务属性的,评估该节点的风险程度。比如在交易网络中,可能存在支付宝之类的中间平台,它们就是超级节点,有非常多的交易与之相关。在信息有限的情况下,简单的处理方式就是从网络中去掉这个节点。如果有额外的信息,比如知道一笔交易关联了支付宝上的哪家商户,那么就可以把商户加入到网络中来,取代那个超级节点。
Q7:超级节点跟普通节点之间过度比较平滑,怎么处理那种又像超级节点,又像个中介节点的呢?
翼龙:具体可能还得结合业务和场景去分析。以下思路仅供参考:
1、核心问题是这个节点的边太多了,那就看有没有一些不重要的边可以剔除。
2、在做分割的时候,先把这个节点和边去掉,在分割后的子图中,看这个节点跟哪个子图联系更紧密。如果存在多个联系紧密的子图,就在这些子图中都添加这个节点。
Q8:子图分割有什么好的依据?
翼龙:这个问题和解释性有关。可以用模块度等的指标来证明分割后的子图的聚集性高。子图分割如果是指社区发现的话,其实在运用算法之前会删除一些关系比较弱的边;社区发现之后,也会进一步计算一些社区的拓扑结构和业务相关的指标,来表明社区的风险程度。可解释性不仅体现在存在决策的依据,也体现在决策的过程,只要过程是明确的、透明的,就有一定的可解释性。
最后再给大家简单介绍下顶象业务安全大讲堂。
顶象业务安全大讲堂汇集了业内大咖,分享万亿级业务安全攻防经验,打造时下最专业的业务安全直播课,通过“技术+方案+实践”三大核心专题,带您全面了解金融、互联网、航旅出行、跨境电商以及目前大热的NFT等各类业务风险及防范手段,深入解析背后的产品技术,抽丝剥茧攻防实战,助您打造零风险的数字业务。
下期将由顶象人工智能专家&研发总监无常带来主题为《业务安全平台核心模块解析——智能模型平台》,敬请期待!