本文介绍了查找最大的连接组件AWS海王星的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

在一个有数十亿个节点和边的AWS海王星图中,如何有效地找到最大的连通组件?我之所以试图找到这个问题的答案,是因为在我的域中,通常大的连接组件表明存在欺诈。我的图表中的大多数节点只像其他几十个节点一样连接。当节点连接到数百或数千个其他节点时,这是可疑的。

我有几个问题:

  1. AWS海王星是否适合在包含数十亿个节点和边的图中查找大型连接组件?
  2. 计算图表的PageRank是否会更有效率?我认为,高PageRank也同样意味着欺诈。如果是这样,我该如何计算PageRank?
  3. 什么架构和算法可以找到最大的连通组件?
  4. 我不仅仅是在试图发现过去发生的欺诈行为,我也在试图实时识别欺诈行为。在接收数据时,实时识别欺诈性节点的好方法是什么?我认为在这里使用海王星Streams和在节点上执行DFS来获取整个连接组件是合适的。
  5. 最终,几年后,当我识别出足够多的欺诈行为时,我想我可以做一些有监督的机器学习。我不确定这会有什么好处,因为大多数大型连接组件都是欺诈性的。它在识别更难区分的案例方面可能更好?
  6. 与Connected Components和PageRank类似,在我的案例中,是否还有其他我应该查看的可能指示欺诈的图形属性?我知道这可能很难回答,因为我还没有显示我的域。

如有任何帮助,不胜感激!

推荐答案

连通分量查找查询可以用gremlin表示,但这些查询是否有效将取决于图的复杂程度。我将从Gremlin Recipes文档开始。

您将在那里找到讨论的几种算法。

在非常大的范围内,您可能希望从图表中导出数据并运行Spark作业(或类似作业)以查找诈骗团伙等。

这篇关于查找最大的连接组件AWS海王星的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

11-03 09:35