Closed. This question needs to be more focused。它当前不接受答案。












想改善这个问题吗?更新问题,使其仅关注editing this post的一个问题。

6年前关闭。



Improve this question




我是Bloom过滤器概念的新手。请让我知道您对此的想法。我有3种类别。每个类型包含数十亿个类别。
  • 我是否需要3个Bloom筛选器对象,或者有什么方法可以管理对象中的所有类别类型?
  • 我正在使用Apache hadoop Bloom过滤器实现,即org.apache.hadoop.util.bloom.Filter。还有什么比这更好的实现了吗?
  • 处理十亿条记录的理想位数组大小应该是多少?
  • 最佳答案

  • 我是否需要3个Bloom筛选器对象:是,取决于您想做什么(您没有对此进行描述)。
  • 还有其他实现吗:当然可以!尝试使用Google
  • 理想的位数组大小:取决于您要执行的操作。尝试阅读Wikipedia article about Bloom filters。有一些计算概率的公式。
  • 10-08 04:14