当我想在我的程序中使用bloomfilter时,其中有一些误报率。我不知道如何为这些词创建一个whiltelist,这将是错误的判断?有人能给我指点一下吗?
最佳答案
如果可以限制可能对bloom筛选器进行的查询的空间,则可以在将条目散列到bloom筛选器后创建这样的列表。这个想法是,如果您提前知道所有可能的查询,并且该集合的大小相当小,那么您可以进行所有这些查询,并将所有误报的“是”答案与bloom过滤器一起保存,以便知道如何在运行期间避免它们。最近的一篇生物信息学文章就是这么做的:http://minia.genouest.org/files/minia.pdf。
当然,这取决于利用散列对象的某些属性在链接到的情况下,它知道条目是重叠的DNA k-mers,因此它们的扩展在每端只能有4个可能值中的一个。