在研究k-最小值(kvm)方法时,我在关于kmv方法的博客中找到了以下段落:
注意,如果两个kmv对象的大小不同,因为k是
不同的大小,或者因为其中一个没有完全用K最小值填充,所以应该使用K的较小值作为联合集K大小。
还有
要执行并集,只需绘制两个草图并合并它们的值,并保持k最小值(如果这两个草图的大小不同,k和k',则保持最小值(k,k')以保持最低分辨率)。
然后,如果我试图使用大K(为了更好的准确性,例如2048),那么如果我查看多个KMV对象(例如,数据库中的表,报告internet门户的唯一用户),甚至其中一个对象的不同值小于K(即K'),那么我将不得不在最后的联合中使用较小的K'值而不是大K,我可能会以非常小的K结束我是否可以忽略这样一个事实:每次组合最小值数据集时,k'

最佳答案

为了使KMV草图工作,您需要k最小值如果并集的某个分支没有k值开头,则仍然可以采用并集并截断为k。只有截断为k时,才必须将组合的草图截断为k。
事实上,你可以使用更多的样本来提高准确性请参见https://arxiv.org/abs/0903.0625*,这表明仅丢弃最小丢弃样本(可能根本不是什么)就足够了,从而获得稍好的精确度。
*利用丢弃的样本更精确地估计多个集合聚集。伊迪丝·科恩,海姆·卡普兰。

关于algorithm - KMV算法中不同大小的多个K最小值集的并集,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50690541/

10-15 01:17