本文介绍了检测在大型数据集的复制/类似的文本?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个大的数据库,与成千上万的记录。每当用户发布自己的信息,我需要知道是否已经有相同/相似的记录。是否有任何算法或开放源码实现来解决这个问题?

I have a large database with thousands records. Every time a user post his information I need to know if there is already the same/similar record. Are there any algorithms or open source implementations to solve this problem?

我们使用的是中国,什么类似的意思是记录最有相同的内容,可能是80%-100%是相同的。每个记录将不会太大,约2K-6K字节

We're using Chinese, and what 'similar' means is the records have most identical content, might be 80%-100% are the same. Each record will not be too big, about 2k-6k bytes

推荐答案

HTTP: //d3s.mff.cuni.cz/~holub/sw/shash/

http://matpalm.com/resemblance/simhash/

这篇关于检测在大型数据集的复制/类似的文本?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-19 06:02