我试图找到一种算法来检查两个数据项之间的相似性假设我有两个数据结构(联系人列表中的字段)包含以下数据:
// UserA addressbook.
name: Frank Sinatra
mobile: +44 555 555 555 55
// UserB addressbook.
name: Frank Albert Sinatra
phone: 004455555555555
我从不同的提供商那里得到了这些条目,
UserA
同步了他的google帐户,而UserB
同步了他的microsoft帐户,但是我希望我的算法告诉我,两个用户认识同一个人(在某种可能性内)。有人知道我应该去哪里调查吗我试图找到创建“不安全”散列的散列算法,即为相似数据创建相似的散列,但这种方法没有效果。
最佳答案
字符串的相似性可以用Levenshtein distance来确定。字符串应在测试前准备好(如删除特殊字符或拆分字符串)。
对于数据结构,请查看How do you measure similarity between 2 series of data?