我一直在研究如何找到解决这个问题的有效方法。我研究了diffing引擎(google的diff匹配补丁,python的diff)和一些最长的常用链算法。
我希望能得到你们解决这个问题的建议。你有什么特别的算法或库要推荐吗?
谢谢。
最佳答案
我不知道“最长的共同点是什么?子字符串?]]与“百分比差异”有关,特别是在看到一条注释后,您希望中间相差一个字符的两个字符串之间有非常小的百分比差异(因此它们最长的公共子字符串大约是字符串长度的一半)。
忽略“最长公共”的奇异性,并将“百分比差异”定义为字符串之间的编辑距离除以最大长度(当然是100倍;-),那么:
def levenshtein_distance(first, second):
"""Find the Levenshtein distance between two strings."""
if len(first) > len(second):
first, second = second, first
if len(second) == 0:
return len(first)
first_length = len(first) + 1
second_length = len(second) + 1
distance_matrix = [[0] * second_length for x in range(first_length)]
for i in range(first_length):
distance_matrix[i][0] = i
for j in range(second_length):
distance_matrix[0][j]=j
for i in xrange(1, first_length):
for j in range(1, second_length):
deletion = distance_matrix[i-1][j] + 1
insertion = distance_matrix[i][j-1] + 1
substitution = distance_matrix[i-1][j-1]
if first[i-1] != second[j-1]:
substitution += 1
distance_matrix[i][j] = min(insertion, deletion, substitution)
return distance_matrix[first_length-1][second_length-1]
def percent_diff(first, second):
return 100*levenshtein_distance(a, b) / float(max(len(a), len(b)))
a = "the quick brown fox"
b = "the quick vrown fox"
print '%.2f' % percent_diff(a, b)
levenshtein函数来自Stavros' blog。这种情况下的结果是5.26(百分比差异)。
关于python - 计算两个文本块之间的百分比差异的算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3106994/