计算句子之间的相似度

计算句子之间的相似度

我有一个包含数千行错误日志及其描述的数据库,这个错误日志是针对一个24/7运行的应用程序的。我想创建一个仪表板/ui来查看生产支持当前发生的常见错误。
我遇到的问题是,即使有很多常见的错误,错误描述也会因代码转换ID或用户ID或对该sigle prcoess来说是唯一的东西而有所不同。
例如,用户233的错误传输xyz失败
例2用户567的错误传输xyz失败
我认为这两个错误是一样的。所以我想要一个程序,将通过新的错误日志,并将它们分类为组。我试着使用“编辑距离”,但速度很慢,因为我总是有旧的错误日志,所以我也试着考虑使用这些信息的解决方案。有什么想法吗?

最佳答案

我假设错误消息是由一个程序生成的,所以它们可能属于非常特定的模式。
这意味着你不必做任何特别复杂的事情。只需解析错误消息:使用正则表达式(或者更强大的函数)将消息分成元组。然后对各个字段进行分组、计数或执行某些操作。例如,您可以为用户([0-9]*)执行类似于“Error transaction([a-Z]*)failed”的正则表达式然后,您可以制作错误代码(第一个捕获组)或用户(第二个捕获组)的直方图。

关于algorithm - 计算句子之间的相似度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4540622/

10-11 19:04