虽然我不确定从哪里开始,但我仍在努力完成一些事情。
我现在有一个MySql数据库,里面有一个文章列表数据库包含文章标题、内容和一些其他信息,如日期等。
有一个rss订阅源,我们可以监控新文章,它是一个google alert订阅源,只包含某些主题的最新新闻。我希望能够自动监控这个feed,并记录任何feed条目,这些条目与我们数据库中当前的故事相似。
我知道如何将脚本设置为自动运行,并且知道如何使用simplepi解析RSS提要。
我需要弄清楚的是,如何获取rss提要项的描述,对我们的db运行一个检查,看看提要项是否与我们在db中拥有的内容相似,并返回某种类型的数值分数,类似于“相似性评级”之类的。
在那之后,如果“相似性等级”超过了一个设定的限制,我可以把我需要的信息记录到数据库中,我知道该怎么做。
所以我唯一的问题是如何将每个feed项与我们当前的文章进行比较,并根据其相似程度返回一个分数。

最佳答案

Levenshtein函数(可用于PHP和MySQL)是处理这个问题的好方法它基本上是根据将一个字符串转换为另一个字符串所需的置换(替换、移动等)的数量来计算一个值。这个分数就是你的“相似性评分”。
编辑:levenshtein函数在mysql中本机不可用,但是可以使用它的sql实现,例如:http://kristiannissen.wordpress.com/2010/07/08/mysql-levenshtein/

关于php - 使用PHP在RSS feed中查找“相似”文章,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9970777/

10-13 06:40