我正在计划一个应用程序,该应用程序将基于主题组成一堆短消息/推文。主题的数量将受到限制,例如体育[NBA,NFL,板球,足球],娱乐[电影,音乐]等。
我可以想到两种方法
优点:-设计简单。减少代码复杂度。
缺点:-用户的选择将受到限制。
群集将不是动态的。如果发生新事件,则预定义标签将丢失该事件。
优点:-基于事件/事故流行的动态聚类。
缺点:-增加了复杂性。需要更多服务器资源。
我想知道是否还有其他方法可以解决这个问题。还是有什么方法可以改善上述方法?
还建议一些好的聚类算法。我认为“K最近聚类”算法很适合这种情况。
最佳答案
使用Bayesian classification。用一些预定义的语料对过滤器进行训练,并(可选)为用户提供一种通过标记不正确分类的内容来进一步优化过滤器的方法。
这是在examples中使用贝叶斯分类器的一些NLTK。
关于cluster-analysis - 如何根据主题对短消息[Tweets]进行聚类? [基于主题的聚类],我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2930958/