我正在计划一个应用程序,该应用程序将基于主题组成一堆短消息/推文。主题的数量将受到限制,例如体育[NBA,NFL,板球,足球],娱乐[电影,音乐]等。

我可以想到两种方法

  • 要求用户像Stackoverflow一样标记问题。用户可以从预定义的标签列表中选择标签。然后在服务器端,我将基于标签对它们进行聚类。
    优点:-设计简单。减少代码复杂度。
    缺点:-用户的选择将受到限制。
    群集将不是动态的。如果发生新事件,则预定义标签将丢失该事件。
  • 接收消息,删除停用词[在字典中预定义],对词干消息应用一些聚类算法以构成一个聚类,并根据其受欢迎程度显示该聚类。集群将一直显示到它保持流行的时间为止[许多消息/分钟]。新消息将被浏览并分配给相应的集群。
    优点:-基于事件/事故流行的动态聚类。
    缺点:-增加了复杂性。需要更多服务器资源。

  • 我想知道是否还有其他方法可以解决这个问题。还是有什么方法可以改善上述方法?

    还建议一些好的聚类算法。我认为“K最近聚类”算法很适合这种情况。

    最佳答案

    使用Bayesian classification。用一些预定义的语料对过滤器进行训练,并(可选)为用户提供一种通过标记不正确分类的内容来进一步优化过滤器的方法。

    这是在examples中使用贝叶斯分类器的一些NLTK

    关于cluster-analysis - 如何根据主题对短消息[Tweets]进行聚类? [基于主题的聚类],我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2930958/

    10-13 00:03