nlp - 关于潜在狄利克雷分配(MALLET)的问题

老实说，我对LDA不熟悉，但是必须对我的一个项目使用MALLET的主题建模。

我的问题是：给定特定时间戳记下的一组文档作为主题模型的训练数据，使用模型（使用推断者）来跟踪主题趋势，对于文档+或-训练数据的时间戳记是否合适。我的意思是，如果在模型构建阶段我们仅提供我需要分析的数据集的子集，那么MALLET提供的主题分布是否是一种适合的指标，可以随时间跟踪主题的受欢迎程度。

谢谢。

最佳答案

您对Latent Semantic Indexing感兴趣吗？潜在Dirichlet分析只是做相同事情的另一种方式，因此LSI或pLSI可能是您更容易获得有关LDA目标知识的起点。

这三种技术都以一种无监督的方式锁定主题（您告诉它要查找多少个主题），然后假定每个文档以不同的比例覆盖每个主题。根据您分配的主题数，它们的行为可能更像您的语料库所涉及的子字段，并且可能不如人们在思考新闻中的热门话题时所考虑的“主题”那么具体。

我以某种方式怀疑您要假设每个文档都代表一个特定的主题。 LSI / pLSI / LDA不这样做-他们将每个文档建模为主题的混合体。这并不意味着您不会获得良好的结果，也不值得尝试，但是我怀疑（尽管我不具备LSI文献的全面知识），您将解决一个全新的研究问题。

（FWIW，我怀疑使用k-Means之类的聚类方法更容易为每个文档都只有一个主题的假设建模。）