老实说,我对LDA不熟悉,但是必须对我的一个项目使用MALLET的主题建模。

我的问题是:给定特定时间戳记下的一组文档作为主题模型的训练数据,使用模型(使用推断者)来跟踪主题趋势,对于文档+或-训练数据的时间戳记是否合适。我的意思是,如果在模型构建阶段我们仅提供我需要分析的数据集的子集,那么MALLET提供的主题分布是否是一种适合的指标,可以随时间跟踪主题的受欢迎程度。

谢谢。

最佳答案

您对Latent Semantic Indexing感兴趣吗?潜在Dirichlet分析只是做相同事情的另一种方式,因此LSI或pLSI可能是您更容易获得有关LDA目标知识的起点。

这三种技术都以一种无监督的方式锁定主题(您告诉它要查找多少个主题),然后假定每个文档以不同的比例覆盖每个主题。根据您分配的主题数,它们的行为可能更像您的语料库所涉及的子字段,并且可能不如人们在思考新闻中的热门话题时所考虑的“主题”那么具体。

我以某种方式怀疑您要假设每个文档都代表一个特定的主题。 LSI / pLSI / LDA不这样做-他们将每个文档建模为主题的混合体。这并不意味着您不会获得良好的结果,也不值得尝试,但是我怀疑(尽管我不具备LSI文献的全面知识),您将解决一个全新的研究问题。

(FWIW,我怀疑使用k-Means之类的聚类方法更容易为每个文档都只有一个主题的假设建模。)

10-07 16:47