给定一个标准的LDA模型,该模型具有1000个主题和数百万个文档,并通过Mallet /折叠的Gibbs采样器进行了训练:

推断新文档时:为什么不跳过采样而仅使用模型的术语-主题计数来确定新文档的主题分配?我了解在新文档上应用Gibbs采样是在考虑新文档的主题混合,这反过来又会影响主题的构成方式(β,词频分布)。但是,由于在推断新文档时主题保持固定,因此我不明白为什么这应该相关。

采样的问题是概率性质-有时会记录推断出的主题分配,在重复调用时会大不相同。因此,我想了解抽样的理论和实践价值,而不是仅仅使用确定性方法。

谢谢本

最佳答案

仅使用最后一个Gibbs样本的术语主题计数不是一个好主意。这种方法没有考虑主题结构:如果文档中有一个主题包含多个单词,则该主题中可能包含更多单词[1]。

例如,说两个单词在两个主题中具有相等的概率。给定文档中第一个单词的主题分配会影响另一个单词的主题概率:另一个单词更可能与第一个单词在同一主题中。关系也以其他方式起作用。这种情况的复杂性就是为什么我们使用Gibbs采样之类的方法来估计此类问题的值。

至于您对主题分配变化的评论,这是无济于事的,而且可以视为一件好事:如果单词的主题分配有所变化,您将不能依靠它。您所看到的是该词在主题上的后验分布没有明确的获胜者,因此您应该进行一些特殊的作业:)

[1]假设beta是文档主题分布的先验,它会鼓励稀疏性,这通常是主题模型通常选择的稀疏性。

关于sampling - LDA:为什么要抽样以推断出新文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34741850/

10-12 23:18