嗨,上周Facebook宣布了Fasttext,这是一种将单词分类到存储桶中的方法。潜在Dirichlet分配也是进行主题建模的另一种方法。我的问题是,是否有人在这两个方面对赞成和反对进行了任何比较?

我还没有尝试过Fasttext,但是根据我的经验,LDA的优缺点不多

专业版


迭代模型,支持Apache Spark
接收文档语料库并进行主题建模。
不仅找出文档在谈论什么,而且找出相关文档
Apache Spark社区不断为此做出贡献。之前他们使它现在可以在ml库的mllib上运行


骗局


停用词需要正确定义。它们必须与文档的上下文相关。例如:“文档”是一个出现频率很高的单词,可能在推荐主题的图表中位居首位,但可能不相关,因此我们需要为此更新停用词
有时分类可能无关紧要。在下面的示例中,很难推断出该存储桶在说什么


话题:


术语:学科
术语:学科
期限:笔记稳定
期限:获奖
术语:通路
术语:章可关闭
术语:元程序
术语:突破
术语:区别
术语:救援


如果有人在Fasttext中进行过研究,您可以更新您的学习内容吗?

最佳答案

fastText提供的不仅仅是主题建模,它还是使用浅层神经网络生成单词嵌入和文本分类的工具。
作者指出,其性能可与更为复杂的“深度学习”算法相媲美,但训练时间却大大减少。

优点:

=>训练自己的fastText模型非常容易,

$ ./fasttext skipgram -input data.txt -output model

只需提供您的输入和输出文件,要使用的体系结构,仅此而已,但是如果您希望稍微自定义模型,fastText也提供了更改超参数的选项。

=>在生成单词向量时,fastText考虑了称为字符n-gram的单词的子部分,因此,即使它们碰巧出现在不同的上下文中,相似的单词也具有相似的向量。例如,“监督”,“监督”和“监督”都被分配了相似的向量。

=>先前训练的模型可以用于计算词汇外单词的单词向量。这个是我的最爱。即使您的语料库的词汇量有限,您也可以为世界上几乎所有存在的单词获得一个向量。

=> fastText还提供了为段落或句子生成向量的选项。通过比较文档向量可以找到相似的文档。

=>还包括用于预测一段文本可能的标签的选项。

=>官方回购中提供了经过Wikipedia训练的约90种语言的预训练词向量。

缺点:

=>由于fastText是基于命令行的,因此在将其合并到项目中时我很费力,但这对其他人来说可能不是问题。

=>没有内置方法可以找到相似的单词或段落。

对于那些希望阅读更多内容的人,这里是官方研究论文的链接:

1)https://arxiv.org/pdf/1607.04606.pdf

2)https://arxiv.org/pdf/1607.01759.pdf

并链接到官方仓库:

https://github.com/facebookresearch/fastText

10-05 19:50