文本聚类的主题建模效率低下

本文介绍了文本聚类的主题建模效率低下的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我尝试使用LDA进行文本聚类，但是并没有给我独特的聚类.下面是我的代码

I tried doing text clustering using LDA, but it isn't giving me distinct clusters. Below is my code

#Import libraries
from gensim import corpora, models
import pandas as pd
from gensim.parsing.preprocessing import STOPWORDS
from itertools import chain

#stop words
stoplist = list(STOPWORDS)
new = ['education','certification','certificate','certified']
stoplist.extend(new)
stoplist.sort()

#read data
dat = pd.read_csv('D:\data_800k.csv',encoding='latin').Certi.tolist()
#remove stop words
texts = [[word for word in document.lower().split() if word not in stoplist] for document in dat]
#dictionary
dictionary = corpora.Dictionary(texts)
#corpus
corpus = [dictionary.doc2bow(text) for text in texts]
#train model
lda = models.LdaMulticore(corpus, id2word=dictionary, num_topics=25, workers=4,minimum_probability=0)
#print topics
lda.print_topics(num_topics=25, num_words=7)
#get corpus
lda_corpus = lda[corpus]
#calculate cutoff score
scores = list(chain(*[[score for topic_id,score in topic] \
                      for topic in [doc for doc in lda_corpus]]))


#threshold
threshold = sum(scores)/len(scores)
threshold
**0.039999999971137644**

#cluster1
cluster1 = [j for i,j in zip(lda_corpus,dat) if i[0][1] > threshold]

#cluster2
cluster2 = [j for i,j in zip(lda_corpus,dat) if i[1][1] > threshold]

问题是在cluster1中存在重叠的元素，这些元素通常出现在cluster2中，依此类推.

The problem is there are overlapping elements in cluster1, which tend to be present in cluster2 and so on.

我还尝试将阈值手动提高到0.5，但这给了我同样的问题

I also tried to increase threshold manually to 0.5, however it is giving me the same issue

聚类

文本聚类的主题建模效率低下

问题描述

推荐答案