我有一个包含数千条推文的csv文件。可以说数据如下:

Tweet_id   hashtags_in_the_tweet

Tweet_1    [trump, clinton]
Tweet_2    [trump, sanders]
Tweet_3    [politics, news]
Tweet_4    [news, trump]
Tweet_5    [flower, day]
Tweet_6    [trump, impeach]


如您所见,数据包含tweet_id和每个tweet中的主题标签。我想要做的是转到所有行,最后给我类似值计数的内容:

Hashtag    count
trump      4
news       2
clinton    1
sanders    1
politics   1
flower     1
obama      1
impeach    1


考虑到csv文件包含一百万行(一百万条推文),什么是最好的方法?

最佳答案

使用np.unique

v,c=np.unique(np.concatenate(df.hashtags_in_the_tweet.values),return_counts=True)

#pd.DataFrame({'Hashtag':v,'Count':c})


甚至问题看起来都不一样,但仍然与unnesting问题有关

unnesting(df,['hashtags_in_the_tweet'])['hashtags_in_the_tweet'].value_counts()

10-08 15:29