我有一个包含数千条推文的csv文件。可以说数据如下:
Tweet_id hashtags_in_the_tweet
Tweet_1 [trump, clinton]
Tweet_2 [trump, sanders]
Tweet_3 [politics, news]
Tweet_4 [news, trump]
Tweet_5 [flower, day]
Tweet_6 [trump, impeach]
如您所见,数据包含tweet_id和每个tweet中的主题标签。我想要做的是转到所有行,最后给我类似值计数的内容:
Hashtag count
trump 4
news 2
clinton 1
sanders 1
politics 1
flower 1
obama 1
impeach 1
考虑到csv文件包含一百万行(一百万条推文),什么是最好的方法?
最佳答案
使用np.unique
v,c=np.unique(np.concatenate(df.hashtags_in_the_tweet.values),return_counts=True)
#pd.DataFrame({'Hashtag':v,'Count':c})
甚至问题看起来都不一样,但仍然与unnesting问题有关
unnesting(df,['hashtags_in_the_tweet'])['hashtags_in_the_tweet'].value_counts()