有没有一种方法可以使用Python过滤仅英语文本的已处理数据集?也许有一些NLTK功能或类似功能。数据是从Twitter提取的,其格式如下:

<tweetid>, <username>, <userid> &8888 <tweet text>


流过滤不合适,因为我只有上面显示的格式的初始数据。
任何帮助将不胜感激,谢谢。

最佳答案

您需要的是语言检测模块。

from textblob import TextBlob
textBlob('your tweet').detect_language()

09-11 17:57
查看更多