有没有一种方法可以使用Python过滤仅英语文本的已处理数据集?也许有一些NLTK功能或类似功能。数据是从Twitter提取的,其格式如下:
<tweetid>, <username>, <userid> &8888 <tweet text>
流过滤不合适,因为我只有上面显示的格式的初始数据。
任何帮助将不胜感激,谢谢。
最佳答案
您需要的是语言检测模块。
from textblob import TextBlob
textBlob('your tweet').detect_language()