我有一个熊猫数据框,其中包含100万条推文的详细信息,包括推文本身和其他各种属性。我正在尝试从推文中提取主题标签列表。重要的是该列表仍与每个推文相关联,而不是所有推文中的主题标签列表。
我拥有的推文数量意味着运行将需要数小时/天。正如我已经尝试过的那样,除了在熊猫数据框上使用迭代之外,还有其他选择吗?
def extracthash(x):
for index, row in tweets_scored.iterrows():
tweets_scored.loc[:,"Hashtags"]= tweets_scored.text.str.find(r'#.*?(?=\s|$)')
return tweets_scored
tweets_scored.apply(extracthash, axis=1)
这就是我的目标,如果我在数据框中仅获取少量行的子集,则代码可以正常工作。
text hashtag list
I like #cheese and #flour [#cheese, #flour]
He eats #bread [#bread]
任何帮助,由衷的感谢!谢谢
最佳答案
我在类似情况(推特上的NLP)中使用此小循环来提取推特的主题标签和at引用。快速而简单:
import re
tHash = []
tAt = []
for item in tweets:
if re.search('^@.*', item):
tAt.append(item)
if re.search('^#.*', item):
tHash.append(item)
关于python - 使用正则表达式从推文中提取主题标签的更快方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54491737/