我有一些文本文件。我想使用NLTK以纯文本.text格式预处理和打印词汇表,以便可以分发这些文件供人们使用。我做了以下工作。我从获取单个文件开始:

file1 = open("path/to/text/file","rU")
raw = file1.read()
tokens = nltk.wordpunct_tokenize(raw)
words = [w.lower for w in tokens]
vocab = sorted(set(tokens))


现在我想将vocab中的项目列出为纯文本.txt
可读文件。我该怎么办?

最佳答案

手动将其写出:

with open("output.txt", "w") as f:
    for item in vocab:
        f.write(item + "\n")

关于python - 在python中创建词汇表,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9910124/

10-13 02:27