我是否可以使用scikit-learn中的文字CountVectorizer
或TfidfVectorizer
参数从文本文档中保留!,?,“和'的标点符号?
最佳答案
实例化矢量化程序时,应自定义token_pattern
参数。例如:
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
关于python - 如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39254134/