我有一个包含公司名称的列表,其中一些缩写。例如:
compNames = ['Costa Limited', 'D B M LTD']
我需要使用以下内容将文本的compNames转换为令牌计数矩阵。但这不会输出
B D M
中D B M LTD
的列count_vect = CountVectorizer(analyzer='word')
count_vect.fit_transform(compNames).toarray()
连接文本中单个字符的最佳方法是什么?
ex: 'D B M LTD' to 'DBM LTD'
最佳答案
import re
string = 'D B M LTD'
print re.sub("([^ ]) ", r"\1", re.sub(" ([^ ]{2,})", r" \1", string))
尴尬,但应该可以。它在LTD前面引入了一个额外的空间,然后将“ D”替换为“ D”,将“ B”替换为“ B”,依此类推。
关于python - 连接文本中的单个字符,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49692941/