我有一个包含公司名称的列表,其中一些缩写。例如:

compNames = ['Costa Limited', 'D B M LTD']


我需要使用以下内容将文本的compNames转换为令牌计数矩阵。但这不会输出B D MD B M LTD的列

count_vect = CountVectorizer(analyzer='word')
count_vect.fit_transform(compNames).toarray()


连接文本中单个字符的最佳方法是什么?

ex: 'D B M LTD' to 'DBM LTD'

最佳答案

import re
string = 'D B M LTD'
print re.sub("([^ ]) ", r"\1", re.sub(" ([^ ]{2,})", r"  \1", string))


尴尬,但应该可以。它在LTD前面引入了一个额外的空间,然后将“ D”替换为“ D”,将“ B”替换为“ B”,依此类推。

关于python - 连接文本中的单个字符,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49692941/

10-11 07:37