使用正则表达是查找汉字之前,要将所有的字符串都转码成utf8

import re

string_test = "This is test string 这是测试字符串"
string_test = string_test.decode('utf-8') # 转码 pattern = ur'[\u4e00-\u9fff]+' # 汉字正则表达式
re_compile = re.compile(pattern) res = re_compile.findall(string_test)
print res
05-11 13:49