jieba分词(3)

jieba分词中Tokenize的使用，Tokenize主要是用来返回词语在原文的弃之位置，下面贴上代码：

#-*- coding:utf-8 -*-

from __future__ import unicode_literals

import jieba

print('-'*40)

print(' 默认模式')

print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

print '-'*40

print ' 搜索模式'

print '-'*40

result = jieba.tokenize('永和服装饰品有限公司', mode='search')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

运行结果为：

----------------------------------------

 默认模式

----------------------------------------

word 永和         start: 0          end:2

word 服装         start: 2          end:4

word 饰品         start: 4          end:6

word 有限公司         start: 6          end:10

----------------------------------------

 搜索模式

----------------------------------------

word 永和         start: 0          end:2

word 服装         start: 2          end:4

word 饰品         start: 4          end:6

word 有限         start: 6          end:8

word 公司         start: 8          end:10

word 有限公司         start: 6          end:10