以下代码仅限于python2
NLTK计算中文高频词
- >>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
- >>> top100=sinica_fd.items()[0:100]
- >>> for (x,y) in top100:
- print x,y
- 的 6776
- 、 1482
- 在 1331
- 是 1317
- 了 1190
- 有 759
- 我 724
- 他 688
- 就 627
- 上 612
- 和 580
- 也 542
- 不 526
- 人 467
- 都 417
- 與 404
- 著 389
- 我們 384