NLTK计算中文高频词

NLTK计算中文高频词

以下代码仅限于python2

NLTK计算中文高频词

  1. >>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
  2. >>> top100=sinica_fd.items()[0:100]
  3. >>> for (x,y) in top100:
  4. print x,y
  1. 的 6776
  2. 、 1482
  3. 在 1331
  4. 是 1317
  5. 了 1190
  6. 有 759
  7. 我 724
  8. 他 688
  9. 就 627
  10. 上 612
  11. 和 580
  12. 也 542
  13. 不 526
  14. 人 467
  15. 都 417
  16. 與 404
  17. 著 389
  18. 我們 384
05-02 08:38