我能想到的有以下几种:

用语言判断去重,ex表格去重,数据库去重,文件名字去重,

有人说:10亿url ex表放不下!!

可以用树和折半的思想将10亿url,变成单元最小化的树,然后用ex表去重

ex表去重时也可以用树的思想让内存最大利用!

(ps:当然要花费大量时间和精力)!

05-22 06:54