我试图排序一个非常大的网址列表。列表包含1200万个url。每行1个Url。
我想用“=”(example.com/a.php)过滤所有URL?a a a=aaa)在新文件中。
之后,我想删除谷歌,必应,脸谱等网址。
我该怎么解决?我使用Linux终端。

最佳答案

这是一种方法。首先,将带有URLs的所有=复制到临时文件:

grep -e '=' /folder/file > /tmp/urlTempHolder

然后,删除任何包含要排除的域的URLs
sed -i -e '/google.com/Id; /bing.com/Id' /tmp/urlTempHolder

答案将存储在/tmp/urlTempHolder
注意1:确保在搜索时包含顶级域.com.net,以避免删除包含关键字但不应删除的URLs(例如:www.mydomain.com/stuff/bing/now.htm)。
注2:以上代码不区分大小写,因此它将与BING.COMbing.com匹配。

09-30 18:19
查看更多