我试图排序一个非常大的网址列表。列表包含1200万个url。每行1个Url。
我想用“=”(example.com/a.php)过滤所有URL?a a a=aaa)在新文件中。
之后,我想删除谷歌,必应,脸谱等网址。
我该怎么解决?我使用Linux终端。
最佳答案
这是一种方法。首先,将带有URLs
的所有=
复制到临时文件:
grep -e '=' /folder/file > /tmp/urlTempHolder
然后,删除任何包含要排除的域的
URLs
:sed -i -e '/google.com/Id; /bing.com/Id' /tmp/urlTempHolder
答案将存储在
/tmp/urlTempHolder
注意1:确保在搜索时包含顶级域
.com
,.net
,以避免删除包含关键字但不应删除的URLs
(例如:www.mydomain.com/stuff/bing/now.htm
)。注2:以上代码不区分大小写,因此它将与
BING.COM
和bing.com
匹配。