我正在尝试捕获特定单词之前的网址。唯一的麻烦是该词也可能是域的一部分。
示例:(我想在晚餐前捕捉所有东西)
https://breakfast.example.com/lunch/dinner/
https://breakfast.example.brunch.com:8080/lunch/dinner
http://dinnerdemo.example.com/dinner/
我可以使用:
^(。*://.*/)(?=晚餐/?)
我遇到的问题是前瞻似乎不够懒惰
因此,以下操作失败:
https://breakfast.example.com/lunch/dinner/login.html?returnURL=https://breakfast.example.com/lunch/dinner/
它捕获:
https://breakfast.example.com/lunch/dinner/login.html?returnURL=https://breakfast.example.com/lunch/
我都无法理解为什么以及如何修复我的正则表达式。
也许我走错了路,但是如何捕捉所有示例?
最佳答案
您可以使用一些惰性:
^(.*?:\/\/).*?/(?=dinner/?)
Live demo
通过在正则表达式的中间使用
.*
,可以将所有内容吃掉,直到最后一个冒号找到匹配为止。顺便说一句,在正则表达式中间的
.*
是非常不好的做法。它可能导致长字符串中令人讨厌的回溯性能下降。 .*?
更好,因为它是勉强而不是贪婪。