我正在尝试捕获特定单词之前的网址。唯一的麻烦是该词也可能是域的一部分。

示例:(我想在晚餐前捕捉所有东西)

https://breakfast.example.com/lunch/dinner/

https://breakfast.example.brunch.com:8080/lunch/dinner

http://dinnerdemo.example.com/dinner/


我可以使用:

^(。*://.*/)(?=晚餐/?)

我遇到的问题是前瞻似乎不够懒惰
因此,以下操作失败:

https://breakfast.example.com/lunch/dinner/login.html?returnURL=https://breakfast.example.com/lunch/dinner/


它捕获:

https://breakfast.example.com/lunch/dinner/login.html?returnURL=https://breakfast.example.com/lunch/

我都无法理解为什么以及如何修复我的正则表达式。
也许我走错了路,但是如何捕捉所有示例?

最佳答案

您可以使用一些惰性:

^(.*?:\/\/).*?/(?=dinner/?)


Live demo

通过在正则表达式的中间使用.*,可以将所有内容吃掉,直到最后一个冒号找到匹配为止。

顺便说一句,在正则表达式中间的.*是非常不好的做法。它可能导致长字符串中令人讨厌的回溯性能下降。 .*?更好,因为它是勉强而不是贪婪。

08-25 10:31