正则表达式02：量词与贪婪

斯堪的纳维亚 • 2020-07-05 • Linux

正则中表示量词的元字符

在这 6 种元字符中，我们可以用 {m,n} 来表示（*）（+）（?）这 3 种元字符：

贪婪、非贪婪与独占模式

贪婪匹配

在正则中，表示次数的量词默认是贪婪的，在贪婪模式下，会尝试尽可能最大长度去匹配。

字符串 aaabb 中使用正则 a* 的匹配过程：

a* 在匹配开头的 a 时，会尝试尽量匹配更多的 a，直到第一个字母 b不满足要求为止，匹配上三个 a，后面每次匹配时都得到了空字符串。

非贪婪匹配

在量词后面加上英文的问号 (?)，正则就变成了 a*?

>>> import re
>>> re.findall(r'a*', 'aaabb')  # 贪婪模式
['aaa', '', '', '']
>>> re.findall(r'a*?', 'aaabb') # 非贪婪模式
['', 'a', '', 'a', '', 'a', '', '', '']

非贪婪模式会尽可能短地去匹配

独占模式

不管是贪婪模式，还是非贪婪模式，都需要发生回溯才能完成相应的功能。但是在一些场景下，我们不需要回溯，匹配不上返回失败就好了，因此正则中还有另外一种模式，独占模式，它类似贪婪匹配，但匹配过程不会发生回溯，因此在一些场合下性能会更好。

什么是回溯呢？我们来看一些例子，例如下面的正则：

在匹配时，y{1,3}会尽可能长地去匹配，当匹配完 xyy 后，由于 y 要尽可能匹配最长，即三个，但字符串中后面是个 z 就会导致匹配不上，这时候正则就会向前回溯，吐出当前字符 z，接着用正则中的 z 去匹配。

把这个正则改成非贪婪模式，如下：

由于 y{1,3}? 代表匹配 1 到 3 个 y，尽可能少地匹配。匹配上一个 y 之后，也就是在匹配上 text 中的 xy 后，正则会使用 z 和 text 中的 xy 后面的 y 比较，发现正则 z 和 y 不匹配，这时正则就会向前回溯，重新查看 y 匹配两个的情况，匹配上正则中的 xyy，然后再用 z 去匹配 text 中的 z，匹配成功。

独占模式和贪婪模式很像，独占模式会尽可能多地去匹配，如果匹配失败就结束，不会进行回溯，这样的话就比较节省时间。具体的方法就是在量词后面加上加号（+）。

如果用 a{1,3}+ab 去匹配 aaab 字符串，a{1,3}+ 会把前面三个 a 都用掉，并且不会回溯，这样字符串中内容只剩下 b 了，导致正则中加号后面的 a 匹配不到符合要求的内容，匹配失败。如果是贪婪模式 a{1,3} 或非贪婪模式 a{1,3}? 都可以匹配上。

独占模式性能比较好，可以节约匹配的时间和 CPU 资源，但有些情况下并不能满足需求，要想使用这个模式还要看具体需求

总结

正则中量词默认是贪婪匹配，如果想要进行非贪婪匹配需要在量词后面加上问号。贪婪和非贪婪匹配都可能会进行回溯，独占模式也是进行贪婪匹配，但不进行回溯，因此在一些场景下，可以提高匹配的效率，具体能不能用独占模式需要看使用的编程语言的类库的支持情况，以及独占模式能不能满足需求。

|| 版权声明
作者：斯堪的纳维亚
链接：https://blog.yjscloud.com/archives/124
声明：如无特别声明本文即为原创文章仅代表个人观点，版权归《斯堪的纳维亚》所有，欢迎转载，转载请保留原文链接。

THE END

正则表达式

二维码

正则表达式02：量词与贪婪

正则中表示量词的元字符在这 6 种元字符中，我们可以用 {m,n} 来表示（*）（+）（?）这 3 种元字符：贪婪、非贪婪与独占模式贪婪匹配在正则中，表示次……

（三）无重复字符的最长子串（Python3）

<<上一篇

frp内网穿透教程

下一篇>>

文章目录

关闭

搜索内容

正则表达式02：量词与贪婪

贪婪、非贪婪与独占模式

贪婪匹配

非贪婪匹配

独占模式

总结

取消回复

共有 0 条评论

句子

文章推荐