浅谈python中的正则表达式（re模块）

时间：2021-05-22

一、简介

正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。

二、正则表达式中常用的字符含义

1、普通字符和11个元字符：

普通字符匹配自身 abc abc . 匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符 a.c abc \ 转义字符，使后一个字符改变原来的意思 a\.c;a\\c a.c;a\c * 匹配前一个字符0或多次 abc* ab;abccc + 匹配前一个字符1次或无限次 abc+ abc;abccc ? 匹配一个字符0次或1次 abc? ab;abc ^ 匹配字符串开头。在多行模式中匹配每一行的开头 ^abc abc $ 匹配字符串末尾，在多行模式中匹配每一行的末尾 abc$ abc | 或。匹配|左右表达式任意一个，从左到右匹配，如果|没有包括在()中，则它的范围是整个正则表达式 abc|def abc def {} {m}匹配前一个字符m次，{m,n}匹配前一个字符m至n次，若省略n，则匹配m至无限次 ab{1,2}c abc abbc [] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围，如[abc]或[a-c]。[^abc]表示取反，即非abc。
所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。 a[bcd]e abe ace ade () 被括起来的表达式将作为分组，从表达式左边开始没遇到一个分组的左括号“（”，编号+1.
分组表达式作为一个整体，可以后接数量词。表达式中的|仅在该组中有效。 (abc){2}
a(123|456)c abcabc a456c

这里需要强调一下反斜杠\的作用：

反斜杠后边跟元字符去除特殊功能；（即将特殊字符转义成普通字符）
反斜杠后边跟普通字符实现特殊功能；（即预定义字符）
引用序号对应的字组所匹配的字符串。

a=re.search(r'(tina)(fei)haha\2','tinafeihahafei tinafeihahatina').group()print(a)

结果：

tinafeihahafei

2、预定义字符集（可以写在字符集[...]中）

\d 数字:[0-9] a\bc a1c \D 非数字:[^\d] a\Dc abc \s 匹配任何空白字符:[<空格>\t\r\n\f\v] a\sc a c \S 非空白字符:[^\s] a\Sc abc \w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_] a\wc abc \W 匹配非字母字符，即匹配特殊字符 a\Wc a c \A 仅匹配字符串开头,同^ \Aabc abc \Z 仅匹配字符串结尾，同$ abc\Z abc \b 匹配\w和\W之间，即匹配单词边界匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。 \babc\b
a\b!bc 空格abc空格
a!bc \B [^\b] a\Bbc abc

这里需要强调一下\b的单词边界的理解：

w = re.findall('\btina','tian tinaaaa')print(w)s = re.findall(r'\btina','tian tinaaaa')print(s)v = re.findall(r'\btina','tian#tinaaaa')print(v)a = re.findall(r'\btina\b','tian#tina@aaa')print(a)

执行结果如下：
[]
['tina']
['tina']
['tina']

3、特殊分组用法：

(?P<name>) 分组，除了原有的编号外再指定一个额外的别名 (?P<id>abc){2} abcabc (?P=name) 引用别名为<name>的分组匹配到字符串 (?P<id>\d)abc(?P=id) 1abc1 5abc5 \<number> 引用编号为<number>的分组匹配到字符串 (\d)abc\1 1abc1 5abc5

三、re模块中常用功能函数

1、compile()

编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一点效率。）

格式：

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位，用于修改正则表达式的匹配方式，如：是否区分大小写，多行匹配等。常用的flags有：

标志含义 re.S(DOTALL) 使.匹配包括换行在内的所有字符 re.I（IGNORECASE）使匹配对大小写不敏感 re.L（LOCALE）做本地化识别（locale-aware)匹配，法语等 re.M(MULTILINE) 多行匹配，影响^和$ re.X(VERBOSE) 该标志通过给予更灵活的格式以便将正则表达式写得更易于理解 re.U 根据Unicode字符集解析字符，这个标志影响\w,\W,\b,\B

import rett = "Tina is a good girl, she is cool, clever, and so on..."rr = re.compile(r'\w*oo\w*')print(rr.findall(tt)) #查找所有包含'oo'的单词

执行结果如下：
['good', 'cool']

2、match()

决定RE是否在字符串刚开始的位置匹配。//注：这个方法并不是完全匹配。当pattern结束时若string还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符'$'

格式：

re.match(pattern, string, flags=0)print(re.match('com','compile(r'\d{3}-\d{6}')print(p.findall('010-628888'))

2、匹配IP

re.search(r"(([01]?\d?\d|2[0-4]\d|25[0-5])\.){3}([01]?\d?\d|2[0-4]\d|25[0-5]\.)","192.168.1.1")

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

浅谈python中的正则表达式（re模块）

相关文章

python 正则表达式 re.sub & re.subn

python 正则表达式 re.sub & re.subn

正则表达式（regular）知识(整理)

python中通过预先编译正则表达式提高效率

Python的一些用法分享