浅谈python中的正则表达式(re模块)

时间:2021-05-22

一、简介

正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。

二、正则表达式中常用的字符含义

1、普通字符和11个元字符:

普通字符 匹配自身 abc abc . 匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符 a.c abc \ 转义字符,使后一个字符改变原来的意思 a\.c;a\\c a.c;a\c * 匹配前一个字符0或多次 abc* ab;abccc + 匹配前一个字符1次或无限次 abc+ abc;abccc ? 匹配一个字符0次或1次 abc? ab;abc ^ 匹配字符串开头。在多行模式中匹配每一行的开头 ^abc abc $ 匹配字符串末尾,在多行模式中匹配每一行的末尾 abc$ abc | 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式 abc|def abc def {} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次 ab{1,2}c abc abbc [] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。
所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。 a[bcd]e abe ace ade () 被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号“(”,编号+1.
分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。 (abc){2}
a(123|456)c abcabc a456c

这里需要强调一下反斜杠\的作用:

  • 反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符)
  • 反斜杠后边跟普通字符实现特殊功能;(即预定义字符)
  • 引用序号对应的字组所匹配的字符串。
a=re.search(r'(tina)(fei)haha\2','tinafeihahafei tinafeihahatina').group()print(a)

结果:

tinafeihahafei

2、预定义字符集(可以写在字符集[...]中)

\d 数字:[0-9] a\bc a1c \D 非数字:[^\d] a\Dc abc \s 匹配任何空白字符:[<空格>\t\r\n\f\v] a\sc a c \S 非空白字符:[^\s] a\Sc abc \w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_] a\wc abc \W 匹配非字母字符,即匹配特殊字符 a\Wc a c \A 仅匹配字符串开头,同^ \Aabc abc \Z 仅匹配字符串结尾,同$ abc\Z abc \b 匹配\w和\W之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 \babc\b
a\b!bc 空格abc空格
a!bc \B [^\b] a\Bbc abc

这里需要强调一下\b的单词边界的理解:

w = re.findall('\btina','tian tinaaaa')print(w)s = re.findall(r'\btina','tian tinaaaa')print(s)v = re.findall(r'\btina','tian#tinaaaa')print(v)a = re.findall(r'\btina\b','tian#tina@aaa')print(a)

执行结果如下:
[]
['tina']
['tina']
['tina']

3、特殊分组用法:

(?P<name>) 分组,除了原有的编号外再指定一个额外的别名 (?P<id>abc){2} abcabc (?P=name) 引用别名为<name>的分组匹配到字符串 (?P<id>\d)abc(?P=id) 1abc1 5abc5 \<number> 引用编号为<number>的分组匹配到字符串 (\d)abc\1 1abc1 5abc5

三、re模块中常用功能函数

1、compile()

编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)

格式:

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。常用的flags有:

标志 含义 re.S(DOTALL) 使.匹配包括换行在内的所有字符 re.I(IGNORECASE) 使匹配对大小写不敏感 re.L(LOCALE) 做本地化识别(locale-aware)匹配,法语等 re.M(MULTILINE) 多行匹配,影响^和$ re.X(VERBOSE) 该标志通过给予更灵活的格式以便将正则表达式写得更易于理解 re.U 根据Unicode字符集解析字符,这个标志影响\w,\W,\b,\B

import rett = "Tina is a good girl, she is cool, clever, and so on..."rr = re.compile(r'\w*oo\w*')print(rr.findall(tt)) #查找所有包含'oo'的单词

执行结果如下:
['good', 'cool']

2、match()

决定RE是否在字符串刚开始的位置匹配。//注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'

格式:

re.match(pattern, string, flags=0)print(re.match('com','compile(r'\d{3}-\d{6}')print(p.findall('010-628888'))

2、匹配IP

re.search(r"(([01]?\d?\d|2[0-4]\d|25[0-5])\.){3}([01]?\d?\d|2[0-4]\d|25[0-5]\.)","192.168.1.1")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章