Python基础（十一）--正则表达式

1 简述

正则表达式可以对指定的字符串与模式之间执行模式匹配。模式可以是普通的字符串，也可以是含有特殊意义字符的字符串。通过正则表达式，我们可以进行查找，校验等。

2 特殊字符

2.1 字符相关

下表字符匹配内容匹配单个字符。\ 在Python中是转义的开始，在正则表达式中也是转义的开始。如果模式使用原始字符串，可以减少转义的繁琐性。

字符	说明
.	默认模式下，匹配除换行符（\n）之外的所有单个字符。在S（DOTALL）模式下，匹配所有单个字符。
[字符]	匹配[]内的任意一个字符。[]中可以是单个字符，如[x9k]，也可以是一个字符区间，如[a-k]，[3-5]。如果需要匹配“-”，可以使用“\-”转义，或者将该字符置于[]的两端，如[-axk]或[axk-]。如果需要匹配“]”，可以使用“\]”转义，或者将该字符置于[]的最前端，如[]axk]。
[^字符]	匹配不在[]内的任意一个字符，[]的取反匹配。
\d	如果是str类型，匹配Unicode十进制数字，这包括但不限于0 ~ 9，例如０，٧等字符，也能够匹配成功。如果是bytes类型，匹配[0-9]。
\D	匹配非Unicode数字字符，\d的取反匹配。
\s	如果是str类型，匹配Unicode空白符，这包括但不限于[空格\t\v\r\n\f]。如果是bytes类型，匹配[空格\t\v\r\n\f]。
\S	匹配非Unicode空白字符，\s的取反匹配。
\w	如果是str类型，匹配Unicode单词字符，这包括但不限于[a-zA-Z0-9_]。如果是bytes类型，则匹配[a-zA-Z0-9_]。
\W	匹配非Unicode单词字符，\w的取反匹配。
\	转义字符，对正则表达式的特殊字符进行转义，例如，如果要匹配普通的“.”字符，则可以使用“\.”。

2.2 次数相关

字符	说明
*	匹配前面的字符0次或多次。
+	匹配前面的字符1次或多次。
?	匹配前面的字符0次或1次。
{m}	匹配前面的字符m次。
{m,}	匹配前面的字符至少m次。
{,n}	匹配前面的字符至多n次。
{m,n}	匹配前面的字符m到n次。
X?	X表示以上的任意一种模式（{m}除外），即在对应的模式字符串后面加上一个问号?，表示该模式的非贪婪模式（否则为贪婪模式）。贪婪模式与非贪婪模式的区别在于：贪婪模式会尽可能匹配最多的字符，而非贪婪模式会尽可能匹配最少的字符。

2.3 边界相关

字符	说明
^	匹配字符串的开头。在多行模式下，可以匹配每一行的开头。
$	匹配字符串的结尾。在多行模式下，可以匹配每一行的末尾。
\A	仅匹配字符串的开头。
\Z	仅匹配字符串的末尾。
\b	匹配单词的边界。单词可以含有Unicode字符、数字与下划线组成（\w+匹配的内容）。\b匹配的是空串，该空串可以出现在\w（\W）与\W（\w）之间、字符串开头与\w之间或\w与字符串结尾之间。
\B	匹配单词的非边界。\B匹配的是空串，该空串必须出现在两个\w之间。\B是\b的取反匹配。

2.4 组相关

字符	说明
()	对()内的字符进行分组。分组后，该组匹配的内容可以单独提取，同时，也可以在模式字符串后面使用\number进行引用。
\number	number用来指定组序号，序号从1开始。用来匹配number对应的分组内容。
(?:表达式)	匹配()内的字符，但是不会进行分组。()内匹配的内容也无法单独提取，或者在后面使用\number引用。
(?P<name>表达式)	对()内的字符进行分组，组名为name，多个组之间的名称不能重复。分组后，该组匹配的内容可以单独提取，同时，也可以在模式字符串后面使用(?P=name)或\number进行引用。对比之前()进行的序号分组，此种方式可以称为命名分组。不过，命名分组依然也可以使用序号（\number）进行引用。
(?P=name)	用来匹配同名的分组内容【之前使用(?P<name>)进行的分组】。
\|	用来连接两个并列的模式字符串，匹配其中的一个即可。

2.5 控制标记

re模块正则表达式的第三个参数flag的使用。（3.6后，使用RegexFlag对象）

I(IGNORECASE)：忽略大小写

M(MULTILINE)：匹配所有的字符

S(DOTALL)：多行模式

3 相关属性和方法

3.1 re模块的函数

re模块提供的函数功能search，match等，使用re.compile编译后返回的正则表达式也提供相应的功能，他们的区别为：①重复使用同一个模式进行匹配不同目标。使用正则表达式对象编译后，会提高一定的性能因为不需要对同一个模式进行重复编译。②使用正则表达式对象访问方法时，可以指定开始与结束区间，re无此功能

函数	描述
re.compile()	参数1：模式，参数2：控制标记。根据参数提供的模式与控制标记，编译返回一个正则表达式对象
re.search()	使用正则表达式对象进行匹配查找
re.match	与search功能相同，仅能从头部进行进行查找
re.findall()	查找所有匹配内容，返回一个列表
re.finditer()	返回所有匹配的内容，返回一个迭代器，迭代器中的每一个对象是match对象（正则表达式匹配的对象）
re.split()	参数1：切割模式，参数2：待切割的字符串，参数3：最大切割次数
re.sub()	参数1：替换的模式（要替换的内容），参数2：替换后的内容，参数3：待搜索的字符串，参数4：最大替换次数。参数5；控制标记。返回替换之后的内容

3.2 正则表达式对象

正则表达式匹配之后，会返回一个match对象，具有的属性方法如下：

属性	描述
string	待匹配的文本
re	匹配时使用的patter对象（正则表达式）
pos	搜索文本的开始位置
endpos	搜索文本的结束位置

方法	描述
group()	获得匹配后的字符串
groups()	返回一个元组，元组中的元素为所有分组的匹配结果
start()	匹配字符串在原始字符串的开始位置
end()	匹配字符串在原始字符串的结束位置
span()	返回(.start(), .end())