1. 引言
1.1 MySQL 正则表达式概述
- REGEXP/RLIKE 操作符:MySQL 中使用正则表达式的标准操作符
- 模式匹配功能:提供强大的文本匹配和搜索能力
- 数据库集成:在 SQL 查询中直接使用正则表达式
1.2 正则表达式在数据库中的重要性
- 数据验证:验证输入数据的格式正确性
- 复杂搜索:实现比 LIKE 操作符更复杂的文本搜索
- 数据清洗:从文本数据中提取特定模式的信息
1.3 MySQL 中正则表达式的发展历程
- 早期版本:基础的 REGEXP 支持
- MySQL 8.0:新增 REGEXP_* 系列函数
- 功能增强:不断优化性能和扩展功能
2. MySQL 正则表达式基础语法
2.1 REGEXP/RLIKE 操作符
REGEXP 与 RLIKE 的等价性
-- REGEXP 和 RLIKE 完全等价SELECT*FROMusersWHEREemailREGEXP'^[a-zA-Z0-9]+@[a-zA-Z0-9]+\\.[a-zA-Z]{2,}$';SELECT*FROMusersWHEREemailRLIKE'^[a-zA-Z0-9]+@[a-zA-Z0-9]+\\.[a-zA-Z]{2,}$';基本语法结构
-- 基本语法SELECTcolumn_nameFROMtable_nameWHEREcolumn_nameREGEXPpattern;-- 示例:查找以数字开头的用户名SELECTusernameFROMusersWHEREusernameREGEXP'^[0-9]';区分大小写与不区分大小写
-- 区分大小写(默认)SELECT*FROMproductsWHEREnameREGEXP'iPhone';-- 不区分大小写(使用 BINARY 操作符的反向操作)SELECT*FROMproductsWHEREnameREGEXP'(?i)iPhone';-- MySQL 8.0+-- 或者转换为小写进行比较SELECT*FROMproductsWHERELOWER(name)REGEXP'iphone';2.2 基本正则模式
字面量匹配
-- 精确匹配特定字符串SELECT*FROMcontactsWHEREphoneREGEXP'1234567890';-- 匹配包含特定子串的数据SELECT*FROMarticlesWHEREtitleREGEXP'MySQL';任意字符匹配(.)
-- 匹配任意单个字符SELECT*FROMcodesWHEREcodeREGEXP'A.C';-- 匹配 AxC 形式的代码-- 匹配任意字符序列SELECT*FROMlogsWHEREmessageREGEXP'ERROR..';-- 匹配 ERROR 后跟两个任意字符行首和行尾匹配(^ 和 $)
-- 行首匹配SELECT*FROMemailsWHEREaddressREGEXP'^admin';-- 以 admin 开头的邮箱-- 行尾匹配SELECT*FROMfilesWHEREnameREGEXP'\\.txt$';-- 以 .txt 结尾的文件名-- 完全匹配(行首和行尾)SELECT*FROMstatusesWHEREstatusREGEXP'^active$';-- 完全匹配 'active'单词边界匹配
-- 使用 \b 表示单词边界SELECT*FROMdocumentsWHEREcontentREGEXP'\\bSQL\\b';-- 匹配独立的 'SQL' 单词2.3 字符类和集合
方括号表达式[...]
-- 匹配方括号内的任意一个字符SELECT*FROMproductsWHEREskuREGEXP'[ABC]';-- SKU 包含 A、B 或 C-- 匹配特定数字SELECT*FROMordersWHEREorder_idREGEXP'[0-9]';-- 订单ID包含数字字符范围[a-z]
-- 字母范围匹配SELECT*FROMusernamesWHEREusernameREGEXP'[a-z]';-- 包含小写字母-- 数字范围匹配SELECT*FROMcodesWHEREcodeREGEXP'[0-9]{4}';-- 4位数字代码-- 组合范围SELECT*FROMpasswordsWHEREpasswordREGEXP'[a-zA-Z0-9]';-- 包含字母或数字预定义字符类
-- 数字字符匹配SELECT*FROMphonesWHEREphone_numberREGEXP'[[:digit:]]{10}';-- 10位数字-- 字母字符匹配SELECT*FROMnamesWHEREfirst_nameREGEXP'[[:alpha:]]+';-- 至少一个字母-- 空白字符匹配SELECT*FROMtextsWHEREcontentREGEXP'[[:space:]]';-- 包含空白字符否定字符类[^...]
-- 匹配不在方括号内的字符SELECT*FROMcodesWHEREcodeREGEXP'[^0-9]';-- 包含非数字字符-- 匹配不含特定字符的数据SELECT*FROMusernamesWHEREusernameREGEXP'[^@]';-- 不包含 @ 符号3. 量词和重复模式
3.1 基本量词
*零次或多次
-- 匹配零个或多个指定字符SELECT*FROMpathsWHEREfile_pathREGEXP'folder/*';-- folder 后跟零个或多个斜杠-- 匹配可能包含重复字符的文本SELECT*FROMdescriptionsWHEREdescriptionREGEXP'hello.*world';-- hello 和 world 之间可以有任意字符+一次或多次
-- 匹配至少一个指定字符SELECT*FROMusernamesWHEREusernameREGEXP'[a-z]+';-- 至少一个小写字母-- 匹配连续的数字SELECT*FROMcodesWHEREcodeREGEXP'[0-9]+';-- 至少一个数字?零次或一次
-- 匹配可选字符SELECT*FROMurlsWHEREurlREGEXP'https?://';-- 匹配 http:// 或 https://-- 匹配可选部分SELECT*FROMphonesWHEREphoneREGEXP'\\+?[0-9]{3}-[0-9]{3}-[0-9]{4}';-- 可选的 +{n}精确 n 次
-- 精确匹配 n 次SELECT*FROMcodesWHEREcodeREGEXP'[A-Z]{3}';-- 精确3个大写字母-- 匹配固定长度的数字SELECT*FROMidsWHEREidREGEXP'[0-9]{6}';-- 精确6位数字{n,m}n 到 m 次
-- 匹配 n 到 m 次SELECT*FROMpasswordsWHEREpasswordREGEXP'[a-zA-Z0-9]{8,16}';-- 8-16位密码-- 匹配长度范围