一篇文章彻底搞懂python正则表达式

文章目录[隐藏]

前言
1. 正则表达式的基本概念
2. python的正则表达式re模块
3. 正则表达式语法
4. re模块相关方法使用
总结

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配,Python 自1.5版本起增加了re模块,这篇文章主要给大家介绍了如何通过一篇文章彻底搞懂python正则表达式的相关资料,需要的朋友可以参考下

前言

有时候字符串匹配解决不了问题，这个时候就需要正则表达式来处理。因为每一次匹配（比如找以什么开头的，以什么结尾的字符串要写好多个函数）都要单独完成，我们可以给它制定一个规则。

主要应用：爬虫的时候需要爬取各种信息，使用正则表达式可以很方便的处理需要的数据。

1. 正则表达式的基本概念

使用单个字符串来描述匹配一系列符合某个语法规则的字符串。
是对字符串操作的一种逻辑公式。
应用场景：处理文本和数据。
正则表达式过程：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功，否则失败。

2. python的正则表达式re模块

 import re

匹配过程：r’imooc’是原字符串，先生成Pattern对象，从头开始找，得到一个Match（或Search等）实例，最后有一个匹配结果。

 # 用find和startswith找字符串 str1 = 'imooc python' print(str1.find('11')) -1 print(str1.find('imooc')) 0 print(str1.startswith('imooc')) True

使用正则表达式：

 import re pa = re.compile(r'imooc')   #  compile生成一个pattern对象，r'imooc'读原字符串，否则需要转义 ma = pa.match(str1)  # 匹配不到返回为None，返回一个对象 print(ma)  print(ma.group())  # 返回一个字符串或字符串组成的元组ma.groups() imooc print(ma.span())  # 返回所在字符串的位置 print(ma.string)  # 返回原字符串 print(ma.re)     # 返回实例 (0, 5) imooc python re.compile('imooc')

 # 匹配大小写，后面加上大写 pa = re.compile(r'imooc', re.I) print(pa) re.compile('imooc', re.IGNORECASE) ma = pa.match('imooc python') print(ma.group()) imooc ma = pa.match('Imooc python') print(ma.group()) Imooc

 # 如果只有一个，可以直接生成一个match对象，也可以达到同样的效果 ma = re.match(r'imooc', str1) print(ma) print(ma.group())  imooc

3. 正则表达式语法

基本语法：适用于多种语言。

（1）匹配单个字符

1）’.’ 的匹配，可以匹配除了\n外所有字符

 ma = re.match(r'a', 'a') print(ma.group()) ma = re.match(r'a', 'b') print(type(ma))  # 再调ma.group()则报错 a  # 用.匹配字符 ma = re.match(r'.', 'b') print(ma.group()) ma = re.match(r'.', '0') print(ma.group()) b 0 # 匹配{}中的字符 ma = re.match(r'{.}', '{0}') print(ma.group()) ma = re.match(r'{..}', '{01}') print(ma.group()) {0} {01}

2）[…]匹配字符集

 # []匹配字符集 ma = re.match(r'{[abc]}', '{a}') print(ma.group()) ma = re.match(r'{[abc]]}', '{d}')  # 匹配不到，则报错 print(ma.group()) ma = re.match(r'{[a-z]]}', '{d}') print(ma.group()) # 匹配a-z中任意一个字符 {a} {d} ma = re.match(r'{[a-zA-Z]}', '{A}') print(ma.group()) {A} ma = re.match(r'{[a-zA-Z0-9]}', '{0}') print(ma.group()) {0}

3） \w 匹配a-zA-Z0-9， \W匹配非单词字符

 ma = re.match(r'{[\w]}', '{A}') print(ma.group()) ma = re.match(r'{[\w]}', '{ }') print(ma.group())  # 匹配不到 ma = re.match(r'{[\W]}', '{ }') print(ma.group()) {A} { }

4）字符集[]匹配

 ma = re.match(r'[[\w]]', '[a]') print(ma.group())  # 匹配不到 # 匹配[]需要加转义\ ma = re.match(r'\[[\w]\]', '[a]') print(ma.group()) [a]

（2）匹配多个字符

1） *匹配

 ma = re.match(r'[A-Z][a-z]', 'Aa') print(ma.group()) ma = re.match(r'[A-Z][a-z]', 'A') print(ma.group()) # 匹配不到 ma = re.match(r'[A-Z][a-z]*', 'Aa') print(ma.group()) ma = re.match(r'[A-Z][a-z]*', 'Aagfagsagaha') print(ma.group()) ma = re.match(r'[A-Z][a-z]*', 'Aa123') print(ma.group()) Aa A Aagfagsagaha Aa

2）+匹配

 # 匹配下划线或字符开头的无限次 ma = re.match(r'[_a-zA-Z]+[_\w]*', '10') print(ma.group())   # 匹配不到 ma = re.match(r'[_a-zA-Z]+[_\w]*', '_hte10') print(ma.group()) _hte10

3）？匹配

 # 匹配0-99，01则不对 ma = re.match(r'[1-9]?[0-9]', '90') print(ma.group()) ma = re.match(r'[1-9]?[0-9]', '9') print(ma.group()) ma = re.match(r'[1-9]?[0-9]', '09') print(ma.group())  # 只匹配到0 90 9 0

4）{m} / {mn}匹配

 # 匹配邮箱，匹配6次 ma = re.match(r'[a-zA-Z0-9]{6}', 'abc123') print(ma.group()) abc123 ma = re.match(r'[a-zA-Z0-9]{6}', 'abc12') print(ma.group()) # 少一个则匹配不到 ma = re.match(r'[a-zA-Z0-9]{6}', 'abc1234') print(ma.group()) # 多则匹配前6个 abc123 ma = re.match(r'[a-zA-Z0-9]{6}@163.com', '[email protected]') print(ma.group()) [email protected] # 匹配6-10位的邮箱 ma = re.match(r'[a-zA-Z0-9]{6, 10}@163.com', '[email protected]') print(ma.group())

4）*？ /+？ /??匹配 (尽可能少匹配)

 ma = re.match(r'[0-9][a-z]*', '1abc') print(ma.group()) ma = re.match(r'[0-9][a-z]*?', '1abc') print(ma.group())  # 只匹配1 1abc 1 ma = re.match(r'[0-9][a-z]+?', '1abc') print(ma.group()) # 只匹配一次 1a

（3）边界匹配

 ma = re.match(r'[\w]{4,10}@163.com', '[email protected]') print(ma.group()) [email protected] ma = re.match(r'[\w]{4,10}@163.com', '[email protected]')  # 后面加上abc,match从头开始匹配，则可以找到 print(ma.group()) [email protected] ma = re.match(r'[\w]<p style="color:transparent">来源gao!%daima.com搞$代*!码网</p>{4,10}@163.com&', '[email protected]') print(ma.group())  # 匹配不到 ma = re.match(r'^[\w]{4,10}@163.com&', '[email protected]') print(ma.group())  # 匹配不到 ma = re.match(r'^[\w]{4,10}@163.com&', '[email protected]') print(ma.group())  # 加上^和$,限制开头结尾 [email protected]

 # 指定开头结尾 ma = re.match(r'\Aimooc[\w]*', 'imoocpython') print(ma.group()) ma = re.match(r'\Aimooc[\w]*', 'iimoocpython') print(ma.group())  # 匹配不到 imoocpython

（4）分组匹配

这里不再举例。

4. re模块相关方法使用

以上举例都是match，从头到尾匹配，查找子串就不合适了

 # 在一个字符串中查找匹配 1:search(pattern, string, flags=0) # 找到匹配，返回所有匹配部分的列表 2:findall(pattern, string, flags=0) # 将字符串中匹配正则表达式得部分替换为其它,repl可以替换函数 3:sub(pattern, repl, string, count=0, flags=0) # 根据匹配分割字符串，返回分割字符串组成的列表 4:split(pattern, string, maxsplit=0, flags=0)

 # search import re str1 = 'imooc videonum = 1000' print(str1.find('1000'))  # 数字改变则失效 17 info = re.search(r'\d+', str1) print(info.group()) 1000 str1 = 'imooc videonum = 10000' info = re.search(r'\d+', str1) print(info.group()) 10000

 # findall # 当有多个数字时 str2 = 'a=100, b=200, c=300' info = re.search(r'\d+', str2) print(info.group()) 100 info = re.findall(r'\d+', str2) print(info.group()) [100, 200, 300]

 # sub 替换 str3 = 'imooc videonum = 1000' info = re.sub(r'\d+', '1001', str3) print(info) imooc videonum = 1001

 # split # 分割 str3 = 'imooc：C C++ Java' print(re.split(r':| ', str4)) [imooc, C, C, Java]

以上即为python中的正则表达式的一些知识总结。

总结

到此这篇关于python正则表达式的文章就介绍到这了,更多相关python正则表达式内容请搜索gaodaima搞代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持gaodaima搞代码网！

以上就是一篇文章彻底搞懂python正则表达式的详细内容，更多请关注gaodaima搞代码网其它相关文章！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：一篇文章彻底搞懂python正则表达式