一、初识正则表达式
正则表达式 是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配快速检索文本、实现替换文本的操作
json(xml) 轻量级 web 数据交换格式
import re <b>本文来源gao@!dai!ma.com搞$$代^@码5网@</b>a='C|C++|Java|C#||Python|Javascript' r= re.findall('Python',a) print(r) if len(r) > 0: print('字符串中包含Python') else: print('No') ['Python'] 字符串中包含Python
二、元字符与普通字符
import re a='C0C++7Java8C#9Python6Javascript' r= re.findall('\d',a) print(r) b='' for x in a: try: int(x) b +=x+',' except : pass print(b)
结果:
[‘0’, ‘7’, ‘8’, ‘9’, ‘6’]
0,7,8,9,6,
‘Python’ 普通字符 ‘\d’ 元字符
三、字符集
import re #找出中间一个字符不是C 和F的 单词 s = 'abc, acc, adc, aec, afc, ahc' r = re.findall('a[^cf]c', s) #[a-z] [cf] print(r)
结果:
[‘abc’, ‘adc’, ‘aec’, ‘ahc’]
四、概括字符集
#\d 数字 \D 字母 #\w 数字和字母 =[a-zA-Z0-9_] \W #\s 空白字符 \S a='python 11\t11java&678p\nh\rp' r = re.findall('\s', a) print(r)
结果:
[‘ ‘, ‘\t’, ‘\n’, ‘\r’]
五、数量词
a='python 1111java&678php' r = re.findall('[a-z]{3,6}', a) print(r)
结果:
[‘python’, ‘java’, ‘php’]
六、贪婪与非贪婪
a='python 1111java&678php' r = re.findall('[a-z]{3,6}?', a) #贪婪 与 非贪婪 ? print(r)
结果:
[‘pyt’, ‘hon’, ‘jav’, ‘php’]
七、匹配0次1次或者无限多次
# * 匹配0次或者无限多次 # + 匹配1次或者无限多次 # ? 匹配0次或者1次 a='pytho0python1pythonn2pythonw' r = re.findall('python*', a) print(r)
结果:
[‘pytho’, ‘python’, ‘pythonn’, ‘python’]
八、边界匹配符
qq = '12345678' # 4~8 r = re.findall('^\d{4,8}$', qq) print(r) a = '123456789' # 4~8 ^规则$ ^开头 $结尾 e = re.findall('^\d{4,8}$', a) print(e)
结果:
[‘12345678’]
[]
九、组
# () 组 a = 'pythonpythonpythonpythonpython' # r = re.findall('(python){3}', a) print(r)
结果:
[‘python’] 代表存在一组(pythonpythonpython) 这样的数据
十、匹配模式参数
# I | S 忽略大小写 | 匹配所有字符 lanuage = 'PythonC#\nJavaPHP' r = re.findall('c#.{1}', lanuage,re.I | re.S) print(r)