Python-Day09-字符串和正则表达式

xiaoxiao2022-07-07 196

Author: Seven_0507 Date: 2019-05-24

本次主要总结字符串的高级用法及正则表达式的使用及练习！

正则表达式中的一些基本符号如下：参考《正则表达式30分钟入门教程》

常用的元字符符号解释示例说明.匹配除换行符以外的任意字符b.t可以匹配bat / but / b#t / b1t等\w匹配字母/数字/下划线/汉字b\wt可以匹配bat / b1t / b_t等，但不能匹配b#t\s匹配空白字符（包括\r、\n、\t等）,中文全角空格等love\syou可以匹配love you\d匹配数字\d\d可以匹配01 / 23 / 99等\b匹配单词的边界（匹配单词的开始或结束）\bThe\b^匹配字符串的开始^The可以匹配The开头的字符串$匹配字符串的结束.exe$可以匹配.exe结尾的字符串常用的反义代码\W匹配非字母/数字/下划线/汉字的字符b\Wt可以匹配b#t / b@t等，但不能匹配but / b1t / b_t等\S匹配非空白字符（包括\r、\n、\t等）,中文全角空格等love\Syou可以匹配love#you等，但不能匹配love you\D匹配非数字\d\D可以匹配9a / 3# / 0F等\B匹配非单词边界\Bio\B[^x]匹配除了x以外的任意字符[^aeiou]匹配除了aeiou这几个字母以外的任意字符字符类[ ]匹配来自字符集的任意单一字符（匹配没有预定义元字符的字符集合）[aeiou]可以匹配任一元音字母字符[^]匹配不在字符集中的任意单一字符[^aeiou]可以匹配任一非元音字母字符常用的限定符*匹配0次或多次\w*+匹配1次或多次\w+?匹配0次或1次\w?{N}匹配N次\w{3}{M,}匹配至少M次\w{3,}{M,N}匹配至少M次至多N次\w{3,6}分支条件|分支，有几种规则若满足任意一种规则都应当成匹配，左到右地测试每个条件匹配到第一个满足的分支结束foo|bar可以匹配foo或者bar常用分组语法(exp)匹配exp并捕获到自动命名的组中，用小括号来指定子表达式，就可指定重复次数或其它一些操作(\d{1,3}.){3}匹配1到3位的数字加.，重复3次，（eg：IP地址匹配规则）(? exp)匹配exp并捕获文本到名称为name的组里，也可以写成(?'name’exp)(?\w+)\w+的组名指定为Word(?:exp)匹配exp但是不捕获匹配的文本，也不给此分组分配组号(?=exp)匹配exp前面的位置\b\w+(?=ing)可以匹配I’m dancing中的danc(?<=exp)匹配exp后面的位置(?<=\bdanc)\w+\b可以匹配I love dancing and reading中的第一个ing(?!exp)匹配后面不是exp的位置\b((?!abc)\w)+\b可以匹配不包含连续字符串abc的单词(?<!exp)匹配前面不是exp的位置(?<![a-z])\d{7}匹配前面不是小写字母的七位数字(?#comment)这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读2[0-4]\d(?#200-249)|250-5|[01]?\d\d?(?#0-199)懒惰限定符*?重复任意次，但尽可能少重复a.b ； a.?b将正则表达式应用于aabab，前者会匹配整个字符串aabab，后者会匹配aab和ab两个字符串+?重复1次或多次，但尽可能少重复??重复0次或1次，但尽可能少重复{M,N}?重复M到N次，但尽可能少重复{M,}?重复M次以上，但尽可能少重复

说明：如果需要匹配的字符是正则表达式中的特殊字符，那么可以使用\进行转义处理，例如想匹配小数点可以写成\.就可以了，因为直接写.会匹配任意字符；同理，想匹配圆括号必须写成$和$，否则圆括号被视为正则表达式中的分组。

Python提供了re模块来支持正则表达式相关操作，下面是re模块中的核心函数。参考：GitHub骆昊Python-100-Days

函数说明compile(pattern, flags=0)编译正则表达式返回正则表达式对象match(pattern, string, flags=0)用正则表达式匹配字符串成功返回匹配对象否则返回Nonesearch(pattern, string, flags=0)搜索字符串中第一次出现正则表达式的模式成功返回匹配对象否则返回Nonesplit(pattern, string, maxsplit=0, flags=0)用正则表达式指定的模式分隔符拆分字符串返回列表sub(pattern, repl, string, count=0, flags=0)用指定的字符串替换原字符串中与正则表达式匹配的模式可以用count指定替换的次数fullmatch(pattern, string, flags=0)match函数的完全匹配（从字符串开头到结尾）版本findall(pattern, string, flags=0)查找字符串所有与正则表达式匹配的模式返回字符串的列表finditer(pattern, string, flags=0)查找字符串所有与正则表达式匹配的模式返回一个迭代器purge()清除隐式编译的正则表达式的缓存re.I / re.IGNORECASE忽略大小写匹配标记re.M / re.MULTILINE多行匹配标记

说明：上面提到的re模块中的这些函数，实际开发中也可以用正则表达式对象的方法替代对这些函数的使用，如果一个正则表达式需要重复的使用，那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。

1. 字符串和正则表达式练习

1.1 字符串高级操作练习

1.1.1 字符串常用操作

""" 字符串常用操作 """ import pyperclip # 原始字符串 print(r'My brother\'s name is \'007\'') # 转义字符 print('My brother\'s name is \'007\'') print('*'*80) # in/ not in/ is开头判断方法 str = 'hello123world' print('he' in str) print('her' not in str) # 字符串是否只包含字母 print(str.isalpha()) print(str[0:5].isalpha()) # 字符串是否只包含字母和数字 print(str.isalnum()) # 字符串是否只包含数字 print(str.isdecimal()) print(str[5:8].isdecimal()) print('*'*80) # join用法 list = ['床前明月光', '疑是地上霜', '举头望明月', '低头思故乡'] print('-'.join(list)) print('*'*80) # split()用法 sentence1 = 'You go your way I will go mine' sentence2 ='www.google.com' print(sentence1.split()) # 返回一个列表 print(sentence2.split('.',1)) print('*'*80) # strip()用法 email = ' jackfrued@126.com' print(email) print(email.strip()) print(email.rstrip('.com')) print('*'*80) # pyperclip模块用法 # 将文本放入系统剪切板中 pyperclip.copy('老虎不发猫你当我病危呀') # 从系统剪切板获得文本 print(pyperclip.paste()) My brother\'s name is \'007\' My brother's name is '007' ******************************************************************************** True True False True True False True ******************************************************************************** 床前明月光-疑是地上霜-举头望明月-低头思故乡 ******************************************************************************** ['You', 'go', 'your', 'way', 'I', 'will', 'go', 'mine'] ['www', 'google.com'] ******************************************************************************** jackfrued@126.com jackfrued@126.com jackfrued@126 ******************************************************************************** 老虎不发猫你当我病危呀

1.1.2 字符串倒转

""" 字符串常用操作 - 实现字符串倒转的方法 """ from io import StringIO def reverse_str1(str): return str[::-1] def reverse_str2(str): if len(str) <= 1: return str return reverse_str2(str[1:]) + str[0:1] def reverse_str3(str): # StringIO对象是Python中的可变字符串 # 不应该使用不变字符串做字符串连接操作因为会产生很多无用字符串对象 rstr = StringIO() str_len = len(str) for index in range(str_len - 1, -1, -1): rstr.write(str[index]) return rstr.getvalue() def reverse_str4(str): return ''.join(str[index] for index in range(len(str) - 1, -1, -1)) def reverse_str5(str): # 将字符串处理成列表 str_list = list(str) str_len = len(str) # 使用zip函数将两个序列合并成一个产生元组的迭代器 # 每次正好可以取到一前一后两个下标来实现元素的交换 for i, j in zip(range(str_len // 2), range(str_len - 1, str_len // 2, -1)): str_list[i], str_list[j] = str_list[j], str_list[i] # 将列表元素连接成字符串 return ''.join(str_list) if __name__ == '__main__': str = 'I love Python' print(str) print(reverse_str1(str)) print('*'*80) print(reverse_str2(str)) print('*'*80) print(reverse_str3(str)) print('*'*80) print(reverse_str4(str)) print('*'*80) # print(reverse_str5(str)) I love Python nohtyP evol I ******************************************************************************** nohtyP evol I ******************************************************************************** nohtyP evol I ******************************************************************************** nohtyP evol I ********************************************************************************

1.2 正则表达式使用练习

1.2.1 验证输入用户名和QQ号是否有效

""" 验证输入用户名和QQ号是否有效并给出对应的提示信息要求：用户名必须由字母、数字或下划线构成且长度在6~20个字符之间 QQ号是5~12的数字且首位不能为0 """ import re def main(): username = input('请输入用户名: ') qq = input('请输入QQ号: ') # match(pattern, string, flags=0) # 用正则表达式匹配字符串成功返回匹配对象否则返回None m1 = re.match(r'^[0-9a-zA-Z_]{6,20}$', username) if not m1: print('请输入有效的用户名.') m2 = re.match(r'^[1-9]\d{4,11}$', qq) if not m2: print('请输入有效的QQ号.') if m1 and m2: print('你输入的信息是有效的!') if __name__ == '__main__': main() 请输入用户名: fighting 请输入QQ号: 2148924597 你输入的信息是有效的!

1.2.2 从一段文字中提取出国内手机号码

import re def main(): # 创建正则表达式对象使用了前瞻和回顾来保证手机号前后不应该出现数字 # compile(pattern, flags=0)编译正则表达式返回正则表达式对象 pattern = re.compile(r'(?<=\D)(1[38]\d{9}|14[57]\d{8}|15[0-35-9]\d{8}|17[678]\d{8})(?=\D)') sentence = ''' 重要的事情说8130123456789遍，我的手机号是13512346789这个靓号，不是15600998765，也是110或119，王大锤的手机号才是15600998765。 ''' # 查找所有匹配并保存到一个列表中 # findall(pattern, string, flags=0)查找字符串所有与正则表达式匹配的模式返回字符串的列表 mylist = re.findall(pattern, sentence) print(mylist) print('--------华丽的分隔线--------') # 通过迭代器取出匹配对象并获得匹配的内容 # finditer(pattern, string, flags=0)查找字符串所有与正则表达式匹配的模式返回一个迭代器 for temp in pattern.finditer(sentence): print(temp.group()) print('--------华丽的分隔线--------') # 通过search函数指定搜索位置找出所有匹配 # search(pattern, string, flags=0)搜索字符串中第一次出现正则表达式的模式成功返回匹配对象否则返回None m = pattern.search(sentence) while m: print(m.group()) m = pattern.search(sentence, m.end()) if __name__ == '__main__': main() ['13512346789', '15600998765', '15600998765'] --------华丽的分隔线-------- 13512346789 15600998765 15600998765 --------华丽的分隔线-------- 13512346789 15600998765 15600998765

1.2.3 不良内容过滤

""" 不良内容过滤 """ import re def main(): sentence = '你丫是傻叉吗? 我操你大爷的. Fuck you.' # sub(pattern, repl, string, count=0, flags=0)用指定的字符串替换原字符串中与正则表达式匹配的模式可以用count指定替换的次数 purified = re.sub('[操肏艹]|fuck|shit|傻[比屄逼叉缺吊屌]|煞笔', '*', sentence, flags=re.IGNORECASE) print(purified) if __name__ == '__main__': main() 你丫是*吗? 我*你大爷的. * you.

1.2.4 拆分长字符串

import re def main(): poem = '窗前明月光，疑是地上霜。举头望明月，低头思故乡。' # split(pattern, string, maxsplit=0, flags=0)用正则表达式指定的模式分隔符拆分字符串返回列表 sentence_list = re.split(r'[，。, .]', poem) while '' in sentence_list: sentence_list.remove('') print(sentence_list) if __name__ == '__main__': main() ['窗前明月光', '疑是地上霜', '举头望明月', '低头思故乡']

最新回复(0)