python正则表达式应用_python 正则表达式怎样匹配以某个字符串开头以某个字符串结尾的情况

① python 正则表达式，怎样匹配以某个字符串开头，以某个字符串结尾的情况

python正则匹配以xx开头以xx结尾的单词的步骤：

1、假设需要匹配的字符串为：site sea sue sweet see case sse ssee loses需要匹配的为以s开头以e结尾的单词。正确的正则式为：sS*?e

2、使用python中re.findall函数表示匹配字符串中所有的可能选项，re是python里的正则表达式模块。findall是其中一个方法，用来按照提供的正则表达式，去匹配文本中的所有符合条件的字符串。

3、代码和结果如下：

text ='site sea sue sweet see case sse ssee loses'

re.findall(r'sS*?e',text)

结果为：['site', 'sue', 'see', 'sse', 'ssee']

(1)python正则表达式应用扩展阅读：

python正则匹配,以某某开头某某结尾的最长子串匹配

代码如下：

regVersions = re.search(r'(V|v)[0-9].*[0-9]', filename)

if regVersions:

print regVersions.group()

② Python其实很简单第十一章正则表达式

正则表达式是一个特殊的字符序列，它用来检查一个字符串是否与某种模式匹配。正则表达式在编译程序中至关重要，但并不是每个人都需要特别深入的学习和掌握。在此，只介绍一些最基本的应用。

1、元字符

元字符是构成正则表达式的一些特殊字符。在正则表达式中，元字符被赋予了新的含义。

下面介绍一些常用的元字符及其含义：

. 匹配除换行符以外的任意字符。

w 匹配字母、数字、下划线或汉字。

W 匹配w所匹配的字符以外的字符。

s 匹配单个空白符（包括Tab键和换行符）。

S 匹配除s匹配的字符以外的字符。

d 匹配数字。

b 匹配单词的分界符，如：空格、标点符号或换行符。

^ 匹配字符串的开始

$ 匹配字符串的结束

2、限定符

限定符是在正则表达式中用来指定数量的字符。常用的限定符有：

? 匹配前面的字符0或1次。如：zo?m可以匹配zom和zm，但不能匹配 zoom

+ 匹配前面的字符1或n次。如：zo?m可以匹配zom和zoom，但不能匹配zm

* 匹配前面的字符0或n次。如：zo?m可以匹配zom、zoom和zm

{n} 匹配前面的字符n次。如：zo{2}m可以匹配zoom，但不能匹配zom和zm

{n,} 匹配前面的字符至少n次。如：zo{1,}m可以匹配zom和zoom，但不能匹配zm

{n,m} 匹配前面的字符至少n次，最多m次。如：zo{1,2}m可以匹配zom和zoom，但不能匹配zm

3、方括号”[ ]”的用途

方括号“[ ]”里可以列出某个字符范围。如：[aeiou]表示匹配任意一个元音字母，[zqsl]表示匹配姓氏“赵钱孙李”的拼音第一个字母。

4、排除字符

方括号”[ ]”中的“^”字符表示排除的意思，如：[^aeiou]表示匹配任意一个非元音字母的字符。

5、选择字符

字符“|”相当于“或”。如：(^d{3}[-]d{8})|(^d{4}[-]d{7})$可以匹配形如” - ”或“ - ”的电话号码格式。

6、转义字符

对于已经用于定义元字符和限定符的字符，需要加转义符“”来表示。

如：为了匹配形如“192.168.0.1”的IPv4地址（1~255.0~255.0~255.0~255），可以用这样的正则表达式：^(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])$

这里解释一下第一段IP地址的规则，取值范围为1~255，可分解为以下情况：

250~255：25[0-5]；

200~249：2[0-4][0-9]；

100~199：[01]{1}[0-9]{2}；

0~99: [0-9]{1}[1-9]

再加上”.”： .

其他三段地址和第一段相似。

7、“( )”可以用于分组

在正则表达式中，用“( )”括起来的部分是一个整体。

8、r（或R）的意义

在正则表达式中，为了保证模式字符串为原生字符串（没有经过加工处理的字符串），可以在模式字符串前加上一个字符‘r’或‘R’。例如：

# 这里用到对的re.match()方法接下来介绍

>>> import re # 导入re模块

>>> re.match('bPy[a-z]+','Python') # 表达式'bPy[a-z]+'不能匹配’Python’

>>> re.match('bPy[a-z]+','Python') # 表达式'bPy[a-z]+'可以匹配’Python’

在上述代码中，原本要用作匹配单词开始或结束的元字符’b’在表达式中字符串中会被视为转义一个字符‘b’，为了转义’b’就不得不再加一个’’符号。

也可以采用下面的方法：

>>> re.match(r'bPy[a-z]+','Python') #加字符’r’，可以保证原生字符串

9、match()方法

Match()方法尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。

语法格式：

re.match(pattern, string, [flags])

其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。

例：

import re #导入re模块

print(re.match('www', 'www.python.org/').span()) #span()函数可以获取匹配的位置

print(re.match('org', 'www.python.org'))

输出结果为：

(0, 3) #在位置0到3（不包括3）匹配成功

None #从起始位置未能匹配成功

10、search()方法

search()方法用于在整个字符串中搜索第一个匹配的值，如果匹配成功，则返回Match对象，否则返回None。

语法格式：

re.search(pattern, string, [flags])

其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。

例如：

>>> re.search(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.')

可以看出，目标字符串“It's easy to use Python, but it's not easy to learn Python.”中一共有两个‘Python’，search()方法可以从字符串的起始位置开始查找到‘Python’，当找到第一个匹配值后就停止查找，返回位置信息。

match()和search()的比较

match()要求目标字符串的起始位置就能匹配，search()对目标字符串全段进行逐次匹配，只要首次匹配成功就停止匹配。

请看下例:

>>> import re

>>> print(re.match(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.'))

输出结果：None

11、findall()方法

findall()方法用于在整个字符串中搜索所有匹配的值，如果匹配成功，则返回以匹配值为元素的列表，否则返回空列表。

语法格式：

re.findall(pattern, string[, flags])

其中，pattern表示匹配的正则表达式；string是要匹配的字符串；flags表示标志位，用于控制正则表达式的匹配方式，如：re.I表示不区分大小写。

例：

>>> import re

>>>print(re.findall(r'Pyw+','It's easy to use Python, but it's not easy to learn Python.'))

输出结果：['Python', 'Python']

可以看出，findall()的结果没有指出匹配的具体位置。

12、正则表达式的应用

字符串替换

这里要用到sub()方法。它的语法格式如下：

re.sub(pattern, repl, string [,count] [,flgs])

其中，pattern是模式字符串；repl是用于替换的字符串；string是原字符串；可选参数count为模式匹配后替换的最大次数，省缺表示替换所有的匹配；可选参数flags的意义与前面的方法的该参数一致。

例：

>>> import re

>>> str1='x=36.567 y=123.234'

>>> str2=re.sub('.d+','',str1) #用空格代替小数点及其后的数字

>>> print(str2)

输出结果：x=36 y=123

分隔字符串

这里要用到split()方法。它的返回值为一个列表，它的语法格式如下：

re.split(pattern, string [,maxsplit] [,flgs])

其中，pattern是模式字符串；string是原字符串；可选参数maxsplit为最大拆分次数，省缺表示拆分所有的匹配；可选参数flags的意义与前面的方法的该参数一致。

例：

>>> import re

>>> str='白日依山尽，黄河入海流。欲穷千里目，更上一层楼！'

>>> re.split(r'，|。|！',str) #按照“，”、“。”、“！”分隔字符串。

['白日依山尽', '黄河入海流', '欲穷千里目', '更上一层楼', '']

注意，返回值列表中多出了一个空字符。

③ python3 正则表达式如何实现中文模糊匹配替换并输出

要使用正则表达式实现中文模型李糊匹配替换并输出，你可以使用 Python 的 re 模块。以下是一个示例代码，读取一个名为 input.txt 的文件，将其中的 "竹某婵" 或 "竹婵某" 替换为 "竹婵婵"，然后将结果保存到一个名为 output.txt 的新文件中：

import re

# 定义一个函数来实现替换操作
def replace_pattern(match_obj):
return "竹婵婵"

# 读取文件内容
with open("input.txt", "r", encoding="utf-8") as file:
content = file.read()

# 使用正则表达式进行模糊匹配替换
pattern = r"竹(?:某|婵)(?:婵|某)"
replaced_content = re.sub(pattern, replace_pattern, content)

# 将替换后的内容写入新的文件
with open("output.txt", "w", encoding="utf-8") as file:
file.write(replaced_content)

在这个例子中，正则表达式 r"竹(?:某|婵)(?:婵|某)" 用于匹配 "竹某婵" 或 "竹婵某"。(?:...) 是一个非捕获组，它表示匹配其中的任意一个字符，但不会捕获该组。这里的组分别包含 "某" 和 "婵"，因此可以匹配 "竹某婵" 或 "竹婵某"。接下来，re.sub 函数用于替换匹配到的字符串。这里我们提供了一个替换函行缓数 replace_pattern，它直接返回 "竹婵婵"。最后，将替换后的内容写入一个名为 output.txt 的新文件。

…………

回复：

如果要实现匹配任意特定中文字符，可以使用 Unicode 的中文字符卜带迟范围。以下是修改后的示例代码，可以将 "竹某婵" 或 "竹婵某" 替换为 "竹婵婵"，其中 "某" 为任意中文字符：

import re

# 定义一个函数来实现替换操作
def replace_pattern(match_obj):
return "竹婵婵"

# 读取文件内容
with open("input.txt", "r", encoding="utf-8") as file:
content = file.read()

# 使用正则表达式进行模糊匹配替换
pattern = r"竹[u4e00-u9fa5]婵|竹婵[u4e00-u9fa5]"
replaced_content = re.sub(pattern, replace_pattern, content)

# 将替换后的内容写入新的文件
with open("output.txt", "w", encoding="utf-8") as file:
file.write(replaced_content)

在这个例子中，正则表达式 r"竹[u4e00-u9fa5]婵|竹婵[u4e00-u9fa5]" 用于匹配 "竹某婵" 或 "竹婵某"，其中 "某" 为任意中文字符。[u4e00-u9fa5] 用于匹配任意一个中文字符。接下来，re.sub 函数用于替换匹配到的字符串。这里我们提供了一个替换函数 replace_pattern，它直接返回 "竹婵婵"。最后，将替换后的内容写入一个名为 output.txt 的新文件。

④ Python正则表达式的几种匹配用法

下面列出： 1.测试正则表达式是否匹配字符串的全部或部分regex=ur"" #正则表达式
if re.search(regex, subject): do_something()else: do_anotherthing() 2.测试正则表达式是否匹配整个字符串 regex=ur"/Z" #正则表达式末尾以/Z结束
if re.match(regex, subject): do_something()else: do_anotherthing() 3.创建一个匹配对象，然后通过该对象获得匹配细节(Create an object with details about how the regex matches (part of) a string) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() do_something()else: do_anotherthing() 4.获取正则表达式所匹配的子串(Get the part of a string matched by the regex) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: result = match.group()else: result ="" 5. 获取捕获组所匹配的子串(Get the part of a string matched by a capturing group) regex=ur"" #正则表达式
match = re.search(regex, subject)if match: result = match.group(1)else: result ="" 6. 获取有名组所匹配的子串(Get the part of a string matched by a named group) regex=ur"" #正则表达式
match = re.search(regex, subject)if match:result = match.group"groupname")else:result = "" 7. 将字符串中所有匹配的子串放入数组中(Get an array of all regex matches in a string) result = re.findall(regex, subject) 8.遍历所有匹配的子串(Iterate over all matches in a string) for match in re.finditer(r"<(.*?)/s*.*?//1>", subject) # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() 9.通过正则表达式字符串创建一个正则表达式对象(Create an object to use the same regex for many operations) reobj = re.compile(regex) 10.用法１的正则表达式对象版本（use regex object for if/else branch whether (part of) a string can be matched） reobj = re.compile(regex)if reobj.search(subject): do_something()else: do_anotherthing() 11.用法２的正则表达式对象版本（use regex object for if/else branch whether a string can be matched entirely） reobj = re.compile(r"/Z") ＃正则表达式末尾以/Z 结束
if reobj.match(subject): do_something()else: do_anotherthing() 12.创建一个正则表达式对象，然后通过该对象获得匹配细节（Create an object with details about how the regex object matches (part of) a string） reobj = re.compile(regex) match = reobj.search(subject)if match: # match start: match.start() # match end (exclusive): atch.end() # matched text: match.group() do_something()else: do_anotherthing() 13.用正则表达式对象获取匹配子串（Use regex object to get the part of a string matched by the regex） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group()else: result ="" 14.用正则表达式对象获取捕获组所匹配的子串（Use regex object to get the part of a string matched by a capturing group） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group(1)else: result ="" 15.用正则表达式对象获取有名组所匹配的子串（Use regex object to get the part of a string matched by a named group） reobj = re.compile(regex) match = reobj.search(subject)if match: result = match.group("groupname")else: result ="" 16.用正则表达式对象获取所有匹配子串并放入数组（Use regex object to get an array of all regex matches in a string） reobj = re.compile(regex) result = reobj.findall(subject) 17.通过正则表达式对象遍历所有匹配子串（Use regex object to iterate over all matches in a string） reobj = re.compile(regex)for match in reobj.finditer(subject): # match start: match.start() # match end (exclusive): match.end() # matched text: match.group()字符串替换 1.替换所有匹配的子串 #用newstring替换subject中所有与正则表达式regex匹配的子串
result = re.sub(regex, newstring, subject) 2.替换所有匹配的子串（使用正则表达式对象） reobj = re.compile(regex) result = reobj.sub(newstring, subject) 字符串拆分 1.字符串拆分 result = re.split(regex, subject) 2.字符串拆分（使用正则表示式对象） reobj = re.compile(regex) result = reobj.split(subject)

⑤ 一文秒懂python正则表达式常用函数

01 Re概览
Re模块是python的内置模块，提供了正则表达式在python中的所有用法，默认安装位置在python根目录下的Lib文件夹（如 ..\Python\Python37\Lib）。主要提供了3大类字符串操作方法：

字符查找/匹配

字符替换

字符分割

由于是面向字符串类型的模块，就不得不提到字符串编码类型。re模块中，模式串和搜索串既可以是 Unicode 字符串 (常用str类型) ，也可以是8位字节串 (bytes，2位16进制数字，例如\xe5) ，但要求二者必须是同类型字符串。
02 字符串查找/匹配
预编译：compile

在介绍查找和匹配函数前，首先需要知道re的compile函数，该函数可以将一个模式串编译成正则表达式类型，以便后续快速匹配和复用
import re pattern = re.compile(r'[a-z]{2,5}') type(pattern) #re.Pattern
此例创建了一个正则表达式式对象 (re.pattern) ，命名为pattern，用于匹配2-5位小写字母的模式串。后续在使用其他正则表达式函数时，即可使用pattern进行方法调用。

匹配：match

match函数用于从文本串的起始位置开始匹配，若匹配成功，则返回相应的匹配对象，此时可调用group()方法返回匹配结果，也可用span()方法返回匹配起止下标区间；否则返回None
import re pattern = re.compile(r'[a-z]{2,5}') text1 = 'this is a re test' res = pattern.match(text1) print(res) # if res: print(res.group()) #this print(res.span()) #(0, 4) text2 = '是的, this is a re test' print(pattern.match(text2))#None
match函数还有一个变形函数fullmatch，当且仅当模式串与文本串刚好全部匹配时，返回一个匹配对象，否则返回None

搜索：search

match只提供了从文本串起始位置匹配的结果，如果想从任意位置匹配，则可调用search方法，与match方法类似，当任意位置匹配成功，则立即返回一个匹配对象，也可调用span()方法获取起止区间、调用group方法获得匹配文本串
import re pattern = re.compile(r'\s[a-z]{2}') text1 = 'this is a re test' res = pattern.search(text1) print(res) # if res: print(res.group()) #is print(res.span()) #(4, 7) pattern2 = re.compile(r'\s[a-z]{5}') text2 = '是的,this is a re test' print(pattern2.search(text2))#None
match和search均用于匹配单个结果，唯一区别在于前者是从起始位置开始匹配，而后者从任意位置匹配，匹配成功则返回一个match对象。

全搜索：findall/finditer

几乎是最常用的正则表达式函数，用于寻找所有匹配的结果，例如在爬虫信息提取中，可非常方便地提取所有匹配字段
import re pattern = re.compile(r'\s[a-z]{2,5}') text1 = 'this is a re test' res = pattern.findall(text1) print(res) #[' is', ' re', ' test']
findall返回的是一个列表对象类型，当无匹配对象时，返回一个空列表。为了避免因同时返回大量匹配结果占用过多内存，可以调用finditer函数返回一个迭代器类型，其中每个迭代元素是一个match对象，可继续调用group和span方法获取相应结果
import re pattern = re.compile(r'\s[a-z]{2,5}') text1 = 'this is a re test' res = pattern.finditer(text1) for r in res: print(r.group()) """ is re test """
当匹配模式串较为简单或者仅需单词调用时，上述所有方法也可直接调用re类函数，而无需事先编译。此时各方法的第一个参数为模式串。
import re pattern = re.compile(r'\d{2,5}') text = 'this is re test' re.findall('[a-z]+', text) #['this', 'is', 're', 'test'] 03 字符串替换/分割
替换:sub/subn

当需要对文本串进行条件替换时，可调用re.sub实现 (当然也可先编译后再用调用实例方法) ，相应参数分别为模式串、替换格式、文本串，还可以通过增加缺省参数限定替换次数和匹配模式。通过在模式串进行分组，可实现字符串的格式化替换（类似字符串的format方法），以实现特定任务。
import re text = 'today is 2020-03-05' print(re.sub('-', '', text)) #'today is 20200305' print(re.sub('-', '', text, 1)) #'today is 202003-05' print(re.sub('(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)) #'today is 03/05/2020'
re.sub的一个变形方法是re.subn，区别是返回一个2元素的元组，其中第一个元素为替换结果，第二个为替换次数
import re text = 'today is 2020-03-05' print(re.subn('-', '', text)) #('today is 20200305', 2)
分割：split

还可以调用正则表达式实现字符串的特定分割，相当于.split()方法的一个加强版，实现特定模式的分割，返回一个切割后的结果列表
import re text = 'today is a re test, what do you mind?' print(re.split(',', text)) #['today is a re test', ' what do you mind?'] 04 总结
python中的re模块提供了正则表达式的常用方法，每种方法都包括类方法调用(如re.match)或模式串的实例调用(pattern.match)2种形式

常用的匹配函数：match/fullmatch

常用的搜索函数：search/findall/finditer

常用的替换函数：sub/subn

常用的切割函数：split

还有其他很多方法，但不是很常用，具体可参考官方文档

另外，python还有第三方正则表达式库regex可供选择

到此这篇关于一文秒懂python正则表达式常用函数的文章就介绍到这了，希望大家以后多多支持！

⑥ python的正则表达式

1,正则表达式的一些内容

正则表达式主要是用来匹配文本中需要查找的内容,例如在一片文章中找出电话号码,就中国的来说11位纯数字(不说座机),则使用"d{11}" 意味匹配数字11次,就能准确的查找出文本中的电话号码. 还有就是在编写网络爬虫的时候需要提取很多超链接再次进行爬取,使用正则表达式就很方便.直接匹配http开头就行,当然也可以使用beautifulsoup的select方法.

看下面的程序看看正则表达提取文本中的邮箱:

w 匹配字母,数字,下划线

+ 匹配1次或者多次
re是正则表达式的工具包,工具包出错的话在anaconda的命令行输入"pip install re"安装,其他的工具包也是如此.

re.compile()中的r示意不是转义字符,也就是保持后面字符串原样,findall返回一个列表.下面还有一个版本的程序略有不同.

compile的另一个参数re.IGONORECASE(忽略大小写),还可以是re.DORALL,多行模式,具体功能也是模糊不清,不过在使用通配符 . 匹配的时候加上re.DOTALL参数能够匹配换行.如果希望忽略大小写和多行模式都开启可以使用re.compile(r'....',re.IGNORECASE|re.DOTALL) .

表达式使用( ),对匹配到的内容分为3组也就是(w+)出现字母,数字,下划线一次或多次,这个分组就是下面使用match对象的grou()方法的时候的参数.不给参数和参数0都是得到整个匹配到的内容, 参数1得到第一个括号匹配到的内容,以此类推参数2和3,如果没有括号分组的话使用参数会出现错误.
search( )查找和正则式匹配的内容,只匹一次后面的那个找不到.返回一个match对象

w 匹配字母,数字,下划线

W 匹配字母,数字.下划线之外的所有字符

d 匹配数字

D 匹配非数字

s 匹配空格,制表符,换行符

S匹配除空格制表符,换行符之外的其他字符

[ .... ]定义自己的匹配,如[aeiouAEIOU ]匹配所有的元音字母,注意不是匹配单词.

{最少次数,最多次数},例如{3,9} 匹配3-9次,{ ,10}匹配0-10次. 默认为匹配最多次数(贪心匹配),非贪心模式在后面加上问号

? 可选 0次或者1次吧

+匹配1次或多次

*匹配0次或者多次

^ 判断开头 ^d 如果待匹配串是数字开头则返回第一个数字

$判断结尾 d$ 如果待匹配串是数字结尾则返回最后一个数字

. 通配符,匹配除换行之外的所有字符

d{11} 匹配数字11次

. * 匹配所有字符除换行

[a-zA-Z0-9._%+-] 小写和大写字母、数字、句点、下划线、百分号、加号或短横

[a-zA-Z]{2,4} 匹配字母 2 - 4次

⑦ Python中正则表达式的匹配规则总结

其他关于Python的总结文章请访问： https://www.jianshu.com/nb/47435944

正则表达式用来匹配字符串，在python中可以使用 re 模块来完成，本篇做一个对正则表达式的匹配规则的总结

在上述的精确匹配后可以跟上一些符号来进行模糊的匹配：

可以使用中括号的形式进行范围匹配，中括号表达式后边可以跟上上述模糊匹配的符号来表示数量

多个条件可以 紧跟着写在同一个中括号中 ，比如：
[a-zA-Z] ：匹配一个大、小写字母

导航:首页 > 编程语言 > python正则表达式应用

python正则表达式应用

与python正则表达式应用相关的资料