python在线正则表达式_请教Python中匹配IP的正则表达式

㈠从零开始学python爬虫（四）：正则表达式

Regular Expression，正则表达式，种使表达式的式对字符串进匹配的语法规则。

我们抓取到的源代码本质上就是个超的字符串，想从提取内容。正则再合适不过了。

正则的优点：速度快，效率，准确性正则的缺点：新上难度有点。

不过只要掌握了正则编写的逻辑关系，写出个提取内容的正则其实并不谈旦复杂

正则的语法：使元字符进排列组合来匹配字符串

在线测试正则表达式网址：

https://tool.oschina.net/regex/

元字符：具有固定含义的特冲旦殊符号常元字符：

量词: 控制前的元字符出现的次数

贪婪匹配和惰性匹配

这两个要着重的说下，因为我们写爬的最多的就是这个惰性匹配。

先看案例

那么接下来的问题是, 正则我会写了, 怎么在python程序中使正则呢？答案是re模块

re模块中我们只需要记住这么个功能就够我们使了。散侍扰

下面一个案例，是练习用正则表达式提取豆瓣电影top250的数据并保存，一起来学一下吧。

㈡ Python常用的正则表达式处理函数详解

正则表达式是一个特殊的字符序列，用于简洁表达一组字符串特征，检查一个字符串是否与某种模式匹配，使用起来十分方便。

在Python中，我们通过调用re库来使用re模块：

import re

下面介绍Python常用的正则表达式处理函数。

re.match函数

re.match 函数从字符串的起始位置匹配正则表达式，返回match对象，如果不是起始位置匹配成功的话，match()就返回None。

re.match(pattern, string, flags=0)

pattern：匹配的正则表达式。

string：待匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。具体参数为：

re.I：忽略大小写。

re.L：表示特殊字符集 w, W, , B, s, S 依赖于当前环境。

re.M：多行模式。

re.S：即 . ，并且包括换行符在内的任意字符（. 不包括换行符）。

re.U：表示特殊字符集 w, W, , B, d, D, s, S 依赖于 Unicode 字符属性数据库。

re.X：为了增加可读性，忽略空格和 # 后面的注释。

import re #从起始位置匹配 r1=re.match('abc','abcdefghi') print(r1) #不从起始位置匹配 r2=re.match('def','abcdefghi') print(r2)

运行结果：

其中，span表示匹配成功的整个子串的索引。

使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group(num)：匹配的整个表达式的字符串，group() 可以一次输入多个组号，这时它将返回一个包含那些组所对应值的元组。

groups()：返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re s='This is a demo' r1=re.match(r'(.*) is (.*)',s) r2=re.match(r'(.*) is (.*?)',s) print(r1.group()) print(r1.group(1)) print(r1.group(2)) print(r1.groups()) print() print(r2.group()) print(r2.group(1)) print(r2.group(2)) print(r2.groups())

运行结果：

上述代码中的(.*)和(.*?)表示正则表达式的贪婪匹配与非贪婪匹配。

re.search函数

re.search函数扫描整个字符串并返回第一个成功的匹配，如果匹配成功则返回match对象，否则返回None。

re.search(pattern, string, flags=0)

pattern：匹配的正则表达式。

string：待匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

import re #从起始位置匹配 r1=re.search('abc','abcdefghi') print(r1) #不从起始位置匹配 r2=re.search('def','abcdefghi') print(r2)

运行结果：

使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group(num=0)：匹配的整个表达式的字符串，group() 可以一次输入多个组号，这时它将返回一个包含那些组所对应值的元组。

groups()：返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re s='This is a demo' r1=re.search(r'(.*) is (.*)',s) r2=re.search(r'(.*) is (.*?)',s) print(r1.group()) print(r1.group(1)) print(r1.group(2)) print(r1.groups()) print() print(r2.group()) print(r2.group(1)) print(r2.group(2)) print(r2.groups())

运行结果：

从上面不难发现re.match与re.search的区别：re.match只匹配字符串的起始位置，只要起始位置不符合正则表达式就匹配失败，而re.search是匹配整个字符串，直到找到一个匹配为止。

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式对象，供 match() 和 search() 这两个函数使用。

re.compile(pattern[, flags])

pattern：一个字符串形式的正则表达式。

flags：可选，表示匹配模式，比如忽略大小写，多行模式等。

import re #匹配数字 r=re.compile(r'd+') r1=r.match('This is a demo') r2=r.match('This is 111 and That is 222',0,27) r3=r.match('This is 111 and That is 222',8,27) print(r1) print(r2) print(r3)

运行结果：

findall函数

搜索字符串，以列表形式返回正则表达式匹配的所有子串，如果没有找到匹配的，则返回空列表。

需要注意的是，match 和 search 是匹配一次，而findall 匹配所有。

findall(string[, pos[, endpos]])

string：待匹配的字符串。

pos：可选参数，指定字符串的起始位置，默认为0。

endpos：可选参数，指定字符串的结束位置，默认为字符串的长度。

import re #匹配数字 r=re.compile(r'd+') r1=r.findall('This is a demo') r2=r.findall('This is 111 and That is 222',0,11) r3=r.findall('This is 111 and That is 222',0,27) print(r1) print(r2) print(r3)

运行结果：

re.finditer函数

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

pattern：匹配的正则表达式。

string：待匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如是否区分大小写，多行匹配等。

import re r=re.finditer(r'd+','This is 111 and That is 222') for i in r: print (i.group())

运行结果：

re.split函数

将一个字符串按照正则表达式匹配的子串进行分割后，以列表形式返回。

re.split(pattern, string[, maxsplit=0, flags=0])

pattern：匹配的正则表达式。

string：待匹配的字符串。

maxsplit：分割次数，maxsplit=1分割一次，默认为0，不限次数。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等。

import re r1=re.split('W+','This is 111 and That is 222') r2=re.split('W+','This is 111 and That is 222',maxsplit=1) r3=re.split('d+','This is 111 and That is 222') r4=re.split('d+','This is 111 and That is 222',maxsplit=1) print(r1) print(r2) print(r3) print(r4)

运行结果：

re.sub函数

re.sub函数用于替换字符串中的匹配项。

re.sub(pattern, repl, string, count=0, flags=0)

pattern：正则中的模式字符串。

repl：替换的字符串，也可为一个函数。

string：要被查找替换的原始字符串。

count：模式匹配后替换的最大次数，默认0表示替换所有的匹配。

import re r='This is 111 and That is 222' # 删除字符串中的数字 r1=re.sub(r'd+','',r) print(r1) # 删除非数字的字符串 r2=re.sub(r'D','',r) print(r2)

运行结果：

到此这篇关于Python常用的正则表达式处理函数详解的文章就介绍到这了，希望大家以后多多支持！

㈢请教Python中匹配IP的正则表达式

下面是IPv4的IP正则匹配表达式

importre
#简单的匹配给定的字符串是否是ip地址,下面的例子它不是IPv4的地址，但是它满足正则表达式
ifre.match(r"^(?:[0-9]{1,3}.){3}[0-9]{1,3}$","272.168,1,1"):
print"IPvaild"
else:
print"IPinvaild"
#精确的匹配给定的字符串是否是IP地址
ifre.match(r"^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$","223.168.1.1"):
print"IPvaild"
else:
print"IPinvaild"
#简单的从长文本中提取中提取ip地址
string_ip="isthis289.22.22.22ip?
result=re.findall(r"(?:[0-9]{1,3}.){3}[0-9]{1,3}",string_ip)
ifresult:
printresult
else:
print"recannotfindip"
#精确提取IP
result=re.findall(r"(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)",string_ip):
ifresult:
printresult
else:
print"recannotfindip"

下面是IPv6的正则匹配表达式

string_IPv6="1050:0:0:0:5:600:300c:326b"
#匹配是否满足IPv6格式要求,请注意例子里大小写不敏感
ifre.match(r"^(?:[A-F0-9]{1,4}:){7}[A-F0-9]{1,4}$",string_IPv6,re.I):
print"IPv6vaild"
else:
print"IPv6invaild"
#提取IPv6，例子里大小写不敏感
result=re.findall(r"(?<![:.w])(?:[A-F0-9]{1,4}:){7}[A-F0-9]{1,4}(?![:.w])",string_IPv6,re.I)
#打印提取结果
printresult

㈣ python3 正则表达式如何实现中文模糊匹配替换并输出

要使用正则表达式实现中文模型李糊匹配替换并输出，你可以使用 Python 的 re 模块。以下是一个示例代码，读取一个名为 input.txt 的文件，将其中的 "竹某婵" 或 "竹婵某" 替换为 "竹婵婵"，然后将结果保存到一个名为 output.txt 的新文件中：

import re

# 定义一个函数来实现替换操作
def replace_pattern(match_obj):
return "竹婵婵"

# 读取文件内容
with open("input.txt", "r", encoding="utf-8") as file:
content = file.read()

# 使用正则表达式进行模糊匹配替换
pattern = r"竹(?:某|婵)(?:婵|某)"
replaced_content = re.sub(pattern, replace_pattern, content)

# 将替换后的内容写入新的文件
with open("output.txt", "w", encoding="utf-8") as file:
file.write(replaced_content)

在这个例子中，正则表达式 r"竹(?:某|婵)(?:婵|某)" 用于匹配 "竹某婵" 或 "竹婵某"。(?:...) 是一个非捕获组，它表示匹配其中的任意一个字符，但不会捕获该组。这里的组分别包含 "某" 和 "婵"，因此可以匹配 "竹某婵" 或 "竹婵某"。接下来，re.sub 函数用于替换匹配到的字符串。这里我们提供了一个替换函行缓数 replace_pattern，它直接返回 "竹婵婵"。最后，将替换后的内容写入一个名为 output.txt 的新文件。

…………

回复：

如果要实现匹配任意特定中文字符，可以使用 Unicode 的中文字符卜带迟范围。以下是修改后的示例代码，可以将 "竹某婵" 或 "竹婵某" 替换为 "竹婵婵"，其中 "某" 为任意中文字符：

import re

# 定义一个函数来实现替换操作
def replace_pattern(match_obj):
return "竹婵婵"

# 读取文件内容
with open("input.txt", "r", encoding="utf-8") as file:
content = file.read()

# 使用正则表达式进行模糊匹配替换
pattern = r"竹[u4e00-u9fa5]婵|竹婵[u4e00-u9fa5]"
replaced_content = re.sub(pattern, replace_pattern, content)

# 将替换后的内容写入新的文件
with open("output.txt", "w", encoding="utf-8") as file:
file.write(replaced_content)

在这个例子中，正则表达式 r"竹[u4e00-u9fa5]婵|竹婵[u4e00-u9fa5]" 用于匹配 "竹某婵" 或 "竹婵某"，其中 "某" 为任意中文字符。[u4e00-u9fa5] 用于匹配任意一个中文字符。接下来，re.sub 函数用于替换匹配到的字符串。这里我们提供了一个替换函数 replace_pattern，它直接返回 "竹婵婵"。最后，将替换后的内容写入一个名为 output.txt 的新文件。

㈤ python入门问题，关于正则表达式。求高手通俗解答。

pattern=r'([1-9]{1,3}(.[0-9]{1,3}){3})'

[1-9]{1,3}表示匹配由1-9之间任意数组成的1位、2位或3位数，如1，12，123

.[0-9]{1,3}表示匹配1个点接由0-9之间任意数组成的1位、2位或3位数，如.1，.12，.123

(.[0-9]{1,3}){3}表示.[0-9]{1,3}的匹配条件重复3次，如.1.2.3,.1.12.123,168.1.1

([1-9]{1,3}(.[0-9]{1,3}){3})表示匹配1-9之间任意数组成的1位、2位或3位数+1个点接由0-9之间任意数组成的1位、2位或3位数 * 3次，所以可以匹配127.0.0.1，192.168.1.66

()仅仅表示括号内的匹配项作为一组匹配，不会影响匹配的条件，

㈥ python中提供了哪几种通过正则表达式匹配字符串的方法有哪

python中提供了3种通过正则表达式匹配字符串的方法。种通过正则表达式匹配字符串的方法有以下三种。
1、贪婪匹配与非贪婪匹配：在定义用于匹配的模式串时，使用.*，则为贪婪匹配。使用.*，则为非贪婪匹配。
2、indall与search的选取问题：自己定义的模式串只能匹配到一个结果，使用search方法结合group方法可以直接得到这个字符串。自己定义的模式串能匹配到多个结果，则使用findall方法可以得到存储多个结果字符串的列表。
3、匹配时"()"和[]的用法：目标字符串‘abcde’[…]会匹配在[]内的任意一个字符，而不会匹配整个字符串。(…)会匹配在()内的整个字符串。使用search方法时则正常匹配（相当于没有()），使用findall方法时则只会匹配(…)的内容。）[]同时出现，考虑(…)式的字符串与[…]式内的字符和顺序，使用findall方法时结果会舍弃[…]内容，使用search方法时则正常匹配（相当于没有()和[]）。

导航:首页 > 编程语言 > python在线正则表达式

python在线正则表达式

与python在线正则表达式相关的资料