A. php正則表達式的使用技巧
PHP正則表達式的定義
用於描述字元排列和匹配模式的一種語法規則 它主要用於字元串的模式分割 匹配 查找及替換操作
PHP中的正則函數
PHP中有兩套正則函數 兩者功能差不多 分別為
一套是由PCRE(Perl Compatible Regular Expression)庫提供的 使用 preg_ 為前綴命名的函數
一套由POSIX(Portable Operating System Interface of Unix )擴展提供的 使用以 ereg_ 為前綴命名的函數 (POSIX的正則函數庫 自PHP 以後 就不在推薦使用 從PHP 以後 就將被移除)
由於POSIX正則即將推出歷史舞台 並且PCRE和perl的形式差不多 更利於我們在perl和php之間切換 所以這里重點介紹PCRE正則的使用
PCRE正則表達式
PCRE全稱為Perl Compatible Regular Expression 意思是Perl兼容正則表達式
在PCRE中 通常將模式表達式(即正則表達式)包含在兩個反斜線 / 之間 如 /apple/
正則中重要的幾個概念有 元字元 轉義 模式單元(重復) 反義 引用和斷言 這些概念都可以在文章[ ]中輕松的理解和掌握
常用的元字元(Meta character)
元字元 說明
/A 匹配字元串串首的原子
/Z 匹配字元串串尾的原子
/b 匹配單詞的邊界 //bis/ 匹配頭為is的字元串 /is/b/ 匹配尾為is的字元串 //bis/b/ 定界
/B 匹配除單詞邊界之外的任意字元 //Bis/ 匹配單詞 This 中的 is
/d 匹配一個數字 等價於[ ]
/D 匹配除數字以外任何一個字元 等價於[^ ]
/w 匹配一個英文字母 數字或下劃線 等價於[ a zA Z_]
/W 匹配除英文字母 數字和下劃線以外任何一個字元 等價於[^ a zA Z_]
/s 匹配一個空白字元 等價於[/f/t/v]
/S 匹配除空白字元以外任何一個字元 等價於[^/f/t/v]
/f 匹配一個換頁符等價於 /x c 或 /cL
匹配一個換行符 等價於 /x a 或 /cJ
匹配一個回車符等價於/x d 或 /cM
/t 匹配一個製表符 等價於 /x /或/cl
/v 匹配一個垂直製表符 等價於/x b或/ck
/oNN 匹配一個八進制數字
/xNN 匹配一個十六進制數字
/cC 匹配一個控制字元
模式修正符(Pattern Modifiers)
模式修正符在忽略大小寫 匹配多行中使用特別多 掌握了這一個修正符 往往能解決我們遇到的很多問題
i -可同時匹配大小寫字母
M -將字元串視為多行
S -將字元串視為單行 換行符做普通字元看待 使 匹配任何字元
X -模式中的空白忽略不計
U -匹配到最近的字元串
e -將替換的字元串作為表達使用
格式 /apple/i匹配 apple 或 Apple 等 忽略大小寫 /i
PCRE的模式單元
// 提取第一位的屬性
/^/d{ } ([/W])/d{ }// /d{ }$匹配 / / 等字元串 但上述正則表達式不匹配 / 的格式 這是因為模式 [/W] 的結果 / 已經被存儲 下個位置 / 引用時 其匹配模式也是字元 /
當不需要存儲匹配結果時使用非存儲模式單元 (? )
例如/(?:a|b|c)(D|E|F)// g/ 將匹配 aEEg 在一些正則表達式中 使用非存儲模式單元是必要的 否則 需要改變其後引用的順序 上例還可以寫成/(a|b|c)(C|E|F)/ g/
PCRE正則表達式函數
以下為引用的內容
preg_match()和preg_match_all() preg_quote() preg_split() preg_grep() preg_replace()
函數的具體使用 我們可以通過PHP手冊來找到 下面分享一些平時積累的正則表達式
匹配action屬性
以下為引用的內容
$str = ; $match = ; preg_match_all( //s+action=/ (?!)( *?)/ /s/ $str $match); print_r($match);
在正則中使用回調函數
以下為引用的內容
/** * replace some string by callback function * */ function callback_replace() { $url = ; $str = ; $str = preg_replace ( /(?<=/saction=/ )(?!)( *?)(?=/ /s)/e search(/$url // ) $str ); echo $str; } function search($url $match){ return $url / $match; }
帶斷言的正則匹配
以下為引用的內容
$match = ; $str = xxxxxx cn bold font paragraph text
; preg_match_all ( /(?<=<(/w{ })>) *(?=</// >)/ $str $match ); echo 匹配沒有屬性的HTML標簽中的內容 ; print_r ( $match );
替換HTML源碼中的地址
以下為引用的內容
$form_ = preg_replace ( /(?<=/saction=/ |/ssrc=/ |/s)(?!|javascript)( *?)(?=/ /s)/e add_url(/$url / // / ) $form_ );
lishixin/Article/program/PHP/201311/21027
B. 超常用的PHP正則表達式收集整理
以下就是對超常用的PHP正則表達式進行的收集整理,為了方便大家更快更好的掌握php正則表達式。
一、表單驗證匹配
驗證賬號,字母開頭,允許
5-16
位元組,允許字母數字下劃線:^[a-zA-Z][a-zA-Z0-9_]{4,15}$
驗證賬號,不能為空,不能有空格,只能是英文字母:^\S+[a-z
A-Z]$
驗證賬號,不能有空格,不能非數字:^\d+$
驗證用戶密碼,以字母開頭,長度在
6-18
之間:^[a-zA-Z]\w{5,17}$
驗證是否含有
^%&',;=?$\
等字元:[^%&',;=?$\x22]+
匹配Email地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配騰訊QQ號:[1-9][0-9]{4,}
匹配日期,只能是
2004-10-22
格式:^\d{4}\-\d{1,2}-\d{1,2}$
匹配國內電話號碼:^\d{3}-\d{8}|\d{4}-\d{7,8}$------------評註:匹配形式如010-12345678
或0571-12345678
或
0831-1234567
匹配中國郵政編碼:^[1-9]\d{5}(?!\d)$
匹配身份證:\d{14}(\d{4}|(\d{3}[xX])|\d{1})------------評註:中國的身份證為15
位或18
位
不能為空且二十位元組以上:^[\s|\S]{20,}$
二、字元匹配
匹配由
26
個英文字母組成的字元串:^[A-Za-z]+$
匹配由
26
個大寫英文字母組成的字元串:^[A-Z]+$
匹配由
26
個小寫英文字母組成的字元串:^[a-z]+$
匹配由數字和
26
個英文字母組成的字元串:^[A-Za-z0-9]+$
匹配由數字、26個英文字母或者下劃線組成的字元串:^\w+$
匹配空行:\n[\s|
]*\r
匹配任何內容:[\s\S]*
匹配中文字元:[\x80-\xff]+
或者
[\xa1-\xff]+
只能輸入漢字:^[\x80-\xff],{0,}$
匹配雙位元組字元(包括漢字在內):[^\x00-\xff]
三、匹配數字
只能輸入數字:^[0-9]*$
只能輸入n位的數字:^\d{n}$
只能輸入至少n位數字:^\d{n,}$
只能輸入m-n位的數字:^\d{m,n}$
匹配正整數:^[1-9]\d*$
匹配負整數:^-[1-9]\d*$
匹配整數:^-?[1-9]\d*$
匹配非負整數(正整數
+
0):^[1-9]\d*|0$
匹配非正整數(負整數
+
0):^-[1-9]\d*|0$
匹配正浮點數:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
匹配負浮點數:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
匹配浮點數:^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
匹配非負浮點數(正浮點數
+
0):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
匹配非正浮點數(負浮點數
+
0):^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
四、其他
匹配HTML標記的正則表達式(無法匹配嵌套標簽):<(\S*?)[^>]*>.*?</\1>|<.*?
/>
匹配網址
URL
:[a-zA-z]+://[^\s]*
匹配
IP
地址:((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)
匹配完整域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
提示
上述正則表達式通常都加了
^
與
$
來限定字元的起始和結束,如果需要匹配的內容包括在字元串當中,可能需要考慮去掉
^
和
$
限定符。
以上正則表達式僅供參考,使用時請檢驗後再使用,希望通過這些超常用的PHP正則表達式
C. php如何判斷是字元串全形還是半形
第一步:新建程序
使用Dreamweaver或記事本新建一個PHP程序,這是所有開發必須經過的開始,然後輸入測試段代碼(Hello World!),並運行。
第二步:輸入英文分號並運行
為了便於後面的比較,在編輯器新增一個<div>標簽並做對齊,輸入文字:我是英文PHP的分號(;),並在瀏覽器中運行
第三步:對比輸入中文分號再運行
接著輸入一段文字,我是中文PHP的分號(;),在瀏覽器中運行,並作比較,中文分號比英文分號更大更寬
第四步:輸入英文半形並運行
在編輯器中新增一個<div>標簽,輸入文字:我是PHP的半形寫法:php,並運行,並記錄
第五步:全半形及中英文切換
很多非專業的人不會切換全半形,切換全半形方式為Shift+Space鍵盤,也可以點擊輸入法切換
第六步:輸入英文全形再運行
同理,在編輯器中輸入文字:我是PHP全形寫法:php,並運行,比較全半形的區別(註:全形只在英文小寫字母才有作用),全形字元寬度明顯大於半形。
第七步:對比全形和半形
全形字元佔位大於半形。
第八步:對比中文和英文
英文符號再大小以及佔位寬度比中文符號小
D. 請問 php 正則中的這些是什麼編碼呢
一:[\x81-\xfe]格式的正則:
$s=preg_replace('/^([\x81-\xfe][\x40-\xfe])*/','0',$neirong); 這裡面的大多是日韓文字
二:x{4e00}格式的正則:
preg_match("/^[\x{4e00}-\x{9fa5}]{1,4}/u",$str); 這裡面是匹配中文;
——————————————————————————
這些字元集尤其是日文字元集的各種字、標點以及特殊符號的時候有所幫助。
UTF8
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}
UTF16
[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}
JIS
[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}
SJIS
[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])
EUC_JP
[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]{2}
EUC_JP標點符號及特殊字元
[\xa1-\xa2][\xa0-\xfe]
EUC_JP全形數字
\xa3[\xb0-\xb9]
EUC_JP全形大寫英文
\xa3[\xc1-\xda]
EUC_JP全形小寫英文
\xa3[\xe1-\xfa]
EUC_JP全形平假名
\xa4[\xa1-\xf3]
EUC_JP全形片假名 [color=Red]2007-03-12 15:00更新[/color]
\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]
EUC_JP全形漢字 [color=Red]2007-03-12 15:06更新[/color]
[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xB0-\xF3][\xA1-\xFE]|[\xF4][\xA1-\xA6]|[\xA4][\xA1-\xF3]|[\xA5][\xA1-\xF6]|[\xA1][\xBC-\xBE]
Big5
[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
GBK
[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
GB2312漢字
[\xb0-\xf7][\xa0-\xfe]
GB2312半形標點符號及特殊符號
\xa1[\xa2-\xfe]
GB2312羅馬數組及項目序號
\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
GB2312全形標點及全形字母
\xa3[\xa1-\xfe]
GB2312日文平假名
\xa4[\xa1-\xf3]
GB2312日文片假名
\xa5[\xa1-\xf6]
補充:
GB18030
[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
[color=Red]2007-03-12 21:35 補充[/color]
日文半形空格
\x20
SJIS全形空格
(?:\x81\x81)
SJIS全形數字
(?:\x82[\x4f-\x58])
SJIS全形大寫英文
(?:\x82[\x60-\x79])
SJIS全形小寫英文
(?:\x82[\x81-\x9a])
SJIS全形平假名
(?:\x82[\x9f-\xf1])
SJIS全形平假名擴展
(?:\x82[\x9f-\xf1]|\x81[\x4a\x4b\x54\x55])
SJIS全形片假名
(?:\x83[\x40-\x96])
SJIS全形片假名擴展
(?:\x83[\x40-\x96]|\x81[\x45\x5b\x52\x53])
EUC_JP全形空格
(?:\xa1\xa1)
EUC半形片假名
(?:\x8e[\xa6-\xdf])
——————————————————————————
下面是utf-8編碼的例子:
$str = "漢字";
if (preg_match("/^[\x{4e00}-\x{9fa5}]+$/u",$str)) {
print("該字元串全部是中文");
} else {
print("該字元串不全部是中文");
}
下面的例子包含gbk,gb2312的例子:
<?php
$action = trim($_GET['action']);
if($action == "sub")
{
$str = $_POST['dir'];
//if(!preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str)) //GB2312漢字字母數字下劃線正則表達式
if(!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z0-9_]+$/u",$str)) //UTF-8漢字字母數字下劃線正則表達式
{
echo "<font color=red>您輸入的[".$str."]含有違法字元</font>";
}
else
{
echo "<font color=green>您輸入的[".$str."]完全合法,通過!</font>";
}
}
?>
E. PHP常用正則表達式匯總
1.
^d+$"//非負整數(正整數
+
0)
2.
"^[0-9]*[1-9][0-9]*$"//正整數
3.
"^((-d+)|(0+))$"//非正整數(負整數
+
0)
4.
"^-[0-9]*[1-9][0-9]*$"//負整數
5.
"^-?d+$"//整數
6.
"^d+(.d+)?$"//非負浮點數(正浮點數
+
0)
7.
"^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$"//正浮點數
8.
"^((-d+(.d+)?)|(0+(.0+)?))$"//非正浮點數(負浮點數
+
0)
9.
"^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$"//負浮點數
10.
"^(-?d+)(.d+)?$"//浮點數
11.
"^[A-Za-z]+$"//由26個英文字母組成的字元串
12.
"^[A-Z]+$"//由26個英文字母的大寫組成的字元串
13.
"^[a-z]+$"//由26個英文字母的小寫組成的字元串
14.
"^[A-Za-z0-9]+$"//由數字和26個英文字母組成的字元串
15.
"^w+$"//由數字、26個英文字母或者下劃線組成的字元串
16.
"^[w-]+(.[w-]+)*@[w-]+(.[w-]+)+$"//email地址
17.
"^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$"//url
18.
/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/
//
年-月-日
19.
/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/
//
月/日/年
20.
"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$"
//Emil
21.
/^((+?[0-9]{2,4}-[0-9]{3,4}-)|([0-9]{3,4}-))?([0-9]{7,8})(-[0-9]+)?$/
//電話號碼
22.
"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$"
//IP地址
23.
匹配中文字元的正則表達式:
[u4e00-u9fa5]
24.
匹配雙位元組字元(包括漢字在內):[^x00-xff]
25.
匹配空行的正則表達式:n[s|
]*r
26.
匹配HTML標記的正則表達式:/<(.*)>.*</1>|<(.*)
/>/
27.
匹配首尾空格的正則表達式:(^s*)|(s*$)
28.
匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
29.
匹配網址URL的正則表達式:^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$
30.
匹配帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
31.
匹配國內電話號碼:(d{3}-|d{4}-)?(d{8}|d{7})?
32.
匹配騰訊QQ號:^[1-9]*[1-9][0-9]*$
33.
元字元及其在正則表達式上下文中的行為:
34.
將下一個字元標記為一個特殊字元、或一個原義字元、或一個後向引用、或一個八進制轉義符。
35.
^
匹配輸入字元串的開始位置。如果設置了
RegExp
對象的Multiline
屬性,^
也匹配
’n’
或
’r’
之後的位置。
36.
$
匹配輸入字元串的結束位置。如果設置了
RegExp
對象的Multiline
屬性,$
也匹配
’n’
或
’r’
之前的位置。
37.
*
匹配前面的子表達式零次或多次。
38.
+
匹配前面的子表達式一次或多次。+
等價於
{1,}。
39.
?
匹配前面的子表達式零次或一次。?
等價於
{0,1}。
40.
{n,}
n
是一個非負整數,至少匹配n
次。
41.
{n,m}
m
和
n
均為非負整數,其中n
<=
m。最少匹配
n
次且最多匹配
m
次。在逗號和兩個數之間不能有空格。