程序員的正則表達式原理_Java中什麼是正則表達式

A. java中什麼是正則表達式

正則表達式就是將一個類型的數據按照一定方式寫成正則表達式的形式這樣可以辨別數據是否符合這一類型的數據比如我們的身份證號碼就是有一定的規則的這樣我們寫一個正則表達式和別人輸入的身份證號碼比對如果符合這個正則表達式的規則就是身份證號碼

B. 正則表達式

如果你曾經用過Perl或任何其他內建正則表達式支持的語言，你一定知道用正則表達式處理文本和匹配模式是多麼簡單。如果你不熟悉這個術語，那麼「正則表達式」（Regular Expression）就是一個字元構成的串，它定義了一個用來搜索匹配字元串的模式。
許多語言，包括Perl、php、Python、JavaScript和JScript，都支持用正則表達式處理文本，一些文本編輯器用正則表達式實現高級「搜索-替換」功能。那麼Java又怎樣呢？本文寫作時，一個包含了用正則表達式進行文本處理的Java規范需求（Specification Request）已經得到認可，你可以期待在JDK的下一版本中看到它。
然而，如果現在就需要使用正則表達式，又該怎麼辦呢？你可以從Apache.org下載源代碼開放的Jakarta-ORO庫。本文接下來的內容先簡要地介紹正則表達式的入門知識，然後以Jakarta-ORO API為例介紹如何使用正則表達式。
一、正則表達式基礎知識
我們先從簡單的開始。假設你要搜索一個包含字元「cat」的字元串，搜索用的正則表達式就是「cat」。如果搜索對大小寫不敏感，單詞「catalog」、「Catherine」、「sophisticated」都可以匹配。也就是說：

1.1 句點符號
假設你在玩英文拼字游戲，想要找出三個字母的單詞，而且這些單詞必須以「t」字母開頭，以「n」字母結束。另外，假設有一本英文字典，你可以用正則表達式搜索它的全部內容。要構造出這個正則表達式，你可以使用一個通配符——句點符號「.」。這樣，完整的表達式就是「t.n」，它匹配「tan」、「ten」、「tin」和「ton」，還匹配「t#n」、「tpn」甚至「t n」，還有其他許多無意義的組合。這是因為句點符號匹配所有字元，包括空格、Tab字元甚至換行符：

1.2 方括弧符號
為了解決句點符號匹配范圍過於廣泛這一問題，你可以在方括弧（「[]」）裡面指定看來有意義的字元。此時，只有方括弧裡面指定的字元才參與匹配。也就是說，正則表達式「t[aeio]n」只匹配「tan」、「Ten」、「tin」和「ton」。但「Toon」不匹配，因為在方括弧之內你只能匹配單個字元：

1.3 「或」符號
如果除了上面匹配的所有單詞之外，你還想要匹配「toon」，那麼，你可以使用「|」操作符。「|」操作符的基本意義就是「或」運算。要匹配「toon」，使用「t(a|e|i|o|oo)n」正則表達式。這里不能使用方擴號，因為方括弧只允許匹配單個字元；這里必須使用圓括弧「()」。圓括弧還可以用來分組，具體請參見後面介紹。

1.4 表示匹配次數的符號
表一顯示了表示匹配次數的符號，這些符號用來確定緊靠該符號左邊的符號出現的次數：

假設我們要在文本文件中搜索美國的社會安全號碼。這個號碼的格式是999-99-9999。用來匹配它的正則表達式如圖一所示。在正則表達式中，連字元（「-」）有著特殊的意義，它表示一個范圍，比如從0到9。因此，匹配社會安全號碼中的連字元號時，它的前面要加上一個轉義字元「\」。

圖一：匹配所有123-12-1234形式的社會安全號碼

假設進行搜索的時候，你希望連字元號可以出現，也可以不出現——即，999-99-9999和999999999都屬於正確的格式。這時，你可以在連字元號後面加上「？」數量限定符號，如圖二所示：

圖二：匹配所有123-12-1234和123121234形式的社會安全號碼

下面我們再來看另外一個例子。美國汽車牌照的一種格式是四個數字加上二個字母。它的正則表達式前面是數字部分「[0-9]{4}」，再加上字母部分「[A-Z]{2}」。圖三顯示了完整的正則表達式。

圖三：匹配典型的美國汽車牌照號碼，如8836KV

1.5 「否」符號
「^」符號稱為「否」符號。如果用在方括弧內，「^」表示不想要匹配的字元。例如，圖四的正則表達式匹配所有單詞，但以「X」字母開頭的單詞除外。

圖四：匹配所有單詞，但「X」開頭的除外

1.6 圓括弧和空白符號
假設要從格式為「June 26, 1951」的生日日期中提取出月份部分，用來匹配該日期的正則表達式可以如圖五所示：

圖五：匹配所有Moth DD,YYYY格式的日期

新出現的「\s」符號是空白符號，匹配所有的空白字元，包括Tab字元。如果字元串正確匹配，接下來如何提取出月份部分呢？只需在月份周圍加上一個圓括弧創建一個組，然後用ORO API（本文後面詳細討論）提取出它的值。修改後的正則表達式如圖六所示：

圖六：匹配所有Month DD,YYYY格式的日期，定義月份值為第一個組

1.7 其它符號
為簡便起見，你可以使用一些為常見正則表達式創建的快捷符號。如表二所示：
表二：常用符號

例如，在前面社會安全號碼的例子中，所有出現「[0-9]」的地方我們都可以使用「\d」。修改後的正則表達式如圖七所示：

圖七：匹配所有123-12-1234格式的社會安全號碼

二、Jakarta-ORO庫
有許多源代碼開放的正則表達式庫可供Java程序員使用，而且它們中的許多支持Perl 5兼容的正則表達式語法。我在這里選用的是Jakarta-ORO正則表達式庫，它是最全面的正則表達式API之一，而且它與Perl 5正則表達式完全兼容。另外，它也是優化得最好的API之一。
Jakarta-ORO庫以前叫做OROMatcher，Daniel Savarese大方地把它贈送給了Jakarta Project。你可以按照本文最後參考資源的說明下載它。
我首先將簡要介紹使用Jakarta-ORO庫時你必須創建和訪問的對象，然後介紹如何使用Jakarta-ORO API。
▲ PatternCompiler對象
首先，創建一個Perl5Compiler類的實例，並把它賦值給PatternCompiler介面對象。Perl5Compiler是PatternCompiler介面的一個實現，允許你把正則表達式編譯成用來匹配的Pattern對象。

▲ Pattern對象
要把正則表達式編譯成Pattern對象，調用compiler對象的compile()方法，並在調用參數中指定正則表達式。例如，你可以按照下面這種方式編譯正則表達式「t[aeio]n」：

默認情況下，編譯器創建一個大小寫敏感的模式（pattern）。因此，上面代碼編譯得到的模式只匹配「tin」、「tan」、「ten」和「ton」，但不匹配「Tin」和「taN」。要創建一個大小寫不敏感的模式，你應該在調用編譯器的時候指定一個額外的參數：

創建好Pattern對象之後，你就可以通過PatternMatcher類用該Pattern對象進行模式匹配。
▲ PatternMatcher對象
PatternMatcher對象根據Pattern對象和字元串進行匹配檢查。你要實例化一個Perl5Matcher類並把結果賦值給PatternMatcher介面。Perl5Matcher類是PatternMatcher介面的一個實現，它根據Perl 5正則表達式語法進行模式匹配：

使用PatternMatcher對象，你可以用多個方法進行匹配操作，這些方法的第一個參數都是需要根據正則表達式進行匹配的字元串：
· boolean matches(String input, Pattern pattern)：當輸入字元串和正則表達式要精確匹配時使用。換句話說，正則表達式必須完整地描述輸入字元串。
· boolean matchesPrefix(String input, Pattern pattern)：當正則表達式匹配輸入字元串起始部分時使用。
· boolean contains(String input, Pattern pattern)：當正則表達式要匹配輸入字元串的一部分時使用（即，它必須是一個子串）。
另外，在上面三個方法調用中，你還可以用PatternMatcherInput對象作為參數替代String對象；這時，你可以從字元串中最後一次匹配的位置開始繼續進行匹配。當字元串可能有多個子串匹配給定的正則表達式時，用PatternMatcherInput對象作為參數就很有用了。用PatternMatcherInput對象作為參數替代String時，上述三個方法的語法如下：
· boolean matches(PatternMatcherInput input, Pattern pattern)
· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)
· boolean contains(PatternMatcherInput input, Pattern pattern)
三、應用實例
下面我們來看看Jakarta-ORO庫的一些應用實例。
3.1 日誌文件處理
任務：分析一個Web伺服器日誌文件，確定每一個用戶花在網站上的時間。在典型的BEA WebLogic日誌文件中，日誌記錄的格式如下：

分析這個日誌記錄，可以發現，要從這個日誌文件提取的內容有兩項：IP地址和頁面訪問時間。你可以用分組符號（圓括弧）從日誌記錄提取出IP地址和時間標記。
首先我們來看看IP地址。IP地址有4個位元組構成，每一個位元組的值在0到255之間，各個位元組通過一個句點分隔。因此，IP地址中的每一個位元組有至少一個、最多三個數字。圖八顯示了為IP地址編寫的正則表達式：

圖八：匹配IP地址

IP地址中的句點字元必須進行轉義處理（前面加上「\」），因為IP地址中的句點具有它本來的含義，而不是採用正則表達式語法中的特殊含義。句點在正則表達式中的特殊含義本文前面已經介紹。
日誌記錄的時間部分由一對方括弧包圍。你可以按照如下思路提取出方括弧裡面的所有內容：首先搜索起始方括弧字元（「[」），提取出所有不超過結束方括弧字元（「]」）的內容，向前尋找直至找到結束方括弧字元。圖九顯示了這部分的正則表達式。

圖九：匹配至少一個字元，直至找到「]」

現在，把上述兩個正則表達式加上分組符號（圓括弧）後合並成單個表達式，這樣就可以從日誌記錄提取出IP地址和時間。注意，為了匹配「- -」（但不提取它），正則表達式中間加入了「\s-\s-\s」。完整的正則表達式如圖十所示。

圖十：匹配IP地址和時間標記

現在正則表達式已經編寫完畢，接下來可以編寫使用正則表達式庫的Java代碼了。
為使用Jakarta-ORO庫，首先創建正則表達式字元串和待分析的日誌記錄字元串：

這里使用的正則表達式與圖十的正則表達式差不多完全相同，但有一點例外：在Java中，你必須對每一個向前的斜杠（「\」）進行轉義處理。圖十不是Java的表示形式，所以我們要在每個「\」前面加上一個「\」以免出現編譯錯誤
回答者

C. 什麼叫「正則表達式」

如果你曾經用過Perl或任何其他內建正則表達式支持的語言，你一定知道用正則表達式處理文本和匹配模式是多麼簡單。如果你不熟悉這個術語，那麼「正則表達式」（Regular Expression）就是一個字元構成的串，它定義了一個用來搜索匹配字元串的模式。
許多語言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正則表達式處理文本，一些文本編輯器用正則表達式實現高級「搜索-替換」功能。那麼Java又怎樣呢？本文寫作時，一個包含了用正則表達式進行文本處理的Java規范需求（Specification Request）已經得到認可，你可以期待在JDK的下一版本中看到它。
然而，如果現在就需要使用正則表達式，又該怎麼辦呢？你可以從Apache.org下載源代碼開放的Jakarta-ORO庫。本文接下來的內容先簡要地介紹正則表達式的入門知識，然後以Jakarta-ORO API為例介紹如何使用正則表達式。
一、正則表達式基礎知識
我們先從簡單的開始。假設你要搜索一個包含字元「cat」的字元串，搜索用的正則表達式就是「cat」。如果搜索對大小寫不敏感，單詞「catalog」、「Catherine」、「sophisticated」都可以匹配。也就是說：

1.1 句點符號
假設你在玩英文拼字游戲，想要找出三個字母的單詞，而且這些單詞必須以「t」字母開頭，以「n」字母結束。另外，假設有一本英文字典，你可以用正則表達式搜索它的全部內容。要構造出這個正則表達式，你可以使用一個通配符——句點符號「.」。這樣，完整的表達式就是「t.n」，它匹配「tan」、「ten」、「tin」和「ton」，還匹配「t#n」、「tpn」甚至「t n」，還有其他許多無意義的組合。這是因為句點符號匹配所有字元，包括空格、Tab字元甚至換行符：

1.2 方括弧符號
為了解決句點符號匹配范圍過於廣泛這一問題，你可以在方括弧（「[]」）裡面指定看來有意義的字元。此時，只有方括弧裡面指定的字元才參與匹配。也就是說，正則表達式「t[aeio]n」只匹配「tan」、「Ten」、「tin」和「ton」。但「Toon」不匹配，因為在方括弧之內你只能匹配單個字元：

1.3 「或」符號
如果除了上面匹配的所有單詞之外，你還想要匹配「toon」，那麼，你可以使用「|」操作符。「|」操作符的基本意義就是「或」運算。要匹配「toon」，使用「t(a|e|i|o|oo)n」正則表達式。這里不能使用方擴號，因為方括弧只允許匹配單個字元；這里必須使用圓括弧「()」。圓括弧還可以用來分組，具體請參見後面介紹。

1.4 表示匹配次數的符號
表一顯示了表示匹配次數的符號，這些符號用來確定緊靠該符號左邊的符號出現的次數：

假設我們要在文本文件中搜索美國的社會安全號碼。這個號碼的格式是999-99-9999。用來匹配它的正則表達式如圖一所示。在正則表達式中，連字元（「-」）有著特殊的意義，它表示一個范圍，比如從0到9。因此，匹配社會安全號碼中的連字元號時，它的前面要加上一個轉義字元「\」。

圖一：匹配所有123-12-1234形式的社會安全號碼

假設進行搜索的時候，你希望連字元號可以出現，也可以不出現——即，999-99-9999和999999999都屬於正確的格式。這時，你可以在連字元號後面加上「？」數量限定符號，如圖二所示：

圖二：匹配所有123-12-1234和123121234形式的社會安全號碼

下面我們再來看另外一個例子。美國汽車牌照的一種格式是四個數字加上二個字母。它的正則表達式前面是數字部分「[0-9]{4}」，再加上字母部分「[A-Z]{2}」。圖三顯示了完整的正則表達式。

圖三：匹配典型的美國汽車牌照號碼，如8836KV

1.5 「否」符號
「^」符號稱為「否」符號。如果用在方括弧內，「^」表示不想要匹配的字元。例如，圖四的正則表達式匹配所有單詞，但以「X」字母開頭的單詞除外。

圖四：匹配所有單詞，但「X」開頭的除外

1.6 圓括弧和空白符號
假設要從格式為「June 26, 1951」的生日日期中提取出月份部分，用來匹配該日期的正則表達式可以如圖五所示：

圖五：匹配所有Moth DD,YYYY格式的日期

新出現的「\s」符號是空白符號，匹配所有的空白字元，包括Tab字元。如果字元串正確匹配，接下來如何提取出月份部分呢？只需在月份周圍加上一個圓括弧創建一個組，然後用ORO API（本文後面詳細討論）提取出它的值。修改後的正則表達式如圖六所示：

圖六：匹配所有Month DD,YYYY格式的日期，定義月份值為第一個組

1.7 其它符號
為簡便起見，你可以使用一些為常見正則表達式創建的快捷符號。如表二所示：
表二：常用符號

例如，在前面社會安全號碼的例子中，所有出現「[0-9]」的地方我們都可以使用「\d」。修改後的正則表達式如圖七所示：

圖七：匹配所有123-12-1234格式的社會安全號碼

二、Jakarta-ORO庫
有許多源代碼開放的正則表達式庫可供Java程序員使用，而且它們中的許多支持Perl 5兼容的正則表達式語法。我在這里選用的是Jakarta-ORO正則表達式庫，它是最全面的正則表達式API之一，而且它與Perl 5正則表達式完全兼容。另外，它也是優化得最好的API之一。
Jakarta-ORO庫以前叫做OROMatcher，Daniel Savarese大方地把它贈送給了Jakarta Project。你可以按照本文最後參考資源的說明下載它。
我首先將簡要介紹使用Jakarta-ORO庫時你必須創建和訪問的對象，然後介紹如何使用Jakarta-ORO API。
▲ PatternCompiler對象
首先，創建一個Perl5Compiler類的實例，並把它賦值給PatternCompiler介面對象。Perl5Compiler是PatternCompiler介面的一個實現，允許你把正則表達式編譯成用來匹配的Pattern對象。

▲ Pattern對象
要把正則表達式編譯成Pattern對象，調用compiler對象的compile()方法，並在調用參數中指定正則表達式。例如，你可以按照下面這種方式編譯正則表達式「t[aeio]n」：

默認情況下，編譯器創建一個大小寫敏感的模式（pattern）。因此，上面代碼編譯得到的模式只匹配「tin」、「tan」、「ten」和「ton」，但不匹配「Tin」和「taN」。要創建一個大小寫不敏感的模式，你應該在調用編譯器的時候指定一個額外的參數：

創建好Pattern對象之後，你就可以通過PatternMatcher類用該Pattern對象進行模式匹配。
▲ PatternMatcher對象
PatternMatcher對象根據Pattern對象和字元串進行匹配檢查。你要實例化一個Perl5Matcher類並把結果賦值給PatternMatcher介面。Perl5Matcher類是PatternMatcher介面的一個實現，它根據Perl 5正則表達式語法進行模式匹配：

使用PatternMatcher對象，你可以用多個方法進行匹配操作，這些方法的第一個參數都是需要根據正則表達式進行匹配的字元串：
· boolean matches(String input, Pattern pattern)：當輸入字元串和正則表達式要精確匹配時使用。換句話說，正則表達式必須完整地描述輸入字元串。
· boolean matchesPrefix(String input, Pattern pattern)：當正則表達式匹配輸入字元串起始部分時使用。
· boolean contains(String input, Pattern pattern)：當正則表達式要匹配輸入字元串的一部分時使用（即，它必須是一個子串）。
另外，在上面三個方法調用中，你還可以用PatternMatcherInput對象作為參數替代String對象；這時，你可以從字元串中最後一次匹配的位置開始繼續進行匹配。當字元串可能有多個子串匹配給定的正則表達式時，用PatternMatcherInput對象作為參數就很有用了。用PatternMatcherInput對象作為參數替代String時，上述三個方法的語法如下：
· boolean matches(PatternMatcherInput input, Pattern pattern)
· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)
· boolean contains(PatternMatcherInput input, Pattern pattern)
三、應用實例
下面我們來看看Jakarta-ORO庫的一些應用實例。
3.1 日誌文件處理
任務：分析一個Web伺服器日誌文件，確定每一個用戶花在網站上的時間。在典型的BEA WebLogic日誌文件中，日誌記錄的格式如下：

分析這個日誌記錄，可以發現，要從這個日誌文件提取的內容有兩項：IP地址和頁面訪問時間。你可以用分組符號（圓括弧）從日誌記錄提取出IP地址和時間標記。
首先我們來看看IP地址。IP地址有4個位元組構成，每一個位元組的值在0到255之間，各個位元組通過一個句點分隔。因此，IP地址中的每一個位元組有至少一個、最多三個數字。圖八顯示了為IP地址編寫的正則表達式：

圖八：匹配IP地址

IP地址中的句點字元必須進行轉義處理（前面加上「\」），因為IP地址中的句點具有它本來的含義，而不是採用正則表達式語法中的特殊含義。句點在正則表達式中的特殊含義本文前面已經介紹。
日誌記錄的時間部分由一對方括弧包圍。你可以按照如下思路提取出方括弧裡面的所有內容：首先搜索起始方括弧字元（「[」），提取出所有不超過結束方括弧字元（「]」）的內容，向前尋找直至找到結束方括弧字元。圖九顯示了這部分的正則表達式。

圖九：匹配至少一個字元，直至找到「]」

現在，把上述兩個正則表達式加上分組符號（圓括弧）後合並成單個表達式，這樣就可以從日誌記錄提取出IP地址和時間。注意，為了匹配「- -」（但不提取它），正則表達式中間加入了「\s-\s-\s」。完整的正則表達式如圖十所示。

圖十：匹配IP地址和時間標記

現在正則表達式已經編寫完畢，接下來可以編寫使用正則表達式庫的Java代碼了。
為使用Jakarta-ORO庫，首先創建正則表達式字元串和待分析的日誌記錄字元串：

這里使用的正則表達式與圖十的正則表達式差不多完全相同，但有一點例外：在Java中，你必須對每一個向前的斜杠（「\」）進行轉義處理。圖十不是Java的表示形式，所以我們要在每個「\」前面加上一個「\」以免出現編譯錯誤

D. 正則表達式是什麼

正則表達式（英文：Regular Expression），在計算機科學中，是指一個用來描述或者匹配一系列符合某個句法規則的字元串的單個字元串。在很多文本編輯器或其他工具里，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字元串操作。例如，在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體（例如sed和grep）普及開的。「正則表達式」通常縮寫成「regex」，單數有regexp、regex，復數有regexps、regexes、regexen。
基本概念一個正則表達式通常被稱為一個模式 (pattern)，為用來描述或者匹配一系列符合某個句法規則的字元串。例如：Handel、H�0�1ndel 和 Haendel 這三個字元串，都可以由 "H(a|�0�1|ae)ndel" 這個模式來描述。大部分正則表達式的形式都有如下的結構：替換 | 豎直分隔符代表替換。例如"gray|grey"可以匹配grey或gray。</dd>數量限定某個字元後的數量限定符用來限定前面這個字元允許出現的個數。最常見的數量限定符包括「+」，「?」和「*」（不加數量限定則代表出現一次且僅出現一次）：+ 加號代表前面的字元必須至少出現一次。(1次，或多次)。例如，"goo+gle"可以匹配google，gooogle，goooogle等;</dd>? 問號代表前面的字元最多隻可以出現一次。(0次，或1次)。例如，"colou?r"可以匹配colour或者color;</dd>* 星號代表前面的字元可以不出現，也可以出現一次或者多次。(0次，或1次，或多次)。例如，"0*42"可以匹配42，042，0042，00042等。</dd>匹配圓括弧可以用來定義操作符的范圍和優先度。例如，"gr(a|e)y"等價於"gray|grey"，"(grand)?father"匹配father和grandfather。上述這些構造子都可以自由組合，因此，"H(ae?|�0�1)ndel"和"H(a|ae|�0�1)ndel"是相同的。精確的語法可能因不同的工具或程序而異。歷史最初的正則表達式出現於理論計算機科學的自動控制理論和形式語言理論中。在這些領域中有對計算（自動控制）的模型和對形式語言描述與分類的研究。1940年代，Warren McCulloch與Walter Pitts將神經系統中的神經元描述成小而簡單的自動控制元。在1950年代，數學家斯蒂芬·科爾·克萊尼利用稱之為正則集合的數學符號來描述此模型。肯·湯普遜將此符號系統引入編輯器QED，然後是Unix上的編輯器ed，並最終引入grep。自此，正則表達式被廣泛地使用於各種Unix或者類似Unix的工具，例如Perl。Perl正則表達式源自於Henry Spencer寫的regex，它已經演化成了pcre（Perl兼容正則表達式Perl Compatible Regular Expressions），一個由Philip Hazel開發的，為很多現代工具所使用的庫。各計算機語言之間的正則表達式的整合目前開展的很差。未來的Perl6的子項目Apocalypse的設計中已考慮到了這點。形式語言理論正則表達式可以用形式語言理論的方式來表達。正則表達式由常量和運算元組成，它們分別指示字元串的集合和在這些集合上的運算。給定有限字母表 Σ 定義了下列常量:(「空集」) �6�1 指示集合 �6�1 (「空串」) ε 指示集合 {ε} (「文字字元」) 在 Σ 中的 a 指示集合 {a} 定義了下列運算:(「串接」) RS 指示集合 { αβ | α ∈ R ∧ β ∈ S }。例如 {"ab"|"c"}{"d"|"ef"} = {"abd", "abef", "cd", "cef"}。 (「選擇」) R|S 指示 R 和 S 的並集。 (「Kleene星號」) R* 指示包含 ε 並且閉合在字元串串接下的 R 的最小超集。這是可以通過 R 中的零或多個字元串的串接得到所有字元串的集合。例如，{"ab", "c"}* = {ε, "ab", "c", "abab", "abc", "cab", "cc", "ababab", ... }。上述常量和運算元形成了克萊尼代數。很多課本使用對選擇使用符號 ∪, + 或 ∨ 替代豎杠。為了避免括弧，假定 Kleene 星號有最高優先順序，接著是串接，接著是並集。如果沒有歧義則可以省略括弧。例如，(ab)c 可以寫為 abc 而 a|(b(c*)) 可以寫為 a|bc*。例子:a|b* 指示 {ε, a, b, bb, bbb, ...}。 (a|b)* 指示由包括空串、任意數目個 a 和 b 字元組成的所有字元串的集合。 ab*(c|ε) 指示開始於一個 a 接著零或多個 b 和最終可選的一個 c 的字元串的集合。正則表達式的形式定義故意非常精簡，避免定義多餘的量詞 ? 和 +，它們可以被表達為: a+ = aa* 和 a? = (a|ε)。有時增加補運算元 ~ ；~R 指示在 Σ* 上的不在 R 中的所有字元串的集合。補運算元是多餘的，因為它使用其他運算元來表達(盡管計算這種表示的過程是復雜的，而結果可能指數性的增大)。這種意義上的正則表達式可以表達正則語言，精確的是可被有限狀態自動機接受的語言類。但是在簡潔性上有重要區別。某類正則語言只能用大小指數增長的自動機來描述，而要求的正則表達式的長度只線性的增長。正則表達式對應於喬姆斯基層級的類型-3文法。在另一方面，在正則表達式和不導致這種大小上的爆炸的非確定有限狀態自動機(NFA)之間有簡單的映射；為此 NFA 經常被用作正則表達式的替代表示。我們還要在這種形式化中研究表達力。如下面例子所展示的，不同的正則表達式可以表達同樣的語言: 這種形式化中存在著冗餘。有可能對兩個給定正則表達式寫一個演算法來判定它們所描述的語言是否本質上相等，簡約每個表達式到極小確定有限自動機，確定它們是否同構（等價）。這種冗餘可以消減到什麼程度? 我們可以找到仍有完全表達力的正則表達式的有趣的子集嗎? Kleene 星號和並集明顯是需要的，但是我們或許可以限制它們的使用。這提出了一個令人驚奇的困難問題。因為正則表達式如此簡單，沒有辦法在語法上把它重寫成某種規范形式。過去公理化的缺乏導致了星號高度問題。最近 Dexter Kozen 用克萊尼代數公理化了正則表達式。很多現實世界的「正則表達式」引擎實現了不能用正則表達式代數表達的特徵。表達式全集正則表達式有多種不同的風格。下表是在PCRE中元字元及其在正則表達式上下文中的行為的一個完整列表：字元描述\將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進制轉義符。例如，「n」匹配字元「n」。「\n」匹配一個換行符。序列「\\」匹配「\」而「\(」則匹配「(」。^匹配輸入字元串的開始位置。如果設置了RegExp對象的Multiline屬性，^也匹配「\n」或「\r」之後的位置。$匹配輸入字元串的結束位置。如果設置了RegExp對象的Multiline屬性，$也匹配「\n」或「\r」之前的位置。*匹配前面的子表達式零次或多次。例如，zo*能匹配「z」以及「zoo」。*等價於{0,}。+匹配前面的子表達式一次或多次。例如，「zo+」能匹配「zo」以及「zoo」，但不能匹配「z」。+等價於{1,}。?匹配前面的子表達式零次或一次。例如，「do(es)?」可以匹配「do」或「does」中的「do」。?等價於{0,1}。{n}n是一個非負整數。匹配確定的n次。例如，「o{2}」不能匹配「Bob」中的「o」，但是能匹配「food」中的兩個o。{n,}n是一個非負整數。至少匹配n次。例如，「o{2,}」不能匹配「Bob」中的「o」，但能匹配「foooood」中的所有o。「o{1,}」等價於「o+」。「o{0,}」則等價於「o*」。{n,m}m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，「o{1,3}」將匹配「fooooood」中的前三個o。「o{0,1}」等價於「o?」。請注意在逗號和兩個數之間不能有空格。?當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字元串，而默認的貪婪模式則盡可能多的匹配所搜索的字元串。例如，對於字元串「oooo」，「o+?」將匹配單個「o」，而「o+」將匹配所有「o」。.匹配除「\n」之外的任何單個字元。要匹配包括「\n」在內的任何字元，請使用像「[.\n]」的模式。(pattern)匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括弧字元，請使用「$」或「$」。(?:pattern)匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以後使用。這在使用「或」字元(|)來組合一個模式的各個部分是很有用。例如，「instr(?:y|ies)就是一個比」instry|instries'更簡略的表達式。(?=pattern)正向預查，在任何匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如，「Windows(?=95|98|NT|2000)」能匹配「Windows2000」中的「Windows」，但不能匹配「Windows3.1」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始。(?!pattern)負向預查，在任何不匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如「Windows(?!95|98|NT|2000)」能匹配「Windows3.1」中的「Windows」，但不能匹配「Windows2000」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始x|y匹配x或y。例如，「z|food」能匹配「z」或「food」。「(z|f)ood」則匹配「zood」或「food」。[xyz]字元集合。匹配所包含的任意一個字元。例如，「[abc]」可以匹配「plain」中的「a」。[^xyz]負值字元集合。匹配未包含的任意字元。例如，「[^abc]」可以匹配「plain」中的「p」。[a-z]字元范圍。匹配指定范圍內的任意字元。例如，「[a-z]」可以匹配「a」到「z」范圍內的任意小寫字母字元。[^a-z]負值字元范圍。匹配任何不在指定范圍內的任意字元。例如，「[^a-z]」可以匹配任何不在「a」到「z」范圍內的任意字元。\b匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，「er\b」可以匹配「never」中的「er」，但不能匹配「verb」中的「er」。\B匹配非單詞邊界。「er\B」能匹配「verb」中的「er」，但不能匹配「never」中的「er」。\cx匹配由x指明的控制字元。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的「c」字元。\d匹配一個數字字元。等價於[0-9]。\D匹配一個非數字字元。等價於[^0-9]。\f匹配一個換頁符。等價於\x0c和\cL。\n匹配一個換行符。等價於\x0a和\cJ。\r匹配一個回車符。等價於\x0d和\cM。\s匹配任何空白字元，包括空格、製表符、換頁符等等。等價於[\f\n\r\t\v]。\S匹配任何非空白字元。等價於[^\f\n\r\t\v]。\t匹配一個製表符。等價於\x09和\cI。\v匹配一個垂直製表符。等價於\x0b和\cK。\w匹配包括下劃線的任何單詞字元。等價於「[A-Za-z0-9_]」。\W匹配任何非單詞字元。等價於「[^A-Za-z0-9_]」。\xn匹配n，其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如，「\x41」匹配「A」。「\x041」則等價於「\x04」&「1」。正則表達式中可以使用ASCII編碼。.\num匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，「(.)\1」匹配兩個連續的相同字元。\n標識一個八進制轉義值或一個向後引用。如果\n之前至少n個獲取的子表達式，則n為向後引用。否則，如果n為八進制數字(0-7)，則n為一個八進制轉義值。\nm標識一個八進制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表達式，則nm為向後引用。如果\nm之前至少有n個獲取，則n為一個後跟文字m的向後引用。如果前面的條件都不滿足，若n和m均為八進制數字(0-7)，則\nm將匹配八進制轉義值nm。\nml如果n為八進制數字(0-3)，且m和l均為八進制數字(0-7)，則匹配八進制轉義值nml。\un匹配n，其中n是一個用四個十六進制數字表示的Unicode字元。例如，\u00A9匹配版權符號（�0�8）。範例以下以PHP的語法所寫的範例驗證字串是否只含數字與英文, 字串長度並在4~16個字元之間 <?php
$str = 'a1234';
if (preg_match("^[a-zA-Z0-9]{4,16}$", $str)) {
echo "驗證成功";
} else {
echo "驗證失敗";
}
?> 簡易的台灣身份證字型大小驗證 <?php
$str = 'a1234';
if (preg_match("^[A-Z]{1}[1-2]{1}[0-9]{8}$", $str)) {
echo "驗證成功";
} else {
echo "驗證失敗";
}
?>

E. 簡單說下什麼是正則表達式

正則表達式被作為用來描述其稱之為「正則集的代數」的一種表達式，因而採用了「正則表達式」這個術語。

簡單的說，就是用一個只有「正確」的值，去對比。然後做到其它效果。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
以下摘自《網路》
在計算機科學中，是指一個用來描述或者匹配一系列符合某個句法規則的字元串的單個字元串。在很多文本編輯器或其他工具里，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字元串操作。例如，在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體（例如sed和grep）普及開的。正則表達式通常縮寫成「regex」，單數有regexp、regex，復數有regexps、regexes、regexen。

F. 正則表達式概述什麼是正則表達式

正則表達式概述

正則表達式在程序設計語言中存在著廣泛的應用，特別是用來處理字元串。如匹配字元串、查找字元串、替換字元串等。可以說，正則表達式是一段文本或一個公式，它是用來描述用某種模式去匹配一類字元串的公式，並且該公式具有一定的模式。
本小節將介紹正則表達式的基本概念、第一個正則表達式，以及測試正則表達式的工具Code Architects Regex Tester。

什麼是正則表達式

正則表達式（Regular
Expression）起源於人類神經系統的早期研究。神經生理學家Warren McCulloch和Walter
Pitts研究出一種使用數學方式描述神經網路的方法。1956年，數學家Stephen
Kleene發表了一篇標題為「神經網事件的表示法」的論文，並在該論文中引入了「正則表達式」這一個概念。該論文稱正則表達式是：「正則集的代數」的表達式。因此，採用「正則表達式」這個術語。正則表達式的定義存在多種說法，具體如下：

正則表達式就是用某種模式去匹配一類字元串的公式，主要用來描述字元串匹配的工具。

正則表達式描述了一種字元串匹配的模式。它可以用來檢查字元串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。

正則表達式是由普通字元（如字元a到z）以及特殊字元（稱為元字元）組成的文字模式。正則表達式作為一個模板，將某個字元模式與所搜索的字元串進行匹配。

正則表達式就是用於描述某些規則的工具。這些規則經常用於處理字元串中的查找或替換字元串。換句話說，正則表達式就是記錄文本規則的代碼。

正則表達式就是用一個「字元串」來描述一個特徵，然後去驗證另一個「字元串」是否符合這個特徵。
學過《編譯原理》的讀者可能知道不確定有限自動機（Non-deterministic
finite automaton，簡稱NFA）和確定有限自動機（Deterministic finite
automaton，簡稱DFA）。其實，正則表達式是一個不確定有限自動機。NFA和DFA的最大區別在於它們的狀態轉換函數。NFA可以對同一個字元串產生多種理解方式，而DFA則只有唯一的一種理解方式。也正因為如此，NFA在匹配過程中可能會回溯，NFA的效率一般要低於DFA。因此，在書寫正則表達式時盡量減少回溯來提高正則表達式的效率。

如果你使用過Windows或DOS下用於文件查找的通配符*和?，那麼你不難理解正則表達式。如果你需要查找所有Word文檔，那麼可能使用表達式*.doc。其中，字元*是一個通配符，它可以代表任意字元串。正則表達式和通配符具有相似性，它也可以使用一些字元（如字元.）表示任意字元。然而，它比通配符更具有精確性。
在正則表達式中，匹配是最常用的一個詞語，它描述了正則表達式動作結果。給定一段文本或字元串，使用正則表達式從文本或字元串中查找出符合正則表達式的字元串。有可能文本或字元存在不止一個部分滿足給定的正則表達式，這時每一個這樣的部分被稱為一個匹配。其中，匹配存在下面3種類型：
形容詞性的匹配，即一個字元串匹配一個正則表達式。

動詞性的匹配，即在文本或字元串里匹配正則表達式。

名詞性的匹配，即字元串中滿足給定的正則表達式的一部分。

正則表達式的應用非常廣泛，特別是在字元串處理方面。目前來說，正則表達式已經在很多軟體中得到廣泛了應用，如Linux、Unix、HP等操作系統，C#、PHP、Java等程序開發環境，以及很多的應用軟體中，都可以看到正則表達式的這樣或那樣的應用。正則表達式常見的應用如下：

驗證字元串，即驗證給定的字元串或子字元串是否符合指定特徵，譬如驗證是否是合法的郵件地址、驗證是否為合法的HTTP地址等。

查找字元串，從給定的文本中查找符合指定特徵的字元串，比查找固定字元串更加靈活方便。
替換字元串，即把給定的字元串中的符合指定特徵的子字元串替換為其他字元串，比普通的替換更強大。
提取字元串，即從給定的字元串中提取符合指定特徵的子字元串。

G. .net 中的正則表達式如何理解：

正則表達式不容易理解，即使是已經工作的程序員對正則也是很頭疼的，建議你參考一下正則表達式的一些入門教程，就算不會寫，先做到能明白其中的字元含義。
正則中的字元只有嚴格的規定，只有你熟記這些規定才能應用自如，這些在網上大多找得到，復制到這里不過是無謂浪費你的閱讀時間。
http://www.regexlab.com/zh/regref.htm
可以看一下這份正則表達式參考文檔，對理解以上正則有一定幫助。

H. java正則表達式是什麼

在程序開發中，難免會遇到需要匹配、查找、替換、判斷字元串的情況發生，而這些情況有時又比較復雜，如果用純編碼方式解決，往往會浪費程序員的時間及精力。因此，學習及使用正則表達式，便成了解決這一矛盾的主要手段。

正則表達式是一種可以用於模式匹配和替換的規范，一個正則表達式就是由普通的字元（例如字元a到z）以及特殊字元（元字元）組成的文字模式，它用以描述在查找文字主體時待匹配的一個或多個字元串。正則表達式作為一個模板，將某個字元模式與所搜索的字元串進行匹配。

(8)程序員的正則表達式原理擴展閱讀：

正則表達式的特點是：

1、靈活性、邏輯性和功能性非常強；

2、可以迅速地用極簡單的方式達到字元串的復雜控制。

3、對於剛接觸的人來說，比較晦澀難懂。

由於正則表達式主要應用對象是文本，因此它在各種文本編輯器場合都有應用，小到著名編輯器EditPlus，大到Microsoft Word、Visual Studio等大型編輯器，都可以使用正則表達式來處理文本內容。

導航:首頁 > 程序命令 > 程序員的正則表達式原理

程序員的正則表達式原理

與程序員的正則表達式原理相關的資料