python語義分析庫_Python中文分詞的原理你知道嗎

① python數據分析庫有哪些

1.Numpy庫
是Python開源的數值計算擴展工具，提供了Python對多維數組的支持，能夠支持高級的維度數組與矩陣運算。此外，針對數組運算也提供了大量的數學函數庫，Numpy是大部分Python科學計算的基礎，具有很多功能。
2.Pandas庫
是一個基於Numpy的數據分析包，為了解決數據分析任務而創建的。Pandas中納入了大量庫和標準的數據模型，提供了高效地操作大型數據集所需要的函數和方法，使用戶能快速便捷地處理數據。
3.Matplotlib庫
是一個用在Python中繪制數組的2D圖形庫，雖然它起源於模仿MATLAB圖形命令，但它獨立於MATLAB，可以通過Pythonic和面向對象的方式使用，是Python中最出色的繪圖庫。主要用純Python語言編寫的，它大量使用Numpy和其他擴展代碼，即使對大型數組也能提供良好的性能。
4.Seaborn庫
是Python中基於Matplotlib的數據可視化工具，提供了很多高層封裝的函數，幫助數據分析人員快速繪制美觀的數據圖形，從而避免了許多額外的參數配置問題。
5.NLTK庫
被稱為使用Python進行教學和計算語言學工作的最佳工具，以及用自然語言進行游戲的神奇圖書館。NLTK是一個領先的平台，用於構建使用人類語言數據的Python程序，它為超過50個語料庫和詞彙資源提供了易於使用的介面，還提供了一套文本處理庫，用於分類、標記化、詞干化、解析和語義推理、NLP庫的包裝器和一個活躍的討論社區。

② Python中文分詞的原理你知道嗎

中文分詞，即 Chinese Word Segmentation，即將一個漢字序列進行切分，得到一個個單獨的詞。表面上看，分詞其實就是那麼回事，但分詞效果好不好對信息檢索、實驗結果還是有很大影響的，同時分詞的背後其實是涉及各種各樣的演算法的。

中文分詞與英文分詞有很大的不同，對英文而言，一個單詞就是一個詞，而漢語是以字為基本的書寫單位，詞語之間沒有明顯的區分標記，需要人為切分。根據其特點，可以把分詞演算法分為四大類：

基於規則的分詞方法

基於統計的分詞方法

基於語義的分詞方法

基於理解的分詞方法

下面我們對這幾種方法分別進行總結。

基於規則的分詞方法

這種方法又叫作機械分詞方法、基於字典的分詞方法，它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行匹配。若在詞典中找到某個字元串，則匹配成功。該方法有三個要素，即分詞詞典、文本掃描順序和匹配原則。文本的掃描順序有正向掃描、逆向掃描和雙向掃描。匹配原則主要有最大匹配、最小匹配、逐詞匹配和最佳匹配。

最大匹配法（MM）。基本思想是：假設自動分詞詞典中的最長詞條所含漢字的個數為 i，則取被處理材料當前字元串序列中的前 i 個字元作為匹配欄位，查找分詞詞典，若詞典中有這樣一個 i 字詞，則匹配成功，匹配欄位作為一個詞被切分出來；若詞典中找不到這樣的一個 i 字詞，則匹配失敗，匹配欄位去掉最後一個漢字，剩下的字元作為新的匹配欄位，再進行匹配，如此進行下去，直到匹配成功為止。統計結果表明，該方法的錯誤率為 1/169。

逆向最大匹配法（RMM）。該方法的分詞過程與 MM 法相同，不同的是從句子（或文章）末尾開始處理，每次匹配不成功時去掉的是前面的一個漢字。統計結果表明，該方法的錯誤率為 1/245。

逐詞遍歷法。把詞典中的詞按照由長到短遞減的順序逐字搜索整個待處理的材料，一直到把全部的詞切分出來為止。不論分詞詞典多大，被處理的材料多麼小，都得把這個分詞詞典匹配一遍。

設立切分標志法。切分標志有自然和非自然之分。自然切分標志是指文章中出現的非文字元號，如標點符號等；非自然標志是利用詞綴和不構成詞的詞（包括單音詞、復音節詞以及象聲詞等）。設立切分標志法首先收集眾多的切分標志，分詞時先找出切分標志，把句子切分為一些較短的欄位，再用 MM、RMM 或其它的方法進行細加工。這種方法並非真正意義上的分詞方法，只是自動分詞的一種前處理方式而已，它要額外消耗時間掃描切分標志，增加存儲空間存放那些非自然切分標志。

最佳匹配法（OM）。此法分為正向的最佳匹配法和逆向的最佳匹配法，其出發點是：在詞典中按詞頻的大小順序排列詞條，以求縮短對分詞詞典的檢索時間，達到最佳效果，從而降低分詞的時間復雜度，加快分詞速度。實質上，這種方法也不是一種純粹意義上的分詞方法，它只是一種對分詞詞典的組織方式。OM 法的分詞詞典每條詞的前面必須有指明長度的數據項，所以其空間復雜度有所增加，對提高分詞精度沒有影響，分詞處理的時間復雜度有所降低。

此種方法優點是簡單，易於實現。但缺點有很多：匹配速度慢；存在交集型和組合型歧義切分問題；詞本身沒有一個標準的定義，沒有統一標準的詞集；不同詞典產生的歧義也不同；缺乏自學習的智能性。

基於統計的分詞方法

該方法的主要思想：詞是穩定的組合，因此在上下文中，相鄰的字同時出現的次數越多，就越有可能構成一個詞。因此字與字相鄰出現的概率或頻率能較好地反映成詞的可信度。可以對訓練文本中相鄰出現的各個字的組合的頻度進行統計，計算它們之間的互現信息。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某一個閾值時，便可以認為此字組可能構成了一個詞。該方法又稱為無字典分詞。

該方法所應用的主要的統計模型有：N 元文法模型（N-gram）、隱馬爾可夫模型（Hiden Markov Model，HMM）、最大熵模型（ME）、條件隨機場模型（Conditional Random Fields，CRF）等。

在實際應用中此類分詞演算法一般是將其與基於詞典的分詞方法結合起來，既發揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

基於語義的分詞方法

語義分詞法引入了語義分析，對自然語言自身的語言信息進行更多的處理，如擴充轉移網路法、知識分詞語義分析法、鄰接約束法、綜合匹配法、後綴分詞法、特徵詞庫法、矩陣約束法、語法分析法等。

擴充轉移網路法

該方法以有限狀態機概念為基礎。有限狀態機只能識別正則語言，對有限狀態機作的第一次擴充使其具有遞歸能力，形成遞歸轉移網路（RTN）。在RTN 中，弧線上的標志不僅可以是終極符（語言中的單詞）或非終極符（詞類），還可以調用另外的子網路名字分非終極符（如字或字串的成詞條件）。這樣，計算機在運行某個子網路時，就可以調用另外的子網路，還可以遞歸調用。詞法擴充轉移網路的使用，使分詞處理和語言理解的句法處理階段交互成為可能，並且有效地解決了漢語分詞的歧義。

矩陣約束法

其基本思想是：先建立一個語法約束矩陣和一個語義約束矩陣，其中元素分別表明具有某詞性的詞和具有另一詞性的詞相鄰是否符合語法規則，屬於某語義類的詞和屬於另一詞義類的詞相鄰是否符合邏輯，機器在切分時以之約束分詞結果。

基於理解的分詞方法

基於理解的分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。目前基於理解的分詞方法主要有專家系統分詞法和神經網路分詞法等。

專家系統分詞法

從專家系統角度把分詞的知識（包括常識性分詞知識與消除歧義切分的啟發性知識即歧義切分規則）從實現分詞過程的推理機中獨立出來，使知識庫的維護與推理機的實現互不幹擾，從而使知識庫易於維護和管理。它還具有發現交集歧義欄位和多義組合歧義欄位的能力和一定的自學習功能。

神經網路分詞法

該方法是模擬人腦並行，分布處理和建立數值計算模型工作的。它將分詞知識所分散隱式的方法存入神經網路內部，通過自學習和訓練修改內部權值，以達到正確的分詞結果，最後給出神經網路自動分詞結果，如使用 LSTM、GRU 等神經網路模型等。

神經網路專家系統集成式分詞法

該方法首先啟動神經網路進行分詞，當神經網路對新出現的詞不能給出准確切分時，激活專家系統進行分析判斷，依據知識庫進行推理，得出初步分析，並啟動學習機制對神經網路進行訓練。該方法可以較充分發揮神經網路與專家系統二者優勢，進一步提高分詞效率。

以上便是對分詞演算法的基本介紹。

③ Python怎樣使用解釋器

大學里計算機科學最吸引我的地方就是編譯器。最神奇的是，編譯器是如何讀出我寫的那些爛代碼，並且還能生成那麼復雜的程序。當我終於選了一門編譯方面的課程時，我發現這個過程比我想的要簡單得多。

在本系列的文章中，我會試著通過為一種基本命令語言IMP寫一個解釋器，來展示這種簡易性。因為IMP是一個簡單廣為人知的語言，所以打算用 Python寫這個解釋器。Python代碼看起來很像偽代碼，所以即使你不認識 Python，你也能理解它。解析可以通過一套從頭開始實現的解析器組合完成（在本系列的下一篇文章中會有解釋）。除了sys（用於I/O）、re（用於解析正則表達式）以及unittest（用於確保一切工作正常）庫，沒有使用其他額外的庫。

IMP 語言

在開始寫之前，我們先來討論一下將要解釋的語言。IMP是擁有下面結構的最小命令語言：

賦值語句（所有變數都是全局的，而且只能存儲整數）：

Python

x := 1

條件語句：

Python

if x = 1 then

y := 2

else

y := 3

end

while循環：

Python

while x < 10 do

x := x + 1

end

復合語句（分號分隔）：

Python

x := 1;

y := 2

OK，所以它只是一門工具語言，但你可以很容易就把它擴展成比Lua或python更有用的語言。我希望能把這份教程能保持盡量簡單。

下面這個例子是計算階乘的程序：

Python

n := 5;

p := 1;

while n > 0 do

p := p * n;

n := n - 1

end

IMP沒有讀取輸入的方式，所以初始狀態必須是在程序最開始寫一系列的賦值語句。也沒有列印結果的方式，所以解釋器必須在程序的結尾列印所有變數的值。

解釋器的結構

解釋器的核心是「中間表示」（Intermediate representation，IR）。這就是如何在內存中表示IMP程序。因為IMP是一個很簡單的語言，中間表示將直接對應於語言的語法；每一種表達和語句都有對應的類。在一種更復雜的語言中，你不僅需要一個「語法表示」，還需要一個更容易分析或運行的「語義表示」。

解釋器將會執行三個階段：

將源碼中的字元分割成標記符（token）
將標記符組織成一棵抽象語法樹（AST）。抽象語法樹就是中間表示。
評估這棵抽象語法樹，並在最後列印這棵樹的狀態

將字元串分割成標記符的過程叫做「詞法分析」，通過一個詞法分析器完成。關鍵字是很短，易於理解的字元串，包含程序中最基本的部分，如數字、標識符、關鍵字和操作符。詞法分析器會除去空格和注釋，因為它們都會被解釋器忽略。

實際執行這個解析過的抽象語法樹的過程稱為評估。這實際上是這個解析器中最簡單的部分了。

本文會把重點放在詞法分析器上。我們將編寫一個通用的詞彙庫，然後用它來為IMP創建一個詞法分析器。下一篇文章將會重點打造一個語法分析器和評估計算器。

詞彙庫

詞法分析器的操作相當簡單。它是基於正則表達式的，所以如果你不熟悉它們，你可能需要讀一些資料。簡單來說，正則表達式就是一種能描述其他字元串的特殊的格式化的字元串。你可以使用它們去匹配電話號碼或是郵箱地址，或者是像我們遇到在這種情況，不同類型的標記符。

詞法分析器的輸入可能只是一個字元串。簡單起見，我們將整個輸入文件都讀到內存中。輸出是一個標記符列表。每個標記符包括一個值（它代表的字元串）和一個標記（表示它是一個什麼類型的標記符）。語法分析器會使用這兩個數據來決定如何構建一棵抽象語法樹。

由於不論何種語言的詞法分析器，其操作都大同小異，我們將創建一個通用的詞法分析器，包括一個正則表達式列表和對應的標簽（tag）。對每一個表達式，它都會檢查是否和當前位置的輸入文本匹配。如果匹配，匹配文本就會作為一個標記符被提取出來，並且被加上該正則表達式的標簽。如果該正則表達式沒有標簽，那麼這段文本將會被丟棄。這樣免得我們被諸如注釋和空格之類的垃圾字元干擾。如果沒有匹配的正則表達式，程序就要報錯並終止。這個過程會不斷循環直到沒有字元可匹配。

下面是一段來自詞彙庫的代碼：

Python

import sys

import re

def lex(characters, token_exprs):

pos = 0

tokens = []

while pos < len(characters):

match = None

for token_expr in token_exprs:

pattern, tag = token_expr

regex = re.compile(pattern)

match = regex.match(characters, pos)

if match:

text = match.group(0)

if tag:

token = (text, tag)

tokens.append(token)

break

if not match:

sys.stderr.write('Illegal character: %sn' % characters[pos])

sys.exit(1)

else:

pos = match.end(0)

return tokens

注意，我們遍歷正則表達式的順序很重要。lex會遍歷所有的表達式，然後接受第一個匹配成功的表達式。這也就意味著，當使用詞法分析器時，我們應當首先考慮最具體的表達式（像那些匹配運算元（matching operator）和關鍵詞），其次才是比較一般的表達式（像標識符和數字）。

詞法分析器

給定上面的lex函數，為IMP定義一個詞法分析器就非常簡單了。首先我們要做的就是為標記符定義一系列的標簽。IMP只需要三個標簽。RESERVED表示一個保留字或操作符。INT表示一個文字整數。ID代表標識符。

Python

import lexer

RESERVED = 'RESERVED'

INT= 'INT'

ID = 'ID'

接下來定義詞法分析器將會用到的標記符表達式。前兩個表達式匹配空格和注釋。它們沒有標簽，所以 lex 會丟棄它們匹配到的所有字元。

Python

token_exprs = [

(r'[ nt]+',None),

(r'#[^n]*', None),

然後，只剩下所有的操作符和保留字了。記住，每個正則表達式前面的「r」表示這個字元串是「raw」；Python不會處理任何轉義字元。這使我們可以在字元串中包含進反斜線，正則表達式正是利用這一點來轉義操作符比如「＋」和「＊」。

Python

(r':=', RESERVED),

(r'(',RESERVED),

(r')',RESERVED),

(r';', RESERVED),

(r'+',RESERVED),

(r'-', RESERVED),

(r'*',RESERVED),

(r'/', RESERVED),

(r'<=',RESERVED),

(r'<', RESERVED),

(r'>=',RESERVED),

(r'>', RESERVED),

(r'=', RESERVED),

(r'!=',RESERVED),

(r'and', RESERVED),

(r'or',RESERVED),

(r'not', RESERVED),

(r'if',RESERVED),

(r'then',RESERVED),

(r'else',RESERVED),

(r'while', RESERVED),

(r'do',RESERVED),

(r'end', RESERVED),

最後，輪到整數和標識符的表達式。要注意的是，標識符的正則表達式會匹配上面的所有的保留字，所以它一定要留到最後。

Python

(r'[0-9]+',INT),

(r'[A-Za-z][A-Za-z0-9_]*', ID),

]

既然正則表達式已經定義好了，我們還需要創建一個實際的lexer函數。

Python

def imp_lex(characters):

return lexer.lex(characters, token_exprs)

如果你對這部分感興趣，這里有一些驅動代碼可以測試輸出：

Python

import sys

from imp_lexer import *

if __name__ == '__main__':

filename = sys.argv[1]

file = open(filename)

characters = file.read()

file.close()

tokens = imp_lex(characters)

for token in tokens:

print token

繼續……

在本系列的下一篇文章中，我會討論解析器組合，然後描述如何使用他們從lexer中生成的標記符列表建立抽象語法樹。

如果你對於實現IMP解釋器很感興趣，你可以從這里下載全部的源碼。

在源碼包含的示例文件中運行解釋器：

Python

python imp.py hello.imp

運行單元測試：

Python

python test.py

④ py開發語言中哪裡有知識庫呢

第一：Python 標准庫：
應該瀏覽一下這份文檔，它為標准庫中的類型、函數和模塊提供了完整（盡管很簡略）的參考資料。標準的 Python 發布版包括了大量的附加模塊。其中有針對讀取 Unix 郵箱、接收 HTTP 文檔、生成隨機數、解析命令行選項、寫 CGI 程序、壓縮數據以及很多其它任務的模塊。略讀一下庫參考會給你很多解決問題的思路。
安裝 Python 模塊展示了如何安裝其他 Python 用戶編寫的附加模塊。
Python 語言參考：詳細說明了 Python 語法和語義。
它讀起來很累，不過對於語言本身，有份完整的手冊很有用。
第二：其它 Python 資源：
http://www.python.org： Python 官方網站。它包含代碼、文檔和 Web 上與 Python 有關的頁面鏈接該網站鏡像於全世界的幾處其它問題，類似歐洲、日本和澳大利亞。
鏡像可能會比主站快，這取決於你的地理位置。
http://docs.python.org：快速訪問 Python 的文檔。
http://pypi.python.org： Python 包索引，以前昵稱為乳酪店，索引了可供下載的，用戶創建的 Python 模塊。如果你發布了代碼，可以注冊到這里，這樣別人可以找到它。
http://code.activestate.com/recipes/langs/python/： Python 食譜是大量的示例代碼、大型的集合，和有用的腳本。
值得關注的是這次資源已經結集成書，名為《Python 食譜》（O』Reilly & Associates, ISBN 0-596-00797-3。）
http://scipy.org:The Scientific Python 項目包括數組快速計算和處理模塊，和大量線性代數、傅里葉變換、非線性solvers、隨機數分布，統計分析以及類似的包。
與 Python 有關的問題，以及問題報告，可以發到新聞組 comp.lang.python ，或者發送到郵件組 [email protected] 。新聞組和郵件組是開放的，所以發送的消息可以自動的跟到另一個之後。每天有超過 120 個投遞（高峰時有數百）,提問（以及回答）問題，為新功能提建議，發布新模塊。在發信之前，請查閱常見問題 (亦稱 FAQ)，或者在 Python 源碼發布包的 Misc/ 目錄中查閱。郵件組也可以在http://mail.python.org/pipermail/訪問。FAQ回答了很多被反復提到的問題，很可能已經解答了你的問題。
Next Previous

導航:首頁 > 編程語言 > python語義分析庫

python語義分析庫

與python語義分析庫相關的資料