基於統計演算法_請教基於統計的分詞演算法和程序

㈠基於統計和機器學習的演算法有哪些

很多，主要說下監督學習這塊的演算法哈。歡迎討論。

svm，支撐向量機，通過找到樣本空間中的一個超平面，實現樣本的分類，也可以作回歸，主要用在文本分類，圖像識別等領域，詳見：；
lr，邏輯回歸，本質也是線性回歸，通過擬合擬合樣本的某個曲線，然後使用邏輯函數進行區間縮放，但是一般用來分類，主要用在ctr預估、推薦等；
nn，神經網路，通過找到某種非線性模型擬合數據，主要用在圖像等；
nb，樸素貝葉斯，通過找到樣本所屬於的聯合分步，然後通過貝葉斯公式，計算樣本的後驗概率，從而進行分類，主要用來文本分類；
dt，決策樹，構建一棵樹，在節點按照某種規則（一般使用信息熵）來進行樣本劃分，實質是在樣本空間進行塊狀的劃分，主要用來分類，也有做回歸，但更多的是作為弱分類器，用在model embedding中；
rf，隨進森林，是由許多決策樹構成的森林，每個森林中訓練的樣本是從整體樣本中抽樣得到，每個節點需要進行劃分的特徵也是抽樣得到，這樣子就使得每棵樹都具有獨特領域的知識，從而有更好的泛化能力；
gbdt，梯度提升決策樹，實際上也是由多棵樹構成，和rf不同的是，每棵樹訓練樣本是上一棵樹的殘差，這體現了梯度的思想，同時最後的結構是用這所有的樹進行組合或者投票得出，主要用在推薦、相關性等；
knn，k最近鄰，應該是最簡單的ml方法了，對於未知標簽的樣本，看與它最近的k個樣本(使用某種距離公式，馬氏距離或者歐式距離)中哪種標簽最多，它就屬於這類；

㈡子空間聚類

姓名：賀文琪

學號：19021210758

【嵌牛導讀】聚類分析是數據挖掘領域中的關鍵技術之一。高維數據聚類是聚類分析技術的難點和重點，子空間聚類是實現高維數據集聚類的有效途徑，它是在高維數據空間中對傳統聚類演算法的一種擴展，其思想是將搜索局部化在相關維中進行。

【嵌牛鼻子】子空間聚類

【嵌牛提問】子空間聚類有哪些方法？各自的特點是什麼？

【嵌牛正文】

目前存在的子空間聚類演算法主要分成四大類：基於迭代的方法，基於代數的方法，基於統計的方法和基於譜聚類的方法。

基於迭代的方法。主要有兩個步驟。第一步是將樣本點分配到對應的子空間中以及第二步是將每個子空間適配到對應的聚類。這兩步交替迭代進行直到收斂。這種方法不僅對初始化要求敏感而且很容易得到的是一個局部解。此外，這些方法通常需要知道子空間的維數和數量。基於迭代統計的方法，作為一種迭代方法，也包含這兩步。這些演算法假設每個子空間中的數據樣本分布符合高斯分布並且在上述兩個步驟中通過使用最大期望方法交替執行。同樣地，基於迭代統計的方法也具有一般的基於迭代的方法的缺點。

基於代數的方法。基於因式分解的代數方法嘗試著尋找兩個矩陣，這兩個矩陣的積接近於給定的數據矩陣，使得其中一個系數矩陣的支持模式提供樣本的分割。當子空間是獨立的時候，這些方法能夠正確地聚類數據樣本，但是當子空間是獨立的這一條件違反的時候，就不能夠得到正確的聚類結果。而且，他們對數據裡面的雜訊和異常值非常敏感。為了處理這些雜訊和異常值，將額外的正則項被加進來改進這些演算法。

基於統計的方法。基於統計的方法能夠進一步地被分成一些種類，例如基於迭代統計的方法，魯棒的統計方法以及基於信息理論的統計方法。基於迭代統計的方法也可以看作是基於迭代的方法並且已經被討論過。結塊的有損壓縮演算法（ALC），作為一種基於信息理論的統計方法，假定數據來自退化的高斯的混合。能夠自然地處理數據中的雜訊和異常值。並且它不需要知道子空間的數量和維度。然而，通過演算法得到的子空間的數量與變形參數密切相關。隨機樣本一致演算法(RANSAC)能夠明確地處理雜訊和異常值。此外，RANSAC並不需要提前知道子空間的數量。然而，子空間的維數必須是知道的。同時，演算法的復雜度隨著子空間的數量和維度呈指數增長。

基於譜聚類的方法。基於譜聚類的方法首先構建一個數據樣本間的相似度矩陣，然後對這個相似度矩陣使用譜聚類從而得到數據的聚類結果。基於譜聚類的方法一般分成兩種類型：基於局部譜聚類的方法和基於全局的譜聚類的方法。基於局部譜聚類的方法如局部子空間鄰接矩陣(LSA)，局部線性流形聚類(LMMC)以及局部最佳適合平面(SLBF)，使用每個點附近的局部信息來構建數據點對之間的相似矩陣。基於全局譜聚類的方法嘗試通過使用全局信息來構建數據點之間的更加合理的相似度矩陣從而克服這些困難。

㈢ fbl怎麼翻譯成fbi

全稱為Federal Bureau of Investigation，中文翻譯為美國聯邦調查局，是美國司法部下面的部門。

這次有道推出的全文翻譯系統採用了基於統計演算法的機器翻譯技術，與傳統的規則翻譯方法不同的是，這是通過匯集有道收錄的數以億計的中英文網頁及文檔。

以整句為單位使用統計演算法對原文進行多重模糊匹配，並結合語法規則進行優化與校正後得到的翻譯結果，代表了機器翻譯技術發展的方向，也是國內第一家由搜索引擎廠商自主研發的全文翻譯系統。

如何發掘這些既豐富又新鮮的例句的潛力，讓它們為用戶創造更多的價值？藉助於最先進的機器翻譯技術，有道翻譯可以自動學習到各種語料片段在不同語境下的常用翻譯方法。

從而為用戶提供相對准確的翻譯結果。有道翻譯支持中文和英文之間的互譯，獨創的「中英文自動檢測」功能和貼心的「清空」選項會讓您使用起來更加順手。

㈣ NLP基礎知識和綜述

一種流行的自然語言處理庫、自帶語料庫、具有分類，分詞等很多功能，國外使用者居多，類似中文的jieba處理庫

為單詞序列分配概率的模型就叫做語言模型。

通俗來說， 語言模型就是這樣一個模型：對於任意的詞序列，它能夠計算出這個序列是一句話的概率。或者說語言模型能預測單詞序列的下一個詞是什麼。

** n-gram Language Models **

N-gram模型是一種典型的統計語言模型（Language Model，LM），統計語言模型是一個基於概率的判別模型.統計語言模型把語言（詞的序列）看作一個隨機事件，並賦予相應的概率來描述其屬於某種語言集合的可能性。給定一個詞彙集合 V，對於一個由 V 中的詞構成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn，統計語言模型賦予這個序列一個概率P(S)，來衡量S 符合自然語言的語法和語義規則的置信度。用一句簡單的話說，統計語言模型就是計算一個句子的概率大小的這種模型。

n-gram模型可以減輕單詞序列沒有在訓練集中出現過而引起的問題，即數據稀疏問題

n-gram模型問題
對於n-gram模型的問題，這兩頁ppt說的很明白

N-gram模型基於這樣一種假設，當前詞的出現只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3).Bi-Gram所滿足的假設是馬爾科夫假設。

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分別用公式表示如下：

Bi-Gram:P(T)=p(w1|begin) p(w2|w1) p(w3|w2)***p(wn|wn-1)

Tri-Gram:P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)***p(wn|wn-1,wn-2)

注意上面概率的計算方法：P(w1|begin)=以w1為開頭的所有句子/句子總數；p(w2|w1)=w1,w2同時出現的次數/w1出現的次數。以此類推。

對於其中每項的計算舉個例子：

由上可見Bi-Gram計算公式中的begin一般都是加個<s>標簽。

N-gram存在的問題：

舉一個小數量的例子進行輔助說明：假設我們有一個語料庫（注意語料庫），如下：

老鼠真討厭，老鼠真丑，你愛老婆，我討厭老鼠。

想要預測「我愛老」這一句話的下一個字。我們分別通過 bigram 和 trigram 進行預測。

1）通過 bigram，便是要對 P(w|老)進行計算，經統計，「老鼠」出現了3次，「老婆」出現了1次，通過最大似然估計可以求得P（鼠|老）=0.75，P（婆|老）=0.25，因此我們通過 bigram 預測出的整句話為: 我愛老鼠。

2）通過 trigram，便是要對便是要對 P(w|愛老)進行計算，經統計，僅「愛老婆」出現了1次，通過最大似然估計可以求得 P（婆|愛老）=1，因此我們通過trigram 預測出的整句話為: 我愛老婆。顯然這種方式預測出的結果更加合理。

問題一：隨著 n 的提升，我們擁有了更多的前置信息量，可以更加准確地預測下一個詞。但這也帶來了一個問題，當N過大時很容易出現這樣的狀況：某些n-gram從未出現過，導致很多預測概率結果為0， 這就是稀疏問題。 實際使用中往往僅使用 bigram 或 trigram 。（這個問題可以通過平滑來緩解參考： https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA ）

問題二：同時由於上個稀疏問題還導致N-gram無法獲得上下文的長時依賴。

問題三：n-gram 基於頻次進行統計，沒有足夠的泛化能力。

n-gram總結：統計語言模型就是計算一個句子的概率值大小，整句的概率就是各個詞出現概率的乘積，概率值越大表明該句子越合理。N-gram是典型的統計語言模型，它做出了一種假設，當前詞的出現只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現概率的乘積。它其中存在很多問題，再求每一個詞出現的概率時，隨著N的提升，能夠擁有更多的前置信息量，可以使得當前詞的預測更加准確，但是當N過大時會出現稀疏問題，導致很多詞的概率值為0，為解決這一問題，因此常用的為bigram 或 trigram，這就導致N-gram無法獲得上文的長時依賴。另一方面N-gram 只是基於頻次進行統計，沒有足夠的泛化能力。

神經網路語言模型

2003年 Bengio 提出，神經網路語言模型( neural network language model, NNLM)的思想是提出詞向量的概念，代替 ngram 使用離散變數(高維)，採用連續變數(具有一定維度的實數向量)來進行單詞的分布式表示，解決了維度爆炸的問題，同時通過詞向量可獲取詞之間的相似性。

結合下圖可知它所建立的語言模型的任務是根據窗口大小內的上文來預測下一個詞，因此從另一個角度看它就是一個使用神經網路編碼的n-gram模型。

它是一個最簡單的神經網路，僅由四層構成，輸入層、嵌入層、隱藏層、輸出層。（從另一個角度看它就是一個使用神經網路編碼的n-gram模型）

輸入是單詞序列的index序列，例如單詞『這』在字典（大小為∣V∣）中的index是10，單詞『是』的 index 是23，『測』的 index 是65，則句子「這是測試」通過『這是測』預測『試』，窗口大小內上文詞的index序列就是 10, 23, 65。嵌入層（Embedding）是一個大小為∣V∣×K的矩陣（注意：K的大小是自己設定的，這個矩陣相當於隨機初始化的詞向量，會在bp中進行更新，神經網路訓練完成之後這一部分就是詞向量），從中取出第10、23、65行向量拼成3×K的矩陣就是Embedding層的輸出了。隱層接受拼接後的Embedding層輸出作為輸入，以tanh為激活函數，最後送入帶softmax的輸出層，輸出概率,優化的目標是使得待預測詞其所對應的softmax值最大。

缺點：因為這是通過前饋神經網路來訓練語言模型，缺點顯而易見就是其中的參數過多計算量較大，同時softmax那部分計算量也過大。另一方面NNLM直觀上看就是使用神經網路編碼的 n-gram 模型，也無法解決長期依賴的問題。

RNNLM

它是通過RNN及其變種網路來訓練語言模型，任務是通過上文來預測下一個詞，它相比於NNLM的優勢在於所使用的為RNN，RNN在處理序列數據方面具有天然優勢， RNN 網路打破了上下文窗口的限制，使用隱藏層的狀態概括歷史全部語境信息，對比 NNLM 可以捕獲更長的依賴，在實驗中取得了更好的效果。RNNLM 超參數少，通用性更強；但由於 RNN 存在梯度彌散問題，使得其很難捕獲更長距離的依賴信息。

Word2vec中的CBOW 以及skip-gram，其中CBOW是通過窗口大小內的上下文預測中心詞，而skip-gram恰恰相反，是通過輸入的中心詞預測窗口大小內的上下文。

Glove 是屬於統計語言模型，通過統計學知識來訓練詞向量

ELMO 通過使用多層雙向的LSTM（一般都是使用兩層）來訓練語言模型，任務是利用上下文來預測當前詞，上文信息通過正向的LSTM獲得，下文信息通過反向的LSTM獲得，這種雙向是一種弱雙向性，因此獲得的不是真正的上下文信息。

GPT是通過Transformer來訓練語言模型，它所訓練的語言模型是單向的，通過上文來預測下一個單詞

BERT通過Transformer來訓練MLM這種真正意義上的雙向的語言模型，它所訓練的語言模型是根據上下文來預測當前詞。

以上部分的詳細介紹在NLP之預訓練篇中有講到

語言模型的評判指標

具體參考： https://blog.csdn.net/index20001/article/details/78884646

Perplexity可以認為是average branch factor（平均分支系數），即預測下一個詞時可以有多少種選擇。別人在作報告時說模型的PPL下降到90，可以直觀地理解為，在模型生成一句話時下一個詞有90個合理選擇，可選詞數越少，我們大致認為模型越准確。這樣也能解釋，為什麼PPL越小，模型越好。
一般用困惑度Perplexity（PPL）衡量語言模型的好壞，困惑度越小則模型生成一句話時下一個詞的可選擇性越少，句子越確定則語言模型越好。

簡單介紹
Word2vec是一種有效創建詞嵌入的方法，它自2013年以來就一直存在。但除了作為詞嵌入的方法之外，它的一些概念已經被證明可以有效地創建推薦引擎和理解時序數據。在商業的、非語言的任務中。

背景
由於任何兩個不同詞的one-hot向量的餘弦相似度都為0，多個不同詞之間的相似度難以通過onehot向量准確地體現出來。
word2vec⼯具的提出正是為了解決上⾯這個問題。它將每個詞表⽰成⼀個定⻓的向量，並使得這些向量能較好地表達不同詞之間的相似和類⽐關系。

word2vec模型
word2vec⼯具包含了兩個模型，即跳字模型（skip-gram）和連續詞袋模型（continuous bag of words，CBOW）。word2vec的input/output都是將單詞作為one-hot向量來表示，我們可以把word2vec認為是詞的無監督學習的降維過程。

MaxEnt 模型（最大熵模型）：可以使用任意的復雜相關特徵，在性能上最大熵分類器超過了 Byaes 分類器。但是，作為一種分類器模型，這兩種方法有一個共同的缺點：每個詞都是單獨進行分類的，標記（隱狀態）之間的關系無法得到充分利用，具有馬爾可夫鏈的 HMM 模型可以建立標記之間的馬爾可夫關聯性，這是最大熵模型所沒有的。

最大熵模型的優點：首先，最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型；其次，最大熵統計模型可以靈活地設置約束條件，通過約束條件的多少可以調節模型對未知數據的適應度和對已知數據的擬合程度；再次，它還能自然地解決統計模型中參數平滑的問題。

最大熵模型的不足：首先，最大熵統計模型中二值化特徵只是記錄特徵的出現是否，而文本分類需要知道特徵的強度，因此，它在分類方法中不是最優的;其次，由於演算法收斂的速度較慢，所以導致最大熵統計模型它的計算代價較大，時空開銷大;再次，數據稀疏問題比較嚴重。

CRF(conditional random field) 模型（條件隨機場模型）：首先，CRF 在給定了觀察序列的情況下，對整個的序列的聯合概率有一個統一的指數模型。一個比較吸引人的特性是其為一個凸優化問題。其次，條件隨機場模型相比改進的隱馬爾可夫模型可以更好更多的利用待識別文本中所提供的上下文信息以得更好的實驗結果。並且有測試結果表明：在採用相同特徵集合的條件下，條件隨機域模型較其他概率模型有更好的性能表現。

CRF 可以用於構造在給定一組輸入隨機變數的條件下,另一組輸出隨機變數的條件概率分布模型。經常被用於序列標注，其中包括詞性標注，分詞，命名實體識別等領域。

建一個條件隨機場，我們首先要定義一個特徵函數集，每個特徵函數都以整個句子s，當前位置i，位置i和i-1的標簽為輸入。然後為每一個特徵函數賦予一個權重，然後針對每一個標注序列l，對所有的特徵函數加權求和，必要的話，可以把求和的值轉化為一個概率值。

CRF 具有很強的推理能力，並且能夠使用復雜、有重疊性和非獨立的特徵進行訓練和推理，能夠充分地利用上下文信息作為特徵，還可以任意地添加其他外部特徵，使得模型能夠獲取的信息非常豐富。

CRF 模型的不足：首先，通過對基於 CRF 的結合多種特徵的方法識別英語命名實體的分析，發現在使用 CRF 方法的過程中，特徵的選擇和優化是影響結果的關鍵因素，特徵選擇問題的好與壞，直接決定了系統性能的高低。其次，訓練模型的時間比 MaxEnt 更長，且獲得的模型很大，在一般的 PC 機上無法運行。

潛在語義分析(Latent Semantic Analysis，LSA)模型
在潛在語義分析(LSA)模型首先給出了這樣一個『『分布式假設」 :一個單詞的屬性是由它所處的環境刻畫的。這也就意味著如果兩個單詞在含義上比較接近，那麼它們也會出現在相似的文本中，也就是說具有相似的上下文。
LSA模型在構建好了單詞-文檔矩陣之後，出於以下幾種可能的原因，我們會使用奇異值分解(Singular Value Decomposition，SVD) 的方法來尋找該矩陣的一個低階近似。

概率潛在語義分析(Probability Latent Semantic Analysis ，PLSA)模型
概率潛在語義分析(PLSA)模型其實是為了克服潛在語義分析(LSA)模型存在的一些缺點而被提出的。LSA 的一個根本問題在於，盡管我們可以把 U k 和 V k 的每一列都看成是一個話題，但是由於每一列的值都可以看成是幾乎沒有限制的實數值，因此我們無法去進一步解釋這些值到底是什麼意思，也更無法從概率的角度來理解這個模型。
PLSA模型則通過一個生成模型來為LSA賦予了概率意義上的解釋。該模型假設，每一篇文檔都包含一系列可能的潛在話題，文檔中的每一個單詞都不是憑空產生的，而是在這些潛在的話題的指引下通過一定的概率生成的。

在 PLSA 模型裡面，話題其實是一種單詞上的概率分布，每一個話題都代表著一個不同的單詞上的概率分布，而每個文檔又可以看成是話題上的概率分布。每篇文檔就是通過這樣一個兩層的概率分布生成的，這也正是PLSA 提出的生成模型的核心思想。

PLSA 通過下面這個式子對d和 w 的聯合分布進行了建模:

該模型中的 *z * 的數量是需要事先給定的一個超參數。需要注意的是，上面這個式子裡面給出了 P (w, d ) 的兩種表達方式，在前一個式子里， *d * 和 w 都是在給定 *z * 的前提下通過條件概率生成出來的，它們的生成方式是相似的，因此是『『對稱』』的;在後一個式子里，首先給定 d ，然後根據 P ( z | d ) 生成可能的話題 z ，然後再根據 P (w| z ) 生成可能的單詞 w，由於在這個式子裡面單詞和文檔的生成並不相似，所以是『『非對稱』』的。

上圖給出了 PLSA 模型中非對稱形式的 Plate Notation表示法。其中d表示一篇文檔，z 表示由文檔生成的一個話題，w 表示由話題生成的一個單詞。在這個模型中， d和w 是已經觀測到的變數，而z是未知的變數(代表潛在的話題)。

容易發現，對於一個新的文檔而言，我們無法得知它對應的 P ( d ) 究竟是什麼，因此盡管 PLSA 模型在給定的文檔上是一個生成模型，它卻無法生成新的未知的文檔。該模型的另外的一個問題在於，隨著文檔數量的增加， P ( z | d ) 的參數也會隨著線性增加，這就導致無論有多少訓練數據，都容易導致模型的過擬合問題。這兩點成為了限制 PLSA 模型被更加廣泛使用的兩大缺陷。

潛在狄利克雷分配(Latent Dirichlet Analysis ， LDA)模型

為了解決 PLSA 模型中出現的過擬合問題，潛在狄利克雷分配(LDA)模型被 Blei 等人提出，這個模型也成為了主題模型這個研究領域內應用最為廣泛的模型。LDA就是在PLSA的基礎上加層貝葉斯框架，即LDA就是PLSA的貝葉斯版本（正因為LDA被貝葉斯化了，所以才需要考慮歷史先驗知識，才加的兩個先驗參數）。

從上一節我們可以看到，在 PLSA 這個模型里，對於一個未知的新文檔 d ，我們對於 P ( d ) 一無所知，而這個其實是不符合人的經驗的。或者說，它沒有去使用本來可以用到的信息，而這部分信息就是 LDA 中所謂的先驗信息。

具體來說，在 LDA 中，首先每一個文檔都被看成跟有限個給定話題中的每一個存在著或多或少的關聯性，而這種關聯性則是用話題上的概率分布來刻畫的，這一點與 PLSA 其實是一致的。

但是在 LDA 模型中，每個文檔關於話題的概率分布都被賦予了一個先驗分布，這個先驗一般是用稀疏形式的狄利克雷分布表示的。這種稀疏形式的狄利克雷先驗可以看成是編碼了人類的這樣一種先驗知識:一般而言，一篇文章的主題更有可能是集中於少數幾個話題上，而很少說在單獨一篇文章內同時在很多話題上都有所涉獵並且沒有明顯的重點。

此外，LDA 模型還對一個話題在所有單詞上的概率分布也賦予了一個稀疏形式的狄利克雷先驗，它的直觀解釋也是類似的:在一個單獨的話題中，多數情況是少部分(跟這個話題高度相關的)詞出現的頻率會很高，而其他的詞出現的頻率則明顯較低。這樣兩種先驗使得 LDA 模型能夠比 PLSA 更好地刻畫文檔-話題-單詞這三者的關系。

事實上，從 PLSA 的結果上來看，它實際上相當於把 LDA 模型中的先驗分布轉變為均勻分布，然後對所要求的參數求最大後驗估計(在先驗是均勻分布的前提下，這也等價於求參數的最大似然估計) ，而這也正反映出了一個較為合理的先驗對於建模是非常重要的。

分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。
現有的分詞演算法可分為三大類：基於字元串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
按照是否與詞性標注過程相結合，又可以分為單純分詞方法和分詞與標注相結合的一體化方法。

中文分詞根據實現原理和特點，主要分為以下2個類別：

（1）基於詞典分詞演算法
也稱字元串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字元串和一個已建立好的「充分大的」詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞演算法分為以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。
基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字元串匹配方法進行優化，比如最大長度設定、字元串存儲和查找方式以及對於詞表的組織結構，比如採用TRIE索引樹、哈希索引等。

（2）基於統計的機器學習演算法
這類目前常用的是演算法是HMM、CRF（條件隨機場）、SVM、深度學習等演算法，比如stanford、Hanlp分詞工具是基於CRF演算法。以CRF為例，基本思路是對漢字進行標注訓練，不僅考慮了詞語出現的頻率，還考慮上下文，具備較好的學習能力，因此其對歧義詞和未登錄詞的識別都具有良好的效果。

常見的分詞器都是使用機器學習演算法和詞典相結合，一方面能夠提高分詞准確率，另一方面能夠改善領域適應性。

隨著深度學習的興起，也出現了 基於神經網路的分詞器 ，例如有人員嘗試使用雙向LSTM+CRF實現分詞器， 其本質上是序列標注 ，所以有通用性，命名實體識別等都可以使用該模型，據報道其分詞器字元准確率可高達97.5%。演算法框架的思路與論文《Neural Architectures for Named Entity Recognition》類似，利用該框架可以實現中文分詞，如下圖所示：

首先對語料進行字元嵌入，將得到的特徵輸入給雙向LSTM，然後加一個CRF就得到標注結果。

目前中文分詞難點主要有三個：
1、分詞標准 ：比如人名，在哈工大的標准中姓和名是分開的，但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標准。

2、歧義 ：對同一個待切分字元串存在多個分詞結果。
歧義又分為組合型歧義、交集型歧義和真歧義三種類型。

一般在搜索引擎中，構建索引時和查詢時會使用不同的分詞演算法。常用的方案是，在索引的時候使用細粒度的分詞以保證召回，在查詢的時候使用粗粒度的分詞以保證精度。

3、新詞 ：也稱未被詞典收錄的詞，該問題的解決依賴於人們對分詞技術和漢語語言結構的進一步認識。

典型的文本分類過程可以分為三個步驟：
1. 文本表示（Text Representation）
這一過程的目的是把文本表示成分類器能夠處理的形式。最常用的方法是向量空間模型，即把文本集表示成詞－文檔矩陣，矩陣中每個元素代表了一個詞在相應文檔中的權重。選取哪些詞來代表一個文本，這個過程稱為特徵選擇。常見的特徵選擇方法有文檔頻率、信息增益、互信息、期望交叉熵等等。為了降低分類過程中的計算量，常常還需要進行降維處理，比如LSI。
2. 分類器構建（Classifier Construction）
這一步驟的目的是選擇或設計構建分類器的方法。不同的方法有各自的優缺點和適用條件，要根據問題的特點來選擇一個分類器。我們會在後面專門講述常用的方法。選定方法之後，在訓練集上為每個類別構建分類器，然後把分類器應用於測試集上，得到分類結果。
3. 效果評估（Classifier Evaluation）
在分類過程完成之後，需要對分類效果進行評估。評估過程應用於測試集（而不是訓練集）上的文本分類結果，常用的評估標准由IR領域繼承而來，包括查全率、查准率、F1值等等。

1. Rocchio方法
每一類確定一個中心點（centroid），計算待分類的文檔與各類代表元間的距離，並作為判定是否屬於該類的判據。Rocchio方法的特點是容易實現，效率高。缺點是受文本集分布的影響，比如計算出的中心點可能落在相應的類別之外。

2. 樸素貝葉斯（naïve bayes）方法
將概率論模型應用於文檔自動分類，是一種簡單有效的分類方法。使用貝葉斯公式，通過先驗概率和類別的條件概率來估計文檔對某一類別的後驗概率，以此實現對此文檔所屬類別的判斷。

3. K近鄰(K-Nearest Neightbers, KNN)方法
從訓練集中找出與待分類文檔最近的k個鄰居（文檔），根據這k個鄰居的類別來決定待分類文檔的類別。KNN方法的優點是不需要特徵選取和訓練，很容易處理類別數目多的情況，缺點之一是空間復雜度高。KNN方法得到的分類器是非線性分類器。

4. 支持向量機（SVM）方法
對於某個類別，找出一個分類面，使得這個類別的正例和反例落在這個分類面的兩側，而且這個分類面滿足：到最近的正例和反例的距離相等，而且是所有分類面中與正例（或反例）距離最大的一個分類面。SVM方法的優點是使用很少的訓練集，計算量小；缺點是太依賴於分類面附近的正例和反例的位置，具有較大的偏執。

文本聚類過程可以分為3個步驟：
1. 文本表示（Text Representation）
把文檔表示成聚類演算法可以處理的形式。所採用的技術請參見文本分類部分。
2. 聚類演算法選擇或設計（Clustering Algorithms）
演算法的選擇，往往伴隨著相似度計算方法的選擇。在文本挖掘中，最常用的相似度計算方法是餘弦相似度。聚類演算法有很多種，但是沒有一個通用的演算法可以解決所有的聚類問題。因此，需要認真研究要解決的問題的特點，以選擇合適的演算法。後面會有對各種文本聚類演算法的介紹。
3. 聚類評估（Clustering Evaluation）
選擇人工已經分好類或者做好標記的文檔集合作為測試集合，聚類結束後，將聚類結果與已有的人工分類結果進行比較。常用評測指標也是查全率、查准率及F1值。

1．層次聚類方法
層次聚類可以分為兩種：凝聚（agglomerative）層次聚類和劃分（divisive）層次聚類。凝聚方法把每個文本作為一個初始簇，經過不斷的合並過程，最後成為一個簇。劃分方法的過程正好與之相反。層次聚類可以得到層次化的聚類結果，但是計算復雜度比較高，不能處理大量的文檔。

2．劃分方法
k-means演算法是最常見的劃分方法。給定簇的個數k，選定k個文本分別作為k個初始簇，將其他的文本加入最近的簇中，並更新簇的中心點，然後再根據新的中心點對文本重新劃分；當簇不再變化時或經過一定次數的迭代之後，演算法停止。k-means演算法復雜度低，而且容易實現，但是對例外和雜訊文本比較敏感。另外一個問題是，沒有一個好的辦法確定k的取值。

3．基於密度的方法
為了發現任意形狀的聚類結果，提出了基於密度的方法。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。常見的基於密度的方法有DBSCAN, OPTICS, DENCLUE等等。

4．神經網路方法
神經網路方法將每個簇描述為一個標本，標本作為聚類的"原型"，不一定對應一個特定的數據,根據某些距離度量，新的對象被分配到與其最相似的簇中。比較著名的神經網路聚類演算法有:競爭學習（competitive learing）和自組織特徵映射（self-organizing map）[Kohonen, 1990]。神經網路的聚類方法需要較長的處理時間和復雜的數據復雜性，所以不適用於大型數據的聚類。

㈤大數據技術架構的什麼層提供基於統計學的數據

大數據技術架構的分析層提供基於統計學的數據。

大數據的四層堆棧式技術架構：

1、基礎層

第一層作為整個大數據技術架構基礎的最底層，也是基礎層。要實現大數據規模的應用，企業需要一個高度自動化的、可橫向擴展的存儲和計算平台。這個基礎設施需要從以前的存儲孤島發展為具有共享能力的高容量存儲池。容量、性能和吞吐量必須可以線性擴展。

雲模型鼓勵訪問數據並提供彈性資源池來應對大規模問題，解決了如何存儲大量數據，以及如何積聚所需的計算資源來操作數據的問題。在雲中，數據跨多個節點調配和分布，使得數據更接近需要它的用戶，從而可以縮短響應時間和提高生產率。

2、管理層

要支持在多源數據上做深層次的分析，大數據技術架構中需要一個管理平台，使結構化和非結構化數據管理為一體，具備實時傳送和查詢、計算功能。本層既包括數據的存儲和管理，也涉及數據的計算。並行化和分布式是大數據管理平台所必須考慮的要素。

3、分析層

大數據應用需要大數據分析。分析層提供基於統計學的數據挖掘和機器學習演算法，用於分析和解釋數據集，幫助企業獲得對數據價值深入的領悟。可擴展性強、使用靈活的大數據分析平台更可成為數據科學家的利器，起到事半功倍的效果。

4、應用層

大數據的價值體現在幫助企業進行決策和為終端用戶提供服務的應用。不同的新型商業需求驅動了大數據的應用。反之，大數據應用為企業提供的競爭優勢使得企業更加重視大數據的價值。新型大數據應用對大數據技術不斷提出新的要求，大數據技術也因此在不斷的發展變化中日趨成熟。

㈥請教基於統計的分詞演算法和程序

分詞演算法我寫過，可以把中文文章裡面的詞語都智能分離出來，但恐怕你所說的找固定片語是指查找片語么？那應該是查找演算法，並不屬於分詞的范疇，難度低很多很多，只是查找字元串而已。我對積分沒興趣的，只對錢有興趣，願意消費的才聯系，看ID

㈦統計演算法的思想是什麼

比如說統計字元個數嗎?
演算法是基於基本邏輯的，統計學不是僅僅像其表面的文字表示，只是統計數字，而是包含了調查、收集、分析、預測等，應用的范圍十分廣泛。
用於統計的演算法的思想當然是統計學啊，一直++，也算。
要不你舉個具體例子來分析思想。

㈧基於統計分析的異常檢測演算法有哪些

根據不同的需求來進行不同的處理1空洞這個肯定是像素顏色和周邊的不同建議用閾值分割然後輪廓檢測2褶皺這個褶皺肯定會有梯度的變化建議檢測邊緣再計算褶皺的梯度信息3劃痕這個和上一個問題相似但是也有不同應該是梯度的方向和強度不同（一個是凹一個是凸）4斑點如果只是點點星星的opencv里也有很多角點檢測演算法比如surffastORB等但是也不是每個必須獨立對應著相應的方法，比如求邊緣梯度的時候可以一次性處理處理好多信息。你往下做，還有疑問在這里提問就行，不用另開問題了。

導航:首頁 > 源碼編譯 > 基於統計演算法

基於統計演算法

與基於統計演算法相關的資料