導航:首頁 > 源碼編譯 > 文本演算法

文本演算法

發布時間:2022-01-12 06:34:42

Ⅰ 誰懂文本滑動演算法

5日滑動平均演算法,具體一些

Ⅱ 有人用php實現文本相似度演算法嗎

本文實例講述了PHP簡單實現文本計數器的方法。分享給大家供大家參考,具體如下:
<?php if (file_exists('count_file.txt')) { $fil = fopen('count_file.txt', r); $dat = fread($fil, filesize('count_file.txt')); echo $dat+1; fclose($fil); $fil = fopen('count_file.txt', w); fwrite($fil, $dat+1); } else { $fil = fopen('count_file.txt', w); fwrite($fil, 1); echo '1'; fclose($fil); } ?>
更多關於PHP相關內容感興趣的讀者可查看本站專題:《php正則表達式用法總結》、《PHP+ajax技巧與應用小結》、《PHP運算與運算符用法總結》、《PHP網路編程技巧總結》、《PHP基本語法入門教程》、《php操作office文檔技巧總結(包括word,excel,access,ppt)》、《php日期與時間用法總結》、《php面向對象程序設計入門教程》、《php字元串(string)用法總結》、《php+mysql資料庫操作入門教程》及《php常見資料庫操作技巧匯總》

希望本文所述對大家PHP程序設計有所幫助。

Ⅲ 文本比較有哪些演算法

java比較兩個文本文件的不同
RangeDifferencer

public class RangeDifferencer {
private static final RangeDifference[] EMPTY_RESULT= new RangeDifference[0];

/* (non Javadoc)
* Cannot be instantiated!
*/
private RangeDifferencer() {
// nothing to do
}

/**
* Finds the differences between two <code>IRangeComparator</code>s.
* The differences are returned as an array of <code>RangeDifference</code>s.
* If no differences are detected an empty array is returned.
*
* @param left the left range comparator
* @param right the right range comparator
* @return an array of range differences, or an empty array if no differences were found
*/
public static RangeDifference[] findDifferences(IRangeComparator left, IRangeComparator right) {

int rightSize= right.getRangeCount();
int leftSize= left.getRangeCount();
//
// Differences matrix:
// only the last d of each diagonal is stored, i.e., lastDiagonal[k] = row of d
//
int diagLen= 2 * Math.max(rightSize, leftSize); // bound on the size of edit script
int maxDiagonal= diagLen;
int lastDiagonal[]= new int[diagLen + 1]; // the row containing the last d
// on diagonal k (lastDiagonal[k] = row)
int origin= diagLen / 2; // origin of diagonal 0

// script corresponding to d[k]
LinkedRangeDifference script[]= new LinkedRangeDifference[diagLen + 1];
int row, col;

// find common prefix
for (row= 0; row < rightSize && row < leftSize && rangesEqual(right, row, left, row) == true;)
row++;

lastDiagonal[origin]= row;
script[origin]= null;
int lower= (row == rightSize) ? origin + 1 : origin - 1;
int upper= (row == leftSize) ? origin - 1 : origin + 1;

if (lower > upper)
return EMPTY_RESULT;

//System.out.println("findDifferences: " + maxDiagonal + " " + lower + " " + upper);

// for each value of the edit distance
for (int d= 1; d <= maxDiagonal; ++d) { // d is the current edit distance

if (right.skipRangeComparison(d, maxDiagonal, left))
return EMPTY_RESULT; // should be something we already found

// for each relevant diagonal (-d, -d+2 ..., d-2, d)
for (int k= lower; k <= upper; k += 2) { // k is the current diagonal
LinkedRangeDifference edit;

if (k == origin - d || k != origin + d && lastDiagonal[k + 1] >= lastDiagonal[k - 1]) {
//
// move down
//
row= lastDiagonal[k + 1] + 1;
edit= new LinkedRangeDifference(script[k + 1], LinkedRangeDifference.DELETE);
} else {
//
// move right
//
row= lastDiagonal[k - 1];
edit= new LinkedRangeDifference(script[k - 1], LinkedRangeDifference.INSERT);
}
col= row + k - origin;
edit.fRightStart= row;
edit.fLeftStart= col;

//Assert.isTrue(k >= 0 && k <= maxDiagonal);

script[k]= edit;

// slide down the diagonal as far as possible
while (row < rightSize && col < leftSize && rangesEqual(right, row, left, col) == true) {
++row;
++col;
}

//Assert.isTrue(k >= 0 && k <= maxDiagonal); // Unreasonable value for diagonal index

lastDiagonal[k]= row;

if (row == rightSize && col == leftSize) {
//showScript(script[k], right, left);
return createDifferencesRanges(script[k]);
}
if (row == rightSize)
lower= k + 2;
if (col == leftSize)
upper= k - 2;
}
--lower;
++upper;
}
// too many differences
//Assert.isTrue(false);
return null;
}

/**
* Finds the differences among two <code>IRangeComparator</code>s.
* In contrast to <code>findDifferences</code>, the result
* contains <code>RangeDifference</code> elements for non-differing ranges too.
*
* @param left the left range comparator
* @param right the right range comparator
* @return an array of range differences
*/
public static RangeDifference[] findRanges(IRangeComparator left, IRangeComparator right) {
RangeDifference[] in= findDifferences(left, right);
List out= new ArrayList();

RangeDifference rd;

int mstart= 0;
int ystart= 0;

for (int i= 0; i < in.length; i++) {
RangeDifference es= in[i];

rd= new RangeDifference(RangeDifference.NOCHANGE, mstart, es.rightStart() - mstart, ystart, es.leftStart() - ystart);
if (rd.maxLength() != 0)
out.add(rd);

out.add(es);

mstart= es.rightEnd();
ystart= es.leftEnd();
}
rd= new RangeDifference(RangeDifference.NOCHANGE, mstart, right.getRangeCount() - mstart, ystart, left.getRangeCount() - ystart);
if (rd.maxLength() > 0)
out.add(rd);

return (RangeDifference[]) out.toArray(EMPTY_RESULT);
}

//---- private methods

/*
* Creates a Vector of DifferencesRanges out of the LinkedRangeDifference.
* It coalesces adjacent changes.
* In addition, indices are changed such that the ranges are 1) open, i.e,
* the end of the range is not included, and 2) are zero based.
*/
private static RangeDifference[] createDifferencesRanges(LinkedRangeDifference start) {

LinkedRangeDifference ep= reverseDifferences(start);
ArrayList result= new ArrayList();
RangeDifference es= null;

while (ep != null) {
es= new RangeDifference(RangeDifference.CHANGE);

if (ep.isInsert()) {
es.fRightStart= ep.fRightStart + 1;
es.fLeftStart= ep.fLeftStart;
RangeDifference b= ep;
do {
ep= ep.getNext();
es.fLeftLength++;
} while (ep != null && ep.isInsert() && ep.fRightStart == b.fRightStart);
} else {
es.fRightStart= ep.fRightStart;
es.fLeftStart= ep.fLeftStart;

RangeDifference a= ep;
//
// deleted lines
//
do {
a= ep;
ep= ep.getNext();
es.fRightLength++;
} while (ep != null && ep.isDelete() && ep.fRightStart == a.fRightStart + 1);

boolean change= (ep != null && ep.isInsert() && ep.fRightStart == a.fRightStart);

if (change) {
RangeDifference b= ep;
//
// replacement lines
//
do {
ep= ep.getNext();
es.fLeftLength++;
} while (ep != null && ep.isInsert() && ep.fRightStart == b.fRightStart);
} else {
es.fLeftLength= 0;
}
es.fLeftStart++; // meaning of range changes from "insert after", to "replace with"

}
//
// the script commands are 1 based, subtract one to make them zero based
//
es.fRightStart--;
es.fLeftStart--;
result.add(es);
}
return (RangeDifference[]) result.toArray(EMPTY_RESULT);
}

/*
* Tests if two ranges are equal
*/
private static boolean rangesEqual(IRangeComparator a, int ai, IRangeComparator b, int bi) {
return a.rangesEqual(ai, b, bi);
}

/*
* Tests whether <code>right</code> and <code>left</code> changed in the same way
*/
private static boolean rangeSpansEqual(IRangeComparator right, int rightStart, int rightLen, IRangeComparator left, int leftStart, int leftLen) {
if (rightLen == leftLen) {
int i= 0;
for (i= 0; i < rightLen; i++) {
if (!rangesEqual(right, rightStart + i, left, leftStart + i))
break;
}
if (i == rightLen)
return true;
}
return false;
}

/*
* Reverses the range differences
*/
private static LinkedRangeDifference reverseDifferences(LinkedRangeDifference start) {
LinkedRangeDifference ep, behind, ahead;

ahead= start;
ep= null;
while (ahead != null) {
behind= ep;
ep= ahead;
ahead= ahead.getNext();
ep.setNext(behind);
}
return ep;
}
}

下面是一段關於如何使用這些類的簡單的測試代碼

public class RangeDifferencerTest extends TestCase {

InputStream left = null;
InputStream right = null;

/**
* @see junit.framework.TestCase#setUp()
*/
protected void setUp() throws Exception {
String file1 = "d:/temp/1.txt";
String file2 = "d:/temp/2.txt";
left = new FileInputStream(new File(file1));
right = new FileInputStream(new File(file2));
super.setUp();
}

/**
* @see junit.framework.TestCase#tearDown()
*/
protected void tearDown() throws Exception {
left.close();
right.close();
super.tearDown();
}

public static void main(String[] args) {
}

/*
* Test method for 'com.greatroad.smbnm.compare.RangeDifferencer.findDifferences(IRangeComparator, IRangeComparator)'
*/
public void testFindDifferences() {
try {
RangeDifference[] rds = RangeDifferencer.findRanges(new LineComparator(left,"GBK"),new LineComparator(right,"GBK"));
if(rds != null ){
for(int i=0; i<rds.length; i++){
RangeDifference rd = rds[i];
int length = rd.leftLength();
System.out.println(
"kind = "+rd.kind()
+",left["+rd.leftStart()+"-"+rd.leftEnd()
+"],right["+rd.rightStart()+"-"+rd.rightEnd()+"]");
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
}

Ⅳ 深度學習演算法哪些適用於文本處理

作者:梅洪源
來源:知乎

現在實踐證明,對supervised-learning而言,效果較好的應該算是Recurrent Neural Network (RNN)吧,目前比較火的一類RNN是LSTM -- Long Short Term Memory。
對於這個model而言,最初的發明見於論文--Long Short Term Memory by Hochreiter and Schmidhuber,而之後較好的歸納和實現可以參考Frame Phoneme Classification with Bidirectional LSTM by Alex Graves,後者有比較清晰的back propagation的公式。
最近兩年這個model在speech,language以及multimodal with vision等方面可謂是大展宏圖,一再的刷新實驗結果,重要工作可以參考:
Speech recognition with Deep Recurrent Neural Networks by Graves
Sequence to Sequence Learning with Neural Networks by Sutskever
Show Attend and Tell by Kelvin Xu
至於具體的實現,希望避免造輪子的可以參考這個非常famous的github:karpathy (Andrej) · GitHub,Andrej Karpathy最近發了很多很有趣的RNN的fun project,可以borrow一些代碼。
希望自己造輪子的,可以選擇用Theano或者Torch,用畫data flow的方法來code整個structure,很簡潔實用,我個人一直用Theano,給個好評。:)
當然啦,至於你要研究什麼問題,還是具體問題具體分析的好。可以去搜搜有沒有研究類似問題的paper,看看目前的最好的技術是什麼。Deep Learning不一定是萬能的啦。

Ⅳ 文本聚類 一個文本的中心怎麼表示

最簡單的來說文本聚類就是從很多文檔中把一些 內容相似的文檔聚為一類。文本聚類主要是依據著名的聚類假設:同類的文本相似度較大,而不同類的文本相似度較小。作
為一種無監督的機器學習方法,聚
類由於不需要訓練過程,以及不需要預先對文本手工標注類別,因此具有一定的靈活性和較高的自動化處理能力,已經成為對文本信息進行有效地組織、摘要和導航

的重要手段,為越來越多的研究人員所關注。一個文本表現為一個由文字和標點符號組成的字元串,由字或字元組成詞,由片語成短語,進而形成句、段、節、章、

篇的結構。要使計算機能夠高效地處理真是文本,就必須找到一種理想的形式化表示方法,這種表示一方面要能夠真實地反應文檔的內容(主題、領域或結構等),
另一方面,要有對不同文檔的區分能力。目前文本表示通常採用向量空間模型(vector space model,VSM)。
VSM法即向量空間模型
(Vector Space
Model)法,由Salton等人於60年代末提出。這是最早也是最出名的信息檢索方面的數學模型。其基本思想是將文檔表示為加權的特徵向
量:D=D(T1,W1;T2,W2;…;Tn,Wn),然後通過計算文本相似度的方法來確定待分樣本的類別。當文本被表示為空間向量模型的時候,文本的
相似度就可以藉助特徵向量之間的內積來表示。最簡單來說一個文檔可以看成是由若干個單片語成的,每個單詞轉化成權值以後,
每個權值可以看成向量中的一個分量,那麼一個文檔可以看成是n維空間中的一個向量,這就是向量空間模型的由來。單詞對應的權值可以通過TF-IDF加權技 術計算出來。

TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的
其中一份文件的重要程
度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式
常被搜索引擎應用,作為文件與用戶查詢之間相關程度
的度量或評級。除了TF-IDF以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。

原理:

以上式子中 ni,j 是該詞在文件dj中的出現次 數,而分母則是在文件dj中所 有字詞的出現次數之和。

逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到:

其中

|D|:語料庫中的文件總數
: 包含詞語ti的文件數目(即的
文件數目)

然後

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞 語,保留重要的詞語。

例子

有很多不同的數學公式可以用來計
算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻
(TF)
是一詞語出現的次數除以該文件的總詞語數。假如一篇文件的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該文件中的詞頻就是
0.03 (3/100)。一個計算文件頻率 (DF)
的方法是測定有多少份文件出現過「母牛」一詞,然後除以文件集里包含的文件總數。所以,如果「母牛」一詞在1,000份文件出現過,而文件總數是
10,000,000份的話,其逆向文件頻率就是
9.21 ( ln(10,000,000 / 1,000) )。最後的TF-IDF的分數為0.28( 0.03 * 9.21)。

TF-IDF權重計算方法經常會和余
弦相似度(cosine similarity)一同使用於向 量空間模型中,用以判斷兩份文件之間的相
似性。學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩 個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。
餘弦定理對我們每個人都不陌生,它描述了三角形中任何一個夾角和三個邊的關系,換句話說,給定三角形的三條邊,我們可以用餘弦定理求出三角形各個角的角 度。假定三角形的三條邊為 a, b 和 c,對應的三個角為 A, B 和 C,那麼角 A 的餘弦 --

如果我們將三角形的兩邊 b 和 c 看成是兩個向量,那麼上述公式等價於

其中分母表示兩個向量 b 和 c 的長度,分子表示兩個向量的內積。舉一個具體的例子,假如文本 X 和文本 Y 對應向量分別是
x1,x2,...,x64000 和
y1,y2,...,y64000,
那麼它們夾角的餘弦等於,

當兩條文本向量夾角的餘弦等於一時,這兩個文本完全重復(用這個辦法可以刪除重復的網頁);當夾角的餘弦接近於一時,兩個文本相似,從而可以歸成一類;夾 角的餘弦越小,兩個文本越不相關。

我們在中學學習餘弦定理時,恐怕很難想像它可以用來對文本進行分類。

最後我們在對文本進行聚類時要用到數據挖掘中的Kmeans演算法,聚類演算法有很多種,這篇文章主要介紹Kmeans演算法。K-MEANS演算法:

k-means 演算法接受輸入量 k ;然後將n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對 象」(引力中心)來進行計算的。
k-means 演算法的工作過程說明如下:
首先從n個 數據對象任意選擇 k
個對象作為初始聚類中心;而對於所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然
後再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標准測度函數開始收斂為止。一般都採用均方差作為標准測度函數.
k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。

處理流程:

( 1 ) 從 c 個 數據對象任意選擇 k 個
對象作為初始聚類中心;
( 2 ) 循 環( 3 ) 到( 4 )
直到每個聚類不再發生變化為止;
( 3 ) 根 據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
( 4 ) 重 新計算每個(有變化)聚類的均值(中心對象)

到這里這個文本聚類的小程序的核心思想就講完了,總的來說大致步驟如 下:

(1)對各個文本分詞,去除停用詞

(2)通過TF-IDF方法獲得文本向量的權值(每個文本向量的維數是 相同的,是所有文本單詞的數目,這些單詞如果有重復那隻算一次,所以如果文本越多,向量的維數將會越大)

(3)通過K-means演算法對文本進行分類

本人的文本小程序的結 果還算令人滿意,對下面的實驗用例的聚類結果還算是理想,但是每次執行的結果都不一樣。其實聚類的結果受好多種因素制約,提取特徵的演算法,隨機初始化函 數,kmeans演算法的實現等,都有優化的地方,不信你把輸入的數據的順序改改,聚類結果就不一樣了,或者把隨機數的種子變一下,結果也不一樣,k-
means演算法加入一些變異系數的調整,結果也不一樣,提取特徵的地方不用TF/IDF權重演算法用別的,結果肯定也不一樣。

實驗用例:

奧運拳擊入場券基本分罄鄒市明奪冠對手浮出水面
股民要清楚自己的目的
印花稅之股民四季
杭州股民放鞭炮慶祝印花稅下調
殘疾女青年入圍奧運游泳比賽創奧運歷史兩項第一
介紹一個ASP.netMVC系列教程
在asp.net中實現觀察者模式,或有更好的方法(續)
輸大錢的股民給我們啟迪
Asp.Net頁面執行流程分析
運動員行李將"後上先下"奧運相關人員行李實名制
asp.net控制項開發顯示控制項內容
奧運票務網上成功訂票後應及時到銀行代售網點付款
某心理健康站開張後首個咨詢者是位新股民
ASP.NET自定義控制項復雜屬性聲明持久性淺析

以下是我在網上參考的資料:

http://www.cnblogs.com/onlytiancai/archive/2008/05/10/1191557.html

http://hi..com/zhumzhu/blog/item/fc49ef3d19b0a4c09f3d62a3.html

Ⅵ 文本分類的方法

文本分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類數據的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標准)選擇最優的匹配結果,從而完成分類。 後來人們意識到,究竟依據什麼特徵來判斷文本應當隸屬的類別這個問題,就連人類自己都不太回答得清楚,有太多所謂「只可意會,不能言傳」的東西在裡面。人類的判斷大多依據經驗以及直覺,因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文檔的觀察來自己總結經驗,作為今後分類的依據。這便是統計學習方法的基本思想。
統計學習方法需要一批由人工進行了准確分類的文檔作為學習的材料(稱為訓練集,注意由人分類一批文檔比從這些文檔中總結出准確的規則成本要低得多),計算機從這些文檔中挖掘出一些能夠有效分類的規則,這個過程被形象的稱為訓練,而總結出的規則集合常常被稱為分類器。訓練完成之後,需要對計算機從來沒有見過的文檔進行分類時,便使用這些分類器來進行。這些訓練集包括sogou文本分類分類測試數據、中文文本分類分類語料庫,包含Arts、Literature等類別的語料文本、可用於聚類的英文文本數據集、網易分類文本分類文本數據、tc-corpus-train(語料庫訓練集,適用於文本分類分類中的訓練)、2002年中文網頁分類訓練集CCT2002-v1.1等。
現如今,統計學習方法已經成為了文本分類領域絕對的主流。主要的原因在於其中的很多技術擁有堅實的理論基礎(相比之下,知識工程方法中專家的主觀因素居多),存在明確的評價標准,以及實際表現良好。統計分類演算法
將樣本數據成功轉化為向量表示之後,計算機才算開始真正意義上的「學習」過程。常用的分類演算法為:
決策樹,Rocchio,樸素貝葉斯,神經網路,支持向量機,線性最小平方擬合,kNN,遺傳演算法,最大熵,Generalized Instance Set等。在這里只挑幾個最具代表性的演算法侃一侃。
Rocchio演算法
Rocchio演算法應該算是人們思考文本分類問題時最先能想到,也最符合直覺的解決方法。基本的思路是把一個類別里的樣本文檔各項取個平均值(例如把所有 「體育」類文檔中詞彙「籃球」出現的次數取個平均值,再把「裁判」取個平均值,依次做下去),可以得到一個新的向量,形象的稱之為「質心」,質心就成了這 個類別最具代表性的向量表示。再有新文檔需要判斷的時候,比較新文檔和質心有多麼相像(八股點說,判斷他們之間的距離)就可以確定新文檔屬不屬於這個類。 稍微改進一點的Rocchio演算法不僅考慮屬於這個類別的文檔(稱為正樣本),也考慮不屬於這個類別的文檔數據(稱為負樣本),計算出來的質心盡量靠近正樣本同時盡量遠離負樣本。Rocchio演算法做了兩個很致命的假設,使得它的性能出奇的差。一是它認為一個類別的文檔僅僅聚集在一個質心的周圍,實際情況往往不是如此(這樣的數據稱為線性不可分的);二是它假設訓練數據是絕對正確的,因為它沒有任何定量衡量樣本是否含有雜訊的機制,因而也就對錯誤數據毫無抵抗力。
不過Rocchio產生的分類器很直觀,很容易被人類理解,演算法也簡單,還是有一定的利用價值的,常常被用來做科研中比較不同演算法優劣的基線系統(Base Line)。
樸素貝葉斯演算法
貝葉斯演算法關注的是文檔屬於某類別概率。文檔屬於某個類別的概率等於文檔中每個詞屬於該類別的概率的綜合表達式。而每個詞屬於該類別的概率又在一定程度上 可以用這個詞在該類別訓練文檔中出現的次數(詞頻信息)來粗略估計,因而使得整個計算過程成為可行的。使用樸素貝葉斯演算法時,在訓練階段的主要任務就是估計這些值。
樸素貝葉斯演算法的公式並不是只有一個。
首先對於每一個樣本中的元素要計算先驗概率。其次要計算一個樣本對於每個分類的概率,概率最大的分類將被採納。所以
其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1)
P(w|C)=元素w在分類為C的樣本中出現次數/數據整理後的樣本中元素的總數(式2)
這其中就蘊含著樸素貝葉斯演算法最大的兩個缺陷。
首先,P(d| Ci)之所以能展開成(式1)的連乘積形式,就是假設一篇文章中的各個詞之間是彼此獨立的,其中一個詞的出現絲毫不受另一個詞的影響(回憶一下概率論中變 量彼此獨立的概念就可以知道),但這顯然不對,即使不是語言學專家的我們也知道,詞語之間有明顯的所謂「共現」關系,在不同主題的文章中,可能共現的次數 或頻率有變化,但彼此間絕對談不上獨立。
其二,使用某個詞在某個類別訓練文檔中出現的次數來估計P(wi|Ci)時,只在訓練樣本數量非常多的情況下才比較准確(考慮扔硬幣的問題,得通過大量觀 察才能基本得出正反面出現的概率都是二分之一的結論,觀察次數太少時很可能得到錯誤的答案),而需要大量樣本的要求不僅給前期人工分類的工作帶來更高要求 (從而成本上升),在後期由計算機處理的時候也對存儲和計算資源提出了更高的要求。
但是稍有常識的技術人員都會了解,數據挖掘中佔用大量時間的部分是數據整理。在數據整理階段,可以根據詞彙的情況生成字典,刪除冗餘沒有意義的詞彙,對於單字和重要的片語分開計算等等。
這樣可以避免樸素貝葉斯演算法的一些問題。其實真正的問題還是存在於演算法對於信息熵的計算方式。
樸素貝葉斯演算法在很多情況下,通過專業人員的優化,可以取得極為良好的識別效果。最為人熟悉的兩家跨國軟體公司在目前仍採用樸素貝葉斯演算法作為有些軟體自然語言處理的工具演算法。
kNN演算法
最近鄰演算法(kNN):在給定新文檔後,計算新文檔特徵向量和訓練文檔集中各個文檔的向量的相似度,得到K篇與該新文 檔距離最近最相似的文檔,根據這K篇文檔所屬的類別判定新文檔所屬的類別(注意這也意味著kNN演算法根本沒有真正意義上的「訓練」階段)。這種判斷方法很 好的克服了Rocchio演算法中無法處理線性不可分問題的缺陷,也很適用於分類標准隨時會產生變化的需求(只要刪除舊訓練文檔,添加新訓練文檔,就改變了 分類的准則)。
kNN唯一的也可以說最致命的缺點就是判斷一篇新文檔的類別時,需要把它與現存的所有訓練文檔全都比較一遍,這個計算代價並不是每個系統都能夠承受的(比 如我將要構建的一個文本分類系統,上萬個類,每個類即便只有20個訓練樣本,為了判斷一個新文檔的類別,也要做20萬次的向量比較!)。一些基於kNN的 改良方法比如Generalized Instance Set就在試圖解決這個問題。
kNN也有另一個缺點,當樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本佔多數。 SVM(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。
支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。
SVM 方法有很堅實的理論基礎,SVM 訓練的本質是解決一個二次規劃問題(Quadruple Programming,指目標函數為二次函數,約束條件為線性約束的最優化問題),得到的是全局最優解,這使它有著其他統計學習技術難以比擬的優越性。 SVM分類器的文本分類效果很好,是最好的分類器之一。同時使用核函數將 原始的樣本空間向高維空間進行變換,能夠解決原始樣本線性不可分的問題。其缺點是核函數的選擇缺乏指導,難以針對具體問題選擇最佳的核函數;另外SVM 訓練速度極大地受到訓練集規模的影響,計算開銷比較大,針對SVM 的訓練速度問題,研究者提出了很多改進方法,包括Chunking 方法、Osuna演算法、SMO 演算法和交互SVM 等。SVM分類器的優點在於通用性較好,且分類精度高、分類速度快、分類速度與訓練樣本個數無關,在查准和查全率方面都略優於kNN及樸素貝葉斯方法。

Ⅶ 想用C寫一個簡單的去重演算法,將文本文件中重復的行去掉,將結果寫入另一個文件中。不需要復雜的演算法,只要

//請注意要將後綴名改成.cpp,不然的話沒法運行
#include<stdio.h>

#include<stdlib.h>
#include<algorithm>
using namespace std;

struct A{
char s[100];
}sto[100];
bool cmp( A a,A b)
{
return strcmp(a.s,b.s)<0;
}
int main()
{
freopen("a.txt","r",stdin);
puts("1");
int n=0;
while(gets(sto[n].s))
{
n++;
}
puts("2");
sort(sto,sto+n,cmp);
freopen("b.txt","w",stdout);
printf("%s\n",sto[0].s);
int i;
for(i=1;i<n;i++)
{
if(strcmp(sto[i].s,sto[i-1].s)!=0)
{
puts(sto[i].s);
}
}
return 0;
}

Ⅷ 文本自動分類演算法有哪些呢

文本自動分類演算法主要有樸素貝葉斯分類演算法、支持向量機分類演算法、KNN演算法和決策樹演算法。
樸素貝葉斯分類演算法主要是利用文本中詞的特徵項和類別的組合概率來估算文本屬於哪個類別的概率。
支持向量機分類算分主要是採用特徵提取技術把文本信息轉換為詞向量,然後用詞向量與訓練好的類別數據進行相似度計算。
KNN演算法是在訓練集中找到離它最近的k個文本,並根據這些文本的分類來預測待分類文本屬於哪一個類別。
決策樹演算法是首先建立一個基於樹的預測模型,根據預測模型來對文本進行預測分類。

Ⅸ 文本分類的演算法是屬於機器學習么

經過演算法不斷自己調優就可以算機器學習,簡單理解就是演算法來進行分類而且效果很好
如果有標簽屬於監督學習,沒有標簽屬於無監督學習

Ⅹ 目前最好的文本分類演算法

文本分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類數據的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標准)選擇最優的匹配結果,從而完成分類。

閱讀全文

與文本演算法相關的資料

熱點內容
pdf90下載 瀏覽:387
星外主機php環境包 瀏覽:531
pidlinux路徑 瀏覽:624
超雲伺服器認證 瀏覽:980
怎麼選dns伺服器 瀏覽:208
如何讓手機像素變好安卓 瀏覽:159
php互斥 瀏覽:662
idl編譯沒有問題 瀏覽:924
剛下載的企鵝加密了怎麼辦 瀏覽:737
圖解撼龍經pdf 瀏覽:158
linuxnginx啟動命令行 瀏覽:102
csgo如何讓跳出選擇伺服器 瀏覽:280
單片機tosc 瀏覽:502
foxmail壓縮空間 瀏覽:743
中國氣體壓縮機 瀏覽:761
cmd創建文件夾命令 瀏覽:278
des加密演算法中的p置換是什麼 瀏覽:194
越南盾匯率演算法 瀏覽:373
android下拉刷新列表 瀏覽:594
linux打開命令行終端 瀏覽:494