A. weka中自己帶了哪些分類演算法啊,比如決策樹之外的。
weka演算法有很多,按大類分有bayes,function,tree以及rules演算法等。各個大類下麵包含很多演算法,比如tree類下就有決策樹,logistic tree,functional tree, random forest等等。具體可以看一下wake軟體說明。
B. Kmeans聚類演算法的聚類數目可能小於K嗎
是否可能取決於你的演算法是如何實現的。建議你看看weka和matlab的km演算法實現。聚類數小於k的原因是聚類過程中出現空簇,如果沒有特殊的處理,這個問題是無法在後續的循環中自行解決的。weka的實現是允許輸出聚類數小於k的,出現空簇就直接將空簇刪除;而matlab的km有一個參數用於解決聚類數小於k的問題,例如直接選擇最遠離聚類中心的點作為一個新的簇。
C. 我在做文本數據挖掘,要用到聚類分析,想請問matlab、weka這兩款軟體哪一個更加適合文本聚類分析呢,謝謝
如果單指軟體本身,顯然是weka,至少有這方面的功能模塊。matlab本身是數值計算軟體,根本沒有這類功能。
另外這兩個軟體都可以添加功能庫,相對來說weka可加的庫只能是java的,步驟也麻煩。matlab的添加工具箱之類很簡單,引用也方便,但估計做這方面研究的很少拿matlab做,應該很難找相關資源。
如果專門搞這個的,應該找找其它軟體。
當然如果是做研究的,深入到具體演算法,那還都是數學問題,可以在matlab底下處理。
D. 如何用weka將多種分類演算法集成起來
需要將文件轉換成標稱(nominal)類型,weka把exel中的數字看作是數據類型,不能處理,從而導致Apriori演算法沒法用。
WEKA的全名是懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),同時weka也是紐西蘭的一種鳥名,而WEKA的主要開發者來自紐西蘭。wekaWEKA作為一個公開的數據挖掘工作,集合了大量能承擔數據挖掘任務的機器學習演算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的互動式界面上的可視化。
如果想自己實現數據挖掘演算法的話,可以參考weka的介面文檔。在weka中集成自己的演算法甚至借鑒它的方法自己實現可視化工具並不是件很困難的事情。
2005年8月,在第11屆ACM SIGKDD國際會議上,懷卡託大學的Weka小組榮獲了數據挖掘和知識探索領域的最高服務獎,Weka系統得到了廣泛的認可,被譽為數據挖掘和機器學習 歷史上的里程碑,是現今最完備的數據挖掘工具之一(已有11年的發展歷史)。Weka的每月次數已超過萬次。