⑴ 幫助選擇數據挖掘合適的預測演算法
Value1、Value2、Value3相互獨立嗎?如果相互獨立且數據量大的話,試試神經網路演算法,關聯分析。如果有時間順序,時間序列分析吧。具體操作自己找找吧,我挺久不搞這個了
⑵ 常用的分類和預測演算法有哪些
常用的分類與預測演算法 根據挖掘目標和數據形式可以建立分類與預測、聚類分析、關聯規則、時序模式、偏差檢測。
⑶ 根據已知數據尋找一個演算法進行預測
用數值分析方法!牛頓插值法,拉格朗日插值法等等都可以。
⑷ 該代碼為基於bp神經網路的預測演算法怎麼看
BP(Back Propagation)神經網路是1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆傳播演算法訓練的多層前饋網路,是目前應用最廣泛的神經網路模型之一。BP網路能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法,通過反向傳播來不斷調整網路的權值和閾值,使網路的誤差平方和最小。BP神經網路模型拓撲結構包括輸入層(input)、隱層(hidden layer)和輸出層(output layer)。
上傳的m文件里是一個電力系統負荷預測的實例,用的是最簡單的BP演算法,你可以參考。
很抱歉,回答者上傳的附件已失效
⑸ 機器學習預測演算法的選擇
神經網路,支持向量機,時間序列等
⑹ 數據挖掘中的預測演算法有哪些
數據挖掘(六):預測
http://blog.csdn.net/kingzone_2008/article/details/8977837
⑺ 機器學習估計,預測演算法
GBDT或者RF
⑻ 預測原理
(一)機器學習
1.研究的主要問題
機器學習是人工智慧最具智能特徵、最前沿的研究領域之一。主要是從大量的數據中自動或半自動地尋找模式的過程,在該過程中不斷獲取新的知識或技能,重新組織已有的知識結構,並不斷改善自身的性能,從而達到學習的目的。機器學習問題目前是人工智慧發展的一個重要方面,其研究的主要問題是從一組觀測數據集出發,通過某些技術與方法尋找到一些不能通過原理分析以及相應數學運算而得到的規律,進而利用這些規律對未知或無法觀測到的數據進行預測和分析。機器學習的最終目標是根據給定有限的訓練樣本然後對某系統輸入/輸出之間存在的相互依賴關系進行估計,然後根據輸入/輸出之間所存在的關系再對未知的輸出結果作出盡可能准確的預測。上述理論可以表示為:變數y與x之間存在一定的未知依賴關系,即遵循某一未知的聯合概率F(y|x),機器學習問題的實質就是根據n個獨立同分布觀測樣本:(x1,y1),(x2,y2),…,(xn,yn),在給定一組函數集f(x,ω)中求取一個最優的函數(fx,ω0)對相互關系進行估計,使得期望風險達到最小。其中:f(x,ω)稱為學習函數集或預測函數集;ω稱為函數的廣義參數,ω∈∧;∧是參數集合。L[y,f(x,ω)]為利用f(x,ω)對y進行預測而造成的損失,不同類型的學習問題有不同形式的損失函數。通過選擇不同形式的損失函數可以構成模式識別、函數逼近和概率密度估計這三種基本的機器學習問題。
含水層含水量預測綜合物探技術
在模式識別問題中,輸出y是類別標號,在分類問題中,系統輸出向量y可以表示成形式為的二值函數。預測函數在這里稱為指示函數,將損失函數定義為
含水層含水量預測綜合物探技術
為了使風險最小就要求Bayes決策中使錯誤率達到最小[7]。
在回歸估計問題中,如果假設訓練機的輸出值為實數值y,並且令f(x,ω)為實函數集合,ω∈∧,其中,包含的回歸函數為[8]
含水層含水量預測綜合物探技術
這里的回歸函數就是在損失函數為
含水層含水量預測綜合物探技術
的情況下,使式(5-1)最小化風險泛函的函數。因此對於回歸估計問題可以表示成在概率測度F(x,y)未知,但數據集(x1,y1),(x2,y2),…,(xn,yn)已知的情況下尋找使得R(ω)最小的密度函數。
對於概率密度估計問題,其學習的主要目的是要根據訓練樣本來確定x的概率分布。令估計的密度函數為p(x,ω),則損失函數可以定義為如下形式:L[p(x,ω)]=-lnp(x,ω)。這里的密度函數就是要求在損失函數下使得R(ω)最小化。也就是說,密度估計的問題在相應的概率密度F(x)未知以及給定獨立同分布數據集x1,x2,…,xn的情況下,尋找使得R(ω)最小的密度函數。
2.經驗風險最小化
一般基於數據的機器學習問題的目標是要使期望風險達到最小化,但是由於已知的全部信息只有數據集的期望風險,而且該期望風險無法計算,因此根據概率論中的大數定理,利用算術平均代替式(5-1)中的數學期望,於是定義下式:
含水層含水量預測綜合物探技術
由於R(ω)是用已知的訓練樣本對(5-1)式進行的估計,因此稱為經驗風險。利用對參數ω求經驗風險Remp(ω)的最小值來逼近期望風險R(ω)的最小值,稱這一原則為經驗風險最小化(empirical risk minimization)原則,簡稱ERM原則。
通過對經驗風險最小化原則和基於數據的機器學習問題中期望風險最小化要求的研究可以發現,從期望風險最小化到經驗風險最小化缺少相應的理論依據,只是一種直觀上合理的做法。首先,Remp(ω)和R(ω)都是ω的函數,概率論中大數定理只是說明了滿足一定條件下,如果數據集趨於無窮多時那麼Remp(ω)將在概率意義上趨近於R(ω),但並不能保證Rmpe(ω)最小的ω*與使R(ω)最小的ω′是在同一個點,更不能保證Remp(ω*)能夠趨近於R(ω′)。其次,即使能夠使這些條件在數據集數目無窮大時得到保證,但也無法保證在這些前提下所得到的經驗風險最小化方法在有限的數據集數目(即小樣本數據)的情況下仍能得到最佳結果[9]。雖然存在上述各種問題,但該思想在多年的機器學習方法研究中一直占據了主導地位。人們多年來將大部分注意力都集中到如何更好地求取最小經驗風險。
(二)統計學習理論
1.統計學習理論的產生
統計學方法是研究利用經驗數據進行機器學習的一種一般理論,對於大量缺乏合適的理論模型的觀測數據時,統計學方法是唯一的分析手段。統計學方法研究的主要內容是當樣本數據的數目趨於無窮大時的極限特性。然而,在實際應用當中,數據集的數目通常是有限的,有時數據樣本的獲取是非常困難或者成本非常高的。因此在實際應用中往往無法滿足數據集的數目趨於無窮大或者數據集的數據樣本量大這個最基本的前提,特別是在研究高維特徵空間時,這一矛盾顯得尤為突出。因此,研究小樣本數據下的統計學習規律是一個非常有實用價值和意義的問題。
Vapnik等人在20世紀60年代中期提出了統計學習理論(statistical learning theory,SLT),並開始研究在有限數據集的情況下基於數據的機器學習問題。由於當時的研究程度不夠完善,直到20世紀90年代中期,統計學習理論才得以逐漸的發展和成熟,並且形成了一個較為完善的統計學習理論體系。
統計學習理論的本質就是從理論上系統地研究經驗風險最小化原則成立的條件、有限樣本下經驗風險與期望風險之間的關系以及如何利用這些理論尋找新的學習原則和方法的問題,其主要內容包括四個方面:
1)經驗風險最小化原則下統計學習一致性的條件。
2)在這些條件下關於統計學習方法推廣性的界的結論。
3)在這些界的基礎上建立的小數據樣本歸納推理原則。
4)實現這些新的原則的實際方法或演算法。
以上這四條內容中,核心內容是:VC維,推廣能力的界,結構風險最小化。
2.學習過程的一致性條件
學習過程的一致性主要是指當訓練數據集的數目趨於無窮大時,經驗風險的最優值能夠收斂到真實風險的最優值。設Q(z,ωn)是對給定的獨立同分布觀測數據集z1,z2,…,zn使經驗風險泛函式
含水層含水量預測綜合物探技術
最小化的函數。如果下面兩個序列概率收斂於同一個極限,即
含水層含水量預測綜合物探技術
則稱ERM原則對函數集Q(z,ωn),ω∈∧和概率分布函數F(z)是一致的。其中, 為實際可能的最小風險。
對於有界的損失函數,經驗風險最小化學習一致性的充分必要條件是使經驗風險在式(5-7)的條件下一致地收斂於真實風險:
含水層含水量預測綜合物探技術
式中:P表示概率,Remp(ω)和R(ω)分別表示在n個數據樣本下的經驗風險和對於同一個ω的真實風險。
上述內容即為學習理論的關鍵定理。由學習理論的關鍵定理可知,基於經驗風險最小化原則的學習過程一致性的條件由預測函數集中最差的函數決定,即最壞的情況。
由於學習理論關鍵定理只給出了經驗風險最小化原則成立的充分必要條件,但並沒有給出什麼樣的學習方法能夠滿足這些條件。為此,統計學習理論定義了一些指標來衡量函數集的性能,其中最重要的是VC維(Vapnik-Chervonenkis dimension)。
3.VC維理論
VC維是用來描述函數集或學習機器的復雜程度及學習能力的一個重要指標,在模式識別中VC維的直觀定義是:對一個指示函數集,如果存在h個數據樣本能夠被函數集中的函數按所有可能的2h種形式分開,則稱函數集能夠把h個樣本打散;函數集的VC維就是它能打散的最大樣本數目h。若對任意數目的樣本都有函數能將它們打散,則函數集的VC維是無窮大。有界實函數的VC維可以採用一定的閾值將它轉化成指示函數來進行定義。
VC維體現了函數集的學習能力,直接影響學習機器的推廣能力。一般情況,VC維越大則學習機器越復雜,學習能力就越強。但目前尚沒有通用的可用於任意函數集VC維計算的理論,只知道一些特殊的函數集的VC維。例如,在n維實數空間中線性分類器和線性實函數的VC維是n+1;函數f(x,a)=sin(x,a),a∈R的VC維是無窮大。對於一些比較復雜的學習機器(如神經網路),其VC維不但與函數集有關外,而且也受學習演算法等的影響,因此它的確定將更加困難。對於給定的學習函數集,如何通過理論或實驗的方法計算它的VC維仍是當前統計學習理論中有待研究的一個問題。
4.推廣性的界
統計學習理論系統地研究了各種類型函數集的經驗風險和實際風險之間的關系,即推廣性的界。對於兩類分類問題,指示函數集中的所有函數包括使經驗風險最小的函數,其經驗風險Remp(ω)和實際風險R(ω)之間以至少1-η的概率滿足如下關系:
含水層含水量預測綜合物探技術
式中:h為函數集的VC維;n為數據樣本數。
通過該結論說明了學習機器的實際風險是由兩部分組成的:一部分是經驗風險即訓練誤差,另一部分則稱為置信范圍,也叫做VC信任,它與學習機器的VC維及訓練樣本數有關。(5-9)式可以簡單表示為
含水層含水量預測綜合物探技術
上式表明,當訓練樣本有限時,如果學習機器的VC維越高,復雜性越高,則置信范圍越大,將會導致真實風險與經驗風險之間的差別越大,這就是會出現「過學習」現象的原因。在機器學習過程中不但要使經驗風險最小,還應當保證VC維盡量的小,從而縮小置信范圍,才能取得較小的實際風險,即對未知樣本預測才能取得較好的推廣能力。這也是大多數情況下選擇復雜的學習機器或神經網路雖然能夠獲得較好的記憶功能卻得不到令人滿意的推廣性能的主要原因。因此尋找反映學習機器能力更好的參數及得到更好的界,也是今後學習理論的重要研究方向之一。
5.結構風險最小化
由前面的結論可知,當樣本數據有限時傳統的機器學習方法中採用的經驗風險最小化原則是不合理的。需要同時保證最小化經驗風險和置信范圍。實際上,選擇模型和演算法的過程就是優化置信范圍的過程,如果選擇的模型適合於現有的訓練樣本(相當於h/n值適當),則可以取得較好的效果。例如,在神經網路中,可以根據問題和樣本的具體情況來選擇不同的網路結構(對應不同的VC維),然後進行經驗風險最小化。
(三)支持向量機理論[10~14]
1.支持向量機基本思想
圖5-1 優化分類面示意圖
支持向量機(support vector machines,SVM)是Vladimir N. Vapnik等根據統計學習理論中的結構風險最小化原則於20世紀90年代提出的一種新的通用機器學習技術。SVM是由線性可分情況下的最優分類面發展而來的,其基本思想可用圖5-1所示的二維情況說明。圖5-1中,實心點和空心點代表兩類數據樣本,其中H為分類線,H1、H2分別為過各類中離分類線最近的數據樣本且平行於分類線的直線,它們之間的距離稱作分類間隔(margin)。所謂最優分類線,就是要求分類線不但能將兩類正確分開,而且要使間隔最大。前者保證經驗風險達到最小;使分類間隔最大實際上就是要使推廣性界中的置信范圍能夠最小,從而保證真實風險最小。推廣到高維空間,最優分類線就轉換成了最優分類面。
2.最優分類面
最優分類面不但要求分類超平面能將兩類正確分開,而且要使分類間隔最大,這是因為要使結構風險最小化,就要求分類超平面集合的VC維達到最小。根據VC維理論可知,當訓練樣本給定時,分類間隔越大,則對應的分類超平面集合的VC維就越小,因此要求分類間隔最大,這就是最大間隔(分類)原則。
根據最大間隔原則,對於線性可分的訓練集
T={(x1,y1),…,(xn,yn)}∈(X+Y)n
其中xiX=Rn,yi∈Y={+1,-1},I=1,…,n;
若其分類線性方程為ω·x+b=0,
則訓練集中的向量應滿足
含水層含水量預測綜合物探技術
此時分類間隔等於 ,間隔最大等價於2最小。滿足式(5-11)。且使 最小的分類面就是圖5-1中的最優分類線H。
因此,最優分類面問題可以用如下的約束優化問題來表示,即在式(5-11)的約束下,求如下函數的最小值:
含水層含水量預測綜合物探技術
定義Lagrange函數:
含水層含水量預測綜合物探技術
式中:αi≥0為Lagrange乘子。
為求式(5-13)的最小值,分別對ω、b、αi求偏微分並令其為0,於是得
含水層含水量預測綜合物探技術
通過Lagrange對偶理論可以把上述最優分類面求解問題轉化為其對偶問題:
含水層含水量預測綜合物探技術
αi為原問題中與每個約束條件對應的Lagrange乘子。是一個在不等式約束條件下二次函數最優的問題,且存在唯一解。若 為最優解, 即最優分類面的權系數向量是支持向量的線形組合。
可由約束條件αi[yi(ω·xi+b)-1]=0求解,解上述問題後得到的最優分類面函數為:
含水層含水量預測綜合物探技術
sgn()為符號函數,由於非支持向量對於αi均為零,因此上式中的求和實際上是對支持向量進行。b*為分類閾值,可以由任意一個支持向量用式(5-11)求得,或通過兩類任意一對支持向量取中值求取,這就是SVM最一般的表達。
3.廣義的最優分類面
當最優分類面不能把兩類點完全分開時,為了在經驗風險和推廣性能之間求得某種均衡,我們在條件中引入弛變數ξ,允許錯分樣本存在,此時的分類面ω·a+b=0滿足:
含水層含水量預測綜合物探技術
當0<ξi<1時,樣本點xi正確分類;當ξi≥1時,樣本點xi被錯分,因此,在最小化目標 中加入懲罰項 ,引入以下目標函數:
含水層含水量預測綜合物探技術
式中:C為一個正常數,稱為懲罰因子。
與線性可分情況類似,式(5-18)可通過如下二次規劃來實現:
含水層含水量預測綜合物探技術
對於非線性分類問題,如果在原始空間中的簡單最優分類面不能得到滿意的分類結果,則可以通過非線性變換將原始問題轉化為某個高維空間中的線性問題,在變換空間求最優分類面。
由於變換可能比較復雜,一般不容易實現,因此SVM可以通過核函數變換巧妙地解決了這個問題。
4.核函數
核函數方法的核心內容就是採用非線性變換φ將n維矢量空間中的隨機矢量x映射到高維特徵空間[11],在高維特徵空間中設相應的線性學習演算法,由於其中各坐標分量間的相互作用只限於內積,因此不需要知道非線性變換φ的具體形式,只要利用滿足Mercer條件的核函數替換線性演算法中的內積,就能得到原輸入空間中對應的非線性演算法[15]。Mercer條件的定義為
對於任意的對稱函數K(x,x′),它是某個特徵空間中的內積運算的充分必要條件是,對於任意的φ(x)不恆等於零,且∫φ2(x)dx<0,有∫∫K(x,x')φ(x)φ(x')dxdx'>0成立。
在支持向量機中可以採用不同的核函數構造輸入空間不同類型的非線性決策面的學習機器。目前滿足Mercer條件的核函數已有近10個,但常用的核函數主要有
(1)徑向基函數
含水層含水量預測綜合物探技術
構造的支持向量機的判別函數為
含水層含水量預測綜合物探技術
其中,s個支持矢量xi可確定徑向基函數的中心位置,s是中心的數目。徑向基核函數是普遍使用的核函數,因為它對應的特徵空間是無窮維的,有限的數據樣本在該特徵空間中肯定是線性可分的。
(2)Sigmoid核函數
含水層含水量預測綜合物探技術
構造的支持向量機的判別函數為
含水層含水量預測綜合物探技術
式(5-23)就是常用的3層神經網路的判別函數,其隱節點對應支持向量。其演算法不存在局部極小點問題。
(3)多項式函數
含水層含水量預測綜合物探技術
構造的支持向量機的判別函數為
含水層含水量預測綜合物探技術
其中,s為支持向量的個數。對於給定的數據集,系統的VC維數取決於包含數據樣本矢量的最小超球半徑R和特徵空間中權重矢量的模,這兩者都取決於多項式的次數d。因此,通過d的選擇可以控制系統的VC維數。以上各式中γ,r,d為核函數的參數。
5.支持向量回歸機
支持向量回歸機(SVR)的基本思想是通過用內積函數定義的非線性變換將輸入空間數據變換到一個高維特徵空間,在這個高維空間中尋找輸入特徵變數和輸出預測變數之間的一種線性關系,其基本結構如圖5-2所示。
圖5-2 支持向量機結構示意圖
支持向量回歸機演算法是一個凸二次優化問題,可保證找到的解是全局最優解,能較好地解決小樣本、非線性、高維數等實際回歸問題。
設給定訓練樣本為
{(xi,yi),i=1,2,…,r},xi∈RN為輸入特徵值,yi∈RN為對應的預測目標值,k為訓練樣本個數。
對於支持向量機函數擬合,首先考慮用線性擬合函數
含水層含水量預測綜合物探技術
式中:ω,b分別為回歸函數的權重向量和偏置。
若所有數據在給定ε精度下無誤差地用線性函數擬合,即
含水層含水量預測綜合物探技術
式中:ε為一常量,控制回歸函數的精度。
其滿足結構風險最小化原理的目標函數為
含水層含水量預測綜合物探技術
根據統計學習理論,在這個優化目標下可取得較好的推廣能力。考慮到允許誤差的情況,引入鬆弛因子ζ≤0,ζ*≤0,則式(5-27)變換為
含水層含水量預測綜合物探技術
優化目標函數變為
含水層含水量預測綜合物探技術
其中,常數C>0,C表示對超出誤差ε的樣本的懲罰程度,即起到了對上式第一項最小化VC(Vapnik Chervonenkis)維與第二項訓練樣本上的最小化誤差的折中。採用拉格朗日優化方法可以得到其對偶問題。
含水層含水量預測綜合物探技術
式中:αi, 分別為拉格朗日系數。
由上面的最小化函數可得到支持向量機回歸擬合函數為
含水層含水量預測綜合物探技術
對於非線性問題,可以通過非線性變換將原問題映射到某個高維特徵空間中的線性問題進行求解。在高維特徵空間中,線性問題中的內積運算可用核函數來代替,即
含水層含水量預測綜合物探技術
這樣 式(5-31,(5-33)則變為如下的形式:
含水層含水量預測綜合物探技術
含水層含水量預測綜合物探技術
依據Kuhn-Tucker定理,通過任一滿足條件的樣本便可求得
含水層含水量預測綜合物探技術
則式(5-38)為我們尋找的ε-SVR預測模型。
⑼ 有哪些預測演算法或模型
方法多的很,喊你看k線圖,或者定律,或者研究公司。
如果要牛逼,還是要《遁甲量股》,據說有人三萬做到幾個億。