導航:首頁 > 源碼編譯 > 邏輯回歸演算法推到

邏輯回歸演算法推到

發布時間:2024-03-23 13:40:57

① 邏輯回歸、決策樹、支持向量機演算法三巨頭

邏輯回歸、決策樹、支持向量機演算法三巨頭
1 邏輯回歸
首先邏輯回歸是線性回歸衍生過來的,假設在二維空間上,本質上還是一條線,那麼在三維空間,他就是一個平面。把數據分成兩邊,就是直的不能再直的一條線或者一個平面。那麼假設現在我們有兩個變數,就是圖中這兩個變數,為什麼假設y=1是壞客戶的話,根據圖中可以看到,單個變數的劃分並不可以把兩種類型的客戶分的很好,要兩個變數相互作用,假設x1為查詢次數,x2為在還貸款筆數,那可以看到當x1小以及x2比較小的時候,那麼客戶肯定在左下角的地方,那麼當他其中一項比較高的時候就會趨於右上角,x1 x2都高的時候,就是越過分割線,落於分割線的上方了。這里我們可以看到,x1 x2是兩個有趨勢性的變數才可以達到這種這么好的一個分類效果。

那麼現在假設數據是以下這種:

可以看到變數的趨勢跟y的分類沒有什麼關系的時候,這時候邏輯回歸就顯得很雞肋,分的效果一點都不好。
2 決策樹
決策樹。剛才說的是邏輯回歸是一條直到不能再直的直線或者平面,那麼決策樹就是一條會拐彎,但是不能有角度的,永遠直行或者90度拐的直線或者面,看下圖,你可以理解為決策樹就是一條貪吃蛇,他的目標就是把好壞客戶分的很清晰明了,要是貪吃蛇過分的貪吃就會造成過擬合,那麼過擬合是啥,就是你問你喜歡的妹紙,妹紙你喜歡什麼樣的男生,妹紙說,我喜歡長的好看的,帥氣,溫柔體貼,會做飯的,巴拉巴拉一大堆,足足100多條,然後你實在太喜歡妹紙,所以按照她的要求,到頭來你真的跟妹紙在一起了,妹紙說,其實我只要你長得好看就可以了,其他的100多條都是無所謂的。拉回來決策樹,決策樹適應的數據假設像邏輯回歸那種數據的話,其實按照決策樹的這種貪吃蛇的方式其實還是很難分的,所以決策樹適用的數據是變數與因變數呈現一個u型分布的數據,就是兩頭是一類,單峰聚集了另外一類數據。你在變數特徵分析的,看到變數都是呈現這種趨勢的,你就要暗喜了,老子要用決策樹立功了!!!

3 支持向量機
支持向量機,要是沒有數學基礎的人看支持向量機的把低維的數據轉化成高維可以在高維空間分類的演算法這句話時候估計是一臉懵逼,我以前也是很懵逼,這到底是啥,我們以只有兩個變數的舉個例子,譬如你現在相區分一群客戶的好壞,這時候就給出這群人的兩個變數,查詢次數和貸款次數,然後這時候你通過某些什麼開方啊,冪次數,取對數的方式啊,你剛好擬合除了三元方程,這條方程你把身高體重的數據輸進去,算出來的第三個未知數在這條方程裡面的,就是男的,在這方程裡面就算女的,這樣子可能你不是很清楚,請看下圖

剛才我們把數據丟進入,支持向量機幫我們這份數據擬合了這個圓,把這兩類數據分的像圖中的這樣子很好,那麼這時候我們需要這條圓的方程,產生變數的運用口徑,這條方程是:
25=(x-5)2+(y-5)2那麼這時候當貸款次數和查詢次數分別減5再2次冪的時候如果數小於25那麼就是好客戶,假設大於25就是壞客戶。支持向量機是在除了變數所有的維度之外又給了他一個維度之後,把擬合的方程再投放在原來的維度空間。支持向量機可以適用的數據那麼就是在你用決策樹和邏輯回歸走投無路的時候就可以用支持向量機了,但是就像我們剛才得出這道方程一樣,出來的變數口徑是沒有邏輯的,他可能要變數開方,取對數,假設你這模型要跟業務去解釋的時候,我就不知道你要想多少套路了。

② 邏輯回歸演算法原理是什麼

邏輯回歸就是這樣的一個過程:面對一個回歸或者分類問題,建立代價函數,然後通過優化方法迭代求解出最優的模型參數,測試驗證這個求解的模型的好壞。

Logistic回歸雖然名字里帶「回歸」,但是它實際上是一種分類方法,主要用於兩分類問題(即輸出只有兩種,分別代表兩個類別)。回歸模型中,y是一個定性變數,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率。

Logistic回歸模型的適用條件

1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。

2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。

3、自變數和Logistic概率是線性關系。

以上內容參考:網路-logistic回歸

③ 回歸演算法有哪些

回歸演算法有:
線性回歸使用最佳的擬合直線(也就是回歸線)在因變數(Y)和一個或多個自變數(X)之間建立一種關系。
用一個方程式來表示它,即Y=a+b*X + e,其中a表示截距,b表示直線的斜率,e是誤差項。這個方程可以根據給定的預測變數(s)來預測目標變數的值。
邏輯回歸是用來計算「事件=Success」和「事件=Failure」的概率。當因變數的類型屬於二元(1 / 0,真/假,是/否)變數時,我們就應該使用邏輯回歸。這里,Y的值從0到1,它可以方程表示。

④ 邏輯回歸原理

邏輯回歸原理基本概念
1. 什麼是邏輯回歸
邏輯回歸就是這樣的一個過程:面對一個回歸或者分類問題,建立代價函數,然後通過優化方法迭代求解出最優的模型參數,然後測試驗證我們這個求解的模型的好壞。

Logistic回歸雖然名字里帶「回歸」,但是它實際上是一種分類方法,主要用於兩分類問題(即輸出只有兩種,分別代表兩個類別)

回歸模型中,y是一個定性變數,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率

2. 邏輯回歸的優缺點
優點:
1)速度快,適合二分類問題
2)簡單易於理解,直接看到各個特徵的權重
3)能容易地更新模型吸收新的數據
缺點:
對數據和場景的適應能力有局限性,不如決策樹演算法適應性那麼強

3. 邏輯回歸和多重線性回歸的區別
Logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在於它們的因變數不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸於同一個家族,即廣義線性模型(generalizedlinear model)。
這一家族中的模型形式基本上都差不多,不同的就是因變數不同。這一家族中的模型形式基本上都差不多,不同的就是因變數不同。

如果是連續的,就是多重線性回歸
如果是二項分布,就是Logistic回歸
如果是Poisson分布,就是Poisson回歸
如果是負二項分布,就是負二項回歸
4. 邏輯回歸用途
尋找危險因素:尋找某一疾病的危險因素等;
預測:根據模型,預測在不同的自變數情況下,發生某病或某種情況的概率有多大;
判別:實際上跟預測有些類似,也是根據模型,判斷某人屬於某病或屬於某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬於某病。
5. Regression 常規步驟
尋找h函數(即預測函數)
構造J函數(損失函數)
想辦法使得J函數最小並求得回歸參數(θ)
6. 構造預測函數h(x)
1) Logistic函數(或稱為Sigmoid函數),函數形式為:



對於線性邊界的情況,邊界形式如下:


其中,訓練數據為向量

最佳參數


構造預測函數為:


函數h(x)的值有特殊的含義,它表示結果取1的概率,因此對於輸入x分類結果為類別1和類別0的概率分別為:
P(y=1│x;θ)=h_θ (x)
P(y=0│x;θ)=1-h_θ (x)

7.構造損失函數J(m個樣本,每個樣本具有n個特徵)
Cost函數和J函數如下,它們是基於最大似然估計推導得到的。


8. 損失函數詳細推導過程
1) 求代價函數
概率綜合起來寫成:

取似然函數為:

對數似然函數為:


最大似然估計就是求使l(θ)取最大值時的θ,其實這里可以使用梯度上升法求解,求得的θ就是要求的最佳參數。

在Andrew Ng的課程中將J(θ)取為下式,即:


2) 梯度下降法求解最小值


θ更新過程可以寫成:


9. 向量化
ectorization是使用矩陣計算來代替for循環,以簡化計算過程,提高效率。
向量化過程:
約定訓練數據的矩陣形式如下,x的每一行為一條訓練樣本,而每一列為不同的特稱取值:

g(A)的參數A為一列向量,所以實現g函數時要支持列向量作為參數,並返回列向量。
θ更新過程可以改為:


綜上所述,Vectorization後θ更新的步驟如下:

求 A=x*θ
求 E=g(A)-y

10.正則化
(1) 過擬合問題
過擬合即是過分擬合了訓練數據,使得模型的復雜度提高,繁華能力較差(對未知數據的預測能力)
下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。


(2)過擬合主要原因
過擬合問題往往源自過多的特徵
解決方法
1)減少特徵數量(減少特徵會失去一些信息,即使特徵選的很好)
• 可用人工選擇要保留的特徵;
• 模型選擇演算法;
2)正則化(特徵較多時比較有效)
• 保留所有特徵,但減少θ的大小

(3)正則化方法
正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項或懲罰項。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化項就越大。

正則項可以取不同的形式,在回歸問題中取平方損失,就是參數的L2范數,也可以取L1范數。取平方損失時,模型的損失函數變為:

lambda是正則項系數:
• 如果它的值很大,說明對模型的復雜度懲罰大,對擬合數據的損失懲罰小,這樣它就不會過分擬合數據,在訓練數據上的偏差較大,在未知數據上的方差較小,但是可能出現欠擬合的現象;
• 如果它的值很小,說明比較注重對訓練數據的擬合,在訓練數據上的偏差會小,但是可能會導致過擬合。

⑤ 完成一個邏輯回歸的演算法.其中data.npz是數據,讀取數據的方法為:

邏輯回歸(Logistic Regression)是一種用於解決二分類(0 or 1)問題的機器學習方法,用於估計某種事物的可能性。比如某用戶購買某商品的可能性,某病人患有某種疾病的可能性,以及某廣告被用戶點擊的可能性等。 注意,這里用的是「可能性」,而非數學上的「概率」,logisitc回歸的結果並非數學定義中的概率值,不可以直接當做概率值來用。該結果往往用於和其他特徵值加權求和,而非直接相乘。

Sigmoid 函數

Sigmoid函數是一個常見的S型數學函數,在信息科學中,由於其單增以及反函數單增等性質,Sigmoid函數常被用作神經網路的閾值函數,將變數映射到0,1之間。在邏輯回歸、人工神經網路中有著廣泛的應用。Sigmoid函數的數學形式是:

對x求導可以推出如下結論:

⑥ 機器學習故事匯-邏輯回歸演算法

機器學習故事匯-邏輯回歸演算法
今天我們要來討論的一個分類演算法-邏輯回歸(你有沒有搞錯,這不還是回歸嗎,雖然名字帶上了回歸其實它是一個非常實用的分類演算法)。,適合對數學很頭疼的同學們,小板凳走起!

先來吹一吹邏輯回歸的應用,基本上所有的機器學習分類問題都可以使用邏輯回歸來求解,當前拿到一份數據想做一個分類任務的時候第一手准備一定要拿邏輯回歸來嘗試(雖然有很多復雜的模型比如神經網路,支持向量機的名氣更大,但是邏輯回歸卻更接地氣,用的最多的還是它)!在機器學習中無論是演算法的推導還是實際的應用一直有這樣的一種思想,如果一個問題能用簡單的演算法去解決那麼絕對沒必要去套用復雜的模型。

在邏輯回歸中最核心的概念就是Sigmoid函數了,首先我們先來觀察一下它的自變數取值范圍以及值域,自變數可以是任何實數(這沒啥特別的!)但是我們觀察值域的范圍是[0,1]也就是任意的一個輸入都會映射到[0,1]的區間上,我們來想一想這個區間有什麼特別的含義嗎?在我們做分類任務的時候一般我都都會認為一個數據來了它要麼是0要麼是1(只考慮二分類問題),我們其實可以更細致一點得出來它是0或者1的可能性有多大,由此我們就得出了一個輸入屬於某一個類別的概率值,這個[0,1]不就恰好是這個概率嗎!

在這里我們的預測函數還是跟線性回歸沒有多大差別,只不過我們將結果又輸入到Sigmoid函數中,這樣得到了數據屬於類別的概率值。在推導過程中,我們假定分類是兩個類別的(邏輯回歸是經典的而分類器)。設定y(標簽)要麼取0要麼取1,這樣就可以把兩個類別進行整合,得到一個更直觀的表達。

對於邏輯回歸的求解,已然沿用我們上次跟大家討論的梯度下降演算法。給出似然函數,轉換對數似然(跟線性回歸一致),但是我們現在的優化目標卻跟之前不太一樣了,線性回歸的時候我們要求解的是最小值(最小二乘法),但是現在我們想得到的卻是使得該事件發生得最大值,為了沿用梯度下降來求解,可以做一個簡單的轉換添加一個負號以及一個常數很簡單的兩步就可以把原始問題依然轉換成梯度下降可以求解的問題。

此處求導過程看起來有些長,但也都是非常非常基本的運算了,感興趣拿起一支筆來實際算算吧!

最終就是參數更新了,迭代更新是機器學習的常規套路了。但是我們來簡單想一想另外的一個問題,現在我們說的邏輯回歸是一個二分類演算法,那如果我的實際問題是一個多分類該怎麼辦呢?這個時候就需要Softmax啦,引入了歸一化機制,來將得分值映射成概率值。
最後一句話總結一下吧,任何時候(沒錯就是這么狠)當我們一個實際任務來了,第一個演算法就是邏輯回歸啦,可以把它當成我們的基礎模型,然後不斷改進對比!

閱讀全文

與邏輯回歸演算法推到相關的資料

熱點內容
哪裡app可以上高中生物課 瀏覽:472
cad粗糙度快捷鍵命令大全 瀏覽:521
騰訊雲伺服器無法運行軟體 瀏覽:342
奔跑吧哪個app 瀏覽:97
哪個app聽音樂最好 瀏覽:281
考研英語2真題pdf 瀏覽:699
煙台編程積木教育環境好不好 瀏覽:214
python優秀代碼 瀏覽:620
androidtop命令 瀏覽:455
你平時怎麼排解壓力 瀏覽:68
表格中的文件夾怎樣設置 瀏覽:476
em78單片機 瀏覽:960
splitjava空格 瀏覽:248
電腦怎麼谷歌伺服器地址 瀏覽:515
nx自定義工具啟動宏命令 瀏覽:101
程序員怎麼解決無法訪問互聯網 瀏覽:303
java訪問本地文件 瀏覽:747
瓦斯琪伺服器怎麼用 瀏覽:22
安卓主題用什麼app 瀏覽:747
修改伺服器pci地址空間 瀏覽:321