⑴ 邏輯回歸演算法原理是什麼
邏輯回歸就是這樣的一個過程:面對一個回歸或者分類問題,建立代價函數,然後通過優化方法迭代求解出最優的模型參數,測試驗證這個求解的模型的好壞。
Logistic回歸雖然名字里帶「回歸」,但是它實際上是一種分類方法,主要用於兩分類問題(即輸出只有兩種,分別代表兩個類別)。回歸模型中,y是一個定性變數,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率。
Logistic回歸模型的適用條件
1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。
2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變數和Logistic概率是線性關系。
以上內容參考:網路-logistic回歸
⑵ 邏輯回歸解決什麼問題
問題一:邏輯回歸和SVM的區別是什麼?各適用於解決什麼問題 兩種方法都是常見的分類演算法,從目標函數來看,區別在於邏輯回歸採用的是logistical loss,svm採用的是hinge loss.這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重.SVM的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器.而邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權重,相對提升了與分類最相關的數據點的權重.兩者的根本目的都是一樣的.此外,根據需要,兩個方法都可以增加不同的正則化項,如l1,l2等等.所以在很多實驗中,兩種演算法的結果是很接近的.
但是邏輯回歸相對來說模型更簡單,好理解,實現起來,特別是大規模線性分類時比較方便.而SVM的理解和優化相對來說復雜一些.但是SVM的理論基礎更加牢固,有一套結構化風險最小化的理論基礎,雖然一般使用的人不太會去關注.還有很重要的一點,SVM轉化為對偶問題後,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算
svm 更多的屬於非參數模型,而logistic regression 是參數模型,本質不同.其區別就可以參考參數模型和非參模型的區別就好了.
logic 能做的 svm能做,但可能在准確率上有問題,svm能做的logic有的做不了
問題二:邏輯回歸適用於什麼樣的分類問題 兩種方法都是常見的分類演算法,從目標函數來看,區別在於邏輯回歸採用的是logistical loss,svm採用的是hinge loss.這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重.SVM的處理方法是只考慮
問題三:哪些問題可以使用logistic回歸分析 Logistic回歸主要分為三類,一種是因變數為二分類得logistic回歸,這種回歸叫做二項logistic回歸,一種是因變數為無序多分類得logistic回歸,比如傾向於選擇哪種產品,這種回歸叫做多項logistic回歸。還有一種是因變數為有序多分類的logistic回歸,比如病重的程度是高,中,低呀等等,這種回歸也叫累積logistic回歸,或者序次logistic回歸。
問題四:邏輯回歸 和 樸素貝葉斯 兩者間的區別 區別如下:
logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變數就為是否胃癌,值為「是」或「否」,自變數就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變數既可以是連續的,也可以是分類的。然後通過logistic回歸分析,可以得到自變數的權重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據該權值可以根據危險因素預測一個人患癌症的可能性。
樸素貝葉斯分類器(Naive Bayes Classifier,或 NBC)發源於古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,演算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。
解決這個問題的方法一般是建立一個屬性模型,對於不相互獨立的屬性,把他們單獨處理。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些片語。如果發現特定的問題中存在特殊的模式屬性,那麼就單獨處理。
問題五:機器學習中的邏輯回歸到底是回歸還是分類 邏輯回歸:y=sigmoid(w'x)
線性回歸:y=w'x
也就是邏輯回歸比線性回歸多了一個sigmoid函數,sigmoid(x)=1/(1+exp(-x)),其實就是對x進行歸一化操作,使得sigmoid(x)位於0~1邏輯回歸通常用於二分類模型,目標函數是二類交叉熵,y的值表示屬於第1類的概率,用戶可以自己設置一個分類閾值。
線性回歸用來擬合數據,目標函數是平法和誤差
問題六:邏輯回歸,如何處理多元共線性問題 將所有回歸中要用到的變數依次作為因變數、其他變數作為自變數進行回歸分析,可以得到各個變數的膨脹系數VIF以及容忍度tolerance,如果容忍度越接近0,則共線性問題越嚴重,而VIF是越大共線性越嚴重,通常VIF小於5可以認為共線性不嚴重,寬泛一點的標准小於10即可。
問題七:機器學習之邏輯回歸演算法的一些疑問 第一, 參數為theta, 觀察到x向量,判斷為y標簽的概率。
第二, h(x)為sigmoid function, 用來將 (-inf,inf)映射至(0,1]作為概率分布
第三 , 雖然不知道你在說什麼,但是y是標簽,所以在這里只有二值,1或-1
問題八:多重線性回歸,logistic回歸,cox回歸各自解決什麼問題 影響因素研究的
問題九:邏輯回歸和神經網路之間有什麼關系 神經網路的設計要用到遺傳演算法,遺傳演算法在神經網路中的應用主要反映在3個方面:網路的學習,網路的結構設計,網路的分析。
1.遺傳演算法在網路學習中的應用
在神經網路中,遺傳演算法可用於網路的學習。這時,它在兩個方面起作用
(1)學習規則的優化
用遺傳演算法對神經網路學習規則實現自動優化,從而提高學習速率。
(2)網路權系數的優化
用遺傳演算法的全局優化及隱含並行性的特點提高權系數優化速度。
2.遺傳演算法在網路設計中的應用
用遺傳演算法設計一個優秀的神經網路結構,首先是要解決網路結構的編碼問題;然後才能以選擇、交叉、變異操作得出最優結構。編碼方法主要有下列3種:
(1)直接編碼法
這是把神經網路結構直接用二進制串表示,在遺傳演算法中,「染色體」實質上和神經網路是一種映射關系。通過對「染色體」的優化就實現了對網路的優化。
(2)參數化編碼法
參數化編碼採用的編碼較為抽象,編碼包括網路層數、每層神經元數、各層互連方式等信息。一般對進化後的優化「染色體」進行分析,然後產生網路的結構。
(3)繁衍生長法
這種方法不是在「染色體」中直接編碼神經網路的結構,而是把一些簡單的生長語法規則編碼入「染色體」中;然後,由遺傳演算法對這些生長語法規則不斷進行改變,最後生成適合所解的問題的神經網路。這種方法與自然界生物地生長進化相一致。
3.遺傳演算法在網路分析中的應用
遺傳演算法可用於分析神經網路。神經網路由於有分布存儲等特點,一般難以從其拓撲結構直接理解其功能。遺傳演算法可對神經網路進行功能分析,性質分析,狀態分析。
遺傳演算法雖然可以在多種領域都有實際應用,並且也展示了它潛力和寬廣前景;但是,遺傳演算法還有大量的問題需要研究,目前也還有各種不足。首先,在變數多,取值范圍大或無給定范圍時,收斂速度下降;其次,可找到最優解附近,但無法精確確定最擾解位置;最後,遺傳演算法的參數選擇尚未有定量方法。對遺傳演算法,還需要進一步研究其數學基礎理論;還需要在理論上證明它與其它優化技術的優劣及原因;還需研究硬體化的遺傳演算法;以及遺傳演算法的通用編程和形式等。
問題十:邏輯回歸模型的回歸因子怎麼得到 線性回歸,是統計學領域的方法,用的時候需要關注假設條件是否滿足、模型擬合是否達標,參數是否顯著,自變數之間是否存在多重共線性等等問題因為統計學是一個過程導向的,需要每一步都要滿足相應的數學邏輯。
下面講講我對線性回歸的體會(只講體會,原理的內容就不多說了,因為不難,而且網上相應資料很多!~):
1、linear regression 是最原始的回歸,用來做數值類型的回歸(有點繞,是為了區別「分類」),比如你可以利用它構建模型,輸入你現在的體重、每天卡路里的攝入量、每天運動量等,預測你一個月的體重會是多少,從模型的summary中,查看模型對數據解釋了多少,哪些自變數在影響你體重變化中更重要(事先對變數做了standardize),還可以看出在其它自變數不變的適合,其中一個自變數每變化1%,你的體重會變化多少(事先對自變數沒做standardize)。 當問題是線性,或者偏向線性,假設條件又都滿足(很難),又做好了數據預處理(工作量可能很大)時,線性回歸演算法的表現是挺不錯的,而且在對模型很容易解釋!但是,當問題不是線性問題時,普通線性回歸演算法就表現不太好了。
2、曲線回歸,我更喜歡稱之為「多項式回歸」,是為了讓彌補普通線性回歸不擅長處理非線性問題而設計的,它給自變數加上一些適合當前問題的非線性特徵(比如指數等等),讓模型可以更好地擬合當前非線性問題。雖然有一些方法來幫助判斷如何選擇非線性特徵,可以保證模型更優秀。但動手實踐過的人,都知道,那有點紙上談兵了,效果不好,而且有些非線性很難簡單地表示出來!!
3、logistic regression,我感覺它應該屬於機器學習領域的方法了(當你不去糾結那些繁瑣的假設條件時),它主要是用來分析當因變數是分類變數的情況,且由於本身帶有一絲的非線性特徵,所以在處理非線性問題時,模型表現的也挺好(要用好它,需要做好數據預處理工作,把數據打磨得十分「漂亮」)。企業十分喜歡用它來做數據挖掘,原因是演算法本身表現良好,而且對模型的輸出結果容易解釋(領導們都聽得懂),不像其它高端的機器學習演算法,比如Multiboost、SVM等,雖然很善於處理非線性問題,對數據質量的要求也相對較低,但它們總是在黑盒子里工作,外行人根本看不懂它是怎麼運行的,它的輸出結果應該怎麼解釋!(好吧,其實內行人也很難看懂!- - )
⑶ 機器學習常見演算法優缺點之邏輯回歸
我們在學習機器學習的時候自然會涉及到很多演算法,而這些演算法都是能夠幫助我們處理更多的問題。其中,邏輯回歸是機器學習中一個常見的演算法,在這篇文章中我們給大家介紹一下關於邏輯回歸的優缺點,大家有興趣的一定要好好閱讀喲。
首先我們給大家介紹一下邏輯回歸的相關知識,邏輯回歸的英文就是Logistic Regression。一般來說,邏輯回歸屬於判別式模型,同時伴有很多模型正則化的方法,具體有L0, L1,L2,etc等等,當然我們沒有必要像在用樸素貝葉斯那樣擔心我的特徵是否相關。這種演算法與決策樹、SVM相比,我們還會得到一個不錯的概率解釋,當然,我們還可以輕松地利用新數據來更新模型,比如說使用在線梯度下降演算法-online gradient descent。如果我們需要一個概率架構,比如說,簡單地調節分類閾值,指明不確定性,或者是要獲得置信區間,或者我們希望以後將更多的訓練數據快速整合到模型中去,我們可以使用這個這個演算法。
那麼邏輯回歸演算法的優點是什麼呢?其實邏輯回歸的優點具體體現在5點,第一就是實現簡單,廣泛的應用於工業問題上。第二就是分類時計算量非常小,速度很快,存儲資源低。第三就是便利的觀測樣本概率分數。第四就是對邏輯回歸而言,多重共線性並不是問題,它可以結合L2正則化來解決該問題。第五就是計算代價不高,易於理解和實現。
當然,邏輯回歸的缺點也是十分明顯的,同樣,具體體現在五點,第一就是當特徵空間很大時,邏輯回歸的性能不是很好。第二就是容易欠擬合,一般准確度不太高。第三就是不能很好地處理大量多類特徵或變數。第四個缺點就是只能處理兩分類問題,且必須線性可分。第五個缺點就是對於非線性特徵,需要進行轉換。
那麼邏輯回歸應用領域都有哪些呢?邏輯回歸的應用領域還是比較廣泛的,比如說邏輯回歸可以用於二分類領域,可以得出概率值,適用於根據分類概率排名的領域,如搜索排名等、邏輯回歸的擴展softmax可以應用於多分類領域,如手寫字識別等。當然,在信用評估也有邏輯回歸的使用,同時邏輯回歸可以測量市場營銷的成功度。當然,也可以預測某個產品的收益。最後一個功能比較有意思,那就是可以預定特定的某天是否會發生地震。
我們在這篇文章中給大家介紹了關於機器學習中邏輯回歸演算法的相關知識,從中我們具體為大家介紹了邏輯回歸演算法的優缺點以及應用領域。相信大家能夠通過這篇文章能夠更好的理解邏輯回歸演算法。
⑷ logistic回歸與生存分析比較
logistic回歸與生存分析比較的方法如下:
1、目的和應用場景:Logistic回歸的主要目的是預測一個二元結果變數,即事件是否發生。它常用於分類問題,如信用評分、疾病診斷等。而生存分析則主要用於研究時間至事件發生的問題,如患者的生存時間、產品的壽命等。這兩種方法的應用場景和目的有所不同。
2、模型假設和參數解釋:Logistic回歸假設事件發生的概率為P,不發生的概率為1-P,且各數據點之間是獨立的。而生存分析則假設每個個體都有可能發生事件,但發生時間的分布是未知的,通常用指數分布、威布爾分布等來描述。
3、Logistic回歸模型也存在一些局限性。它對數據的質量和特徵的選擇非常敏感,容易受到異常值和雜訊的影響。它假設數據服從正態分布,這在實際應用中可能不成立。當特徵維度很高時,Logistic回歸模型可能會出現過擬合問題。Logistic回歸是一種非常實用的分類方法。