演算法如何選擇_機器學習演算法選擇問題

㈠機器學習演算法選擇問題

你這個類似故障分類問題了。分以下兩種情況給你提供個思路吧：
1.如果你的數據是有標簽的，那就可以做有監督的機器學習了。
就是你的數據樣本是某時刻各種屬性值，標簽是此時刻是否有零件有故障以及哪個零件故障。
可以選用的模型有：LogisticRegression、SVM、NaiveBayes、DecisionTree、KNN等，較淺的神經網路也是可以的。
2.如果你的數據沒有標簽，就不太好辦了，可以試試無監督的聚類方法看看有沒有什麼發現。如Kmeans。
3.我做過的故障分類是有監督的，零件屬於某個子系統，子系統又屬於某個系統。我先對系統建模，再對子系統建模，再對零件建模，逐步定位到具體問題。
4.如果你的數據真的是無標簽的，另外給你提供個線索，可以去研究下自編碼網路。

㈡《演算法之美》-如何做出最優選擇

如何在申請人中做出最優選擇？演算法告訴我們，在考察前37%的申請人時，不要接受任何人的申請；然後，只要任何一名申請人比前面所有人選都優秀，就要毫不猶豫地選擇他。一旦發現某位申請者的分數高於某個值，就立刻接受她，而不需要先考察一批候選人並確定閾值。但是，我們需要密切關注可供選擇的人還有多少。剩餘的申請者越多，在評判時就應該越挑剔。無論如何，你都不應該選擇低於平均水平的申請者，除非你已經別無選擇。

通過豐富的跨學科研究，《演算法之美》一書告訴我們如何更有效地利用直覺、什麼時候應該把選擇權交給命運、無所適從的時候應該如何做出選擇，以及如何有效地與他人保持聯系。

生活中很多看似復雜的問題都可以用演算法解決，與其渾渾噩噩地接受命運的安排，不如有點兒理性決策的精神，把決策變成一個數學問題。

㈢演算法工程師如何選擇適合自己的方向

目前投了的有TX(offer) 海康威視(offer sp) DJI(offer sp) 頭條(掛) 阿里(ssp) MSRA(等消息，但hr透露不樂觀)我就介紹下我自己的一些感受，可能不一定對，但也許會幫到大家。我覺得一定要做演算法的話一定要明確下面幾點:

1. 不要一直盯著互聯網公司，很多硬體公司也需要演算法，而且是剛需。
2. 千萬不要認為視覺演算法就不用刷題了，這種必跪(我頭條就沒刷，就是例子)
3. 不是說搞dl的就不用管頻域那些傳統方法了。就比如我不止一次被問到canny演算法的具體實現方法(我還是做3D的)。我感覺可能是真正落地的時候不可能讓你直接dl end2end的。dl只會是一個pipeline的核心的小部件，剩下的還是需要人為先驗更強的傳統方法的。
4. 最好能對一些論文里或者實驗中反直覺的方法有一些深刻的理解，最好能直接到硬體層面。舉個例子 mobilenet v2明明flops比 resnet18低那麼多，為啥電腦跑起來不會更快?又為啥放移動端就會快很多?
5. 我覺得比起論文，面試官更喜歡在知名排行榜上有個好名次的方法。
6. 實習真的很重要，尤其是大廠實習(比如阿裡面試官就說，他能撈我簡歷看上的根本不是啥paper啥排行榜。。人家是覺得MSRA培養的方法論很好。。)
7. 大家現在很多都過了那種刷論文，刷排行榜的階段了，都講落地。這意味著你要是不懂輕量級網路，剪枝蒸餾演算法的sota，你會很吃虧。同時，如果你有嵌入式經驗和cuda經驗，你會很加分。
8. 拉寬知識面。。沒事就去讀讀別的方向的paper總會有好處。
最後無論從事開發崗，還是在演算法領域，知識的更替速度快，不持續學習跟進前沿技術，就會被淘汰。演算法工程師本質上也是工程師，不要因為你是演算法而有所謂的優越感，數學模型技能只是一方面，沒有扎實的工程能力，也走不遠。尤其是AI近幾年的火爆，演算法的門檻也變低，造成越來越多的人湧入演算法崗。等到AI退潮之後，你扎實的基礎工程能力和業務能力才是生存下來的必要條件吧。

㈣ knn演算法如何選擇一個最佳k值

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。KNN演算法中，所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 KNN方法雖然從原理上也依賴於極限定理，但在類別決策時，只與極少量的相鄰樣本有關。由於KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合。
KNN演算法不僅可以用於分類，還可以用於回歸。通過找出一個樣本的k個最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight)，如權值與距離成正比。該演算法在分類時有個主要的不足是，當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數。該演算法只計算「最近的」鄰居樣本，某一類的樣本數量很大，那麼或者這類樣本並不接近目標樣本，或者這類樣本很靠近目標樣本。無論怎樣，數量並不能影響運行結果。可以採用權值的方法（和該樣本距離小的鄰居權值大）來改進。
該方法的另一個不足之處是計算量較大，因為對每一個待分類的文本都要計算它到全體已知樣本的距離，才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。該演算法比較適用於樣本容量比較大的類域的自動分類，而那些樣本容量較小的類域採用這種演算法比較容易產生誤分。

㈤如何選擇合適的數據挖掘演算法

首先是根據你的目的和思路
其次要根據支持數據的類型
最後要看準確性和可靠性等

導航:首頁 > 源碼編譯 > 演算法如何選擇

演算法如何選擇

與演算法如何選擇相關的資料