算法如何选择_机器学习算法选择问题

㈠机器学习算法选择问题

你这个类似故障分类问题了。分以下两种情况给你提供个思路吧：
1.如果你的数据是有标签的，那就可以做有监督的机器学习了。
就是你的数据样本是某时刻各种属性值，标签是此时刻是否有零件有故障以及哪个零件故障。
可以选用的模型有：LogisticRegression、SVM、NaiveBayes、DecisionTree、KNN等，较浅的神经网络也是可以的。
2.如果你的数据没有标签，就不太好办了，可以试试无监督的聚类方法看看有没有什么发现。如Kmeans。
3.我做过的故障分类是有监督的，零件属于某个子系统，子系统又属于某个系统。我先对系统建模，再对子系统建模，再对零件建模，逐步定位到具体问题。
4.如果你的数据真的是无标签的，另外给你提供个线索，可以去研究下自编码网络。

㈡《算法之美》-如何做出最优选择

如何在申请人中做出最优选择？算法告诉我们，在考察前37%的申请人时，不要接受任何人的申请；然后，只要任何一名申请人比前面所有人选都优秀，就要毫不犹豫地选择他。一旦发现某位申请者的分数高于某个值，就立刻接受她，而不需要先考察一批候选人并确定阈值。但是，我们需要密切关注可供选择的人还有多少。剩余的申请者越多，在评判时就应该越挑剔。无论如何，你都不应该选择低于平均水平的申请者，除非你已经别无选择。

通过丰富的跨学科研究，《算法之美》一书告诉我们如何更有效地利用直觉、什么时候应该把选择权交给命运、无所适从的时候应该如何做出选择，以及如何有效地与他人保持联系。

生活中很多看似复杂的问题都可以用算法解决，与其浑浑噩噩地接受命运的安排，不如有点儿理性决策的精神，把决策变成一个数学问题。

㈢算法工程师如何选择适合自己的方向

目前投了的有TX(offer) 海康威视(offer sp) DJI(offer sp) 头条(挂) 阿里(ssp) MSRA(等消息，但hr透露不乐观)我就介绍下我自己的一些感受，可能不一定对，但也许会帮到大家。我觉得一定要做算法的话一定要明确下面几点:

1. 不要一直盯着互联网公司，很多硬件公司也需要算法，而且是刚需。
2. 千万不要认为视觉算法就不用刷题了，这种必跪(我头条就没刷，就是例子)
3. 不是说搞dl的就不用管频域那些传统方法了。就比如我不止一次被问到canny算法的具体实现方法(我还是做3D的)。我感觉可能是真正落地的时候不可能让你直接dl end2end的。dl只会是一个pipeline的核心的小部件，剩下的还是需要人为先验更强的传统方法的。
4. 最好能对一些论文里或者实验中反直觉的方法有一些深刻的理解，最好能直接到硬件层面。举个例子 mobilenet v2明明flops比 resnet18低那么多，为啥电脑跑起来不会更快?又为啥放移动端就会快很多?
5. 我觉得比起论文，面试官更喜欢在知名排行榜上有个好名次的方法。
6. 实习真的很重要，尤其是大厂实习(比如阿里面试官就说，他能捞我简历看上的根本不是啥paper啥排行榜。。人家是觉得MSRA培养的方法论很好。。)
7. 大家现在很多都过了那种刷论文，刷排行榜的阶段了，都讲落地。这意味着你要是不懂轻量级网络，剪枝蒸馏算法的sota，你会很吃亏。同时，如果你有嵌入式经验和cuda经验，你会很加分。
8. 拉宽知识面。。没事就去读读别的方向的paper总会有好处。
最后无论从事开发岗，还是在算法领域，知识的更替速度快，不持续学习跟进前沿技术，就会被淘汰。算法工程师本质上也是工程师，不要因为你是算法而有所谓的优越感，数学模型技能只是一方面，没有扎实的工程能力，也走不远。尤其是AI近几年的火爆，算法的门槛也变低，造成越来越多的人涌入算法岗。等到AI退潮之后，你扎实的基础工程能力和业务能力才是生存下来的必要条件吧。

㈣ knn算法如何选择一个最佳k值

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。
该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

㈤如何选择合适的数据挖掘算法

首先是根据你的目的和思路
其次要根据支持数据的类型
最后要看准确性和可靠性等

导航:首页 > 源码编译 > 算法如何选择

算法如何选择

与算法如何选择相关的资料