导航:首页 > 源码编译 > 算法心得pdf下载

算法心得pdf下载

发布时间:2023-05-01 16:08:23

⑴ 排序算法总结

排序算法是什么?有多少种?排序算法总结又是怎样?以下是为您整理的排序算法总结,供您参考!

【排序算法总结】

排序算法:一种能将一串数据依照特定的排序方式进行排列的一种算法。

排序算法性能:取决于时间和空间复杂度,其次还得考虑稳定性,及其适应的场景。

稳定性:让原本有相等键值的记录维持相对次序。也就是若一个排序算法是稳定的,当有俩个相等键值的记录R和S,且原本的序列中R在S前,那么排序后的列表中R应该也在S之前。

以下来总结常用的排序算法,加深对排序的理解。

冒泡排序

原理

俩俩比较相邻记录的排序码,若发生逆序,则交旅派配换;有俩种方式进行冒泡,一种是先把小的冒泡到前边去,另一种是把大的元素冒泡到后边。

性能

时间复杂度为O(N^2),空间复杂度为O(1)。排序是稳定的,排序比较次数与初始序列无关,但交换次数与初始序列有关。

优化

若初始序列就是排序好的,对于冒泡排序仍然还要比较O(N^2)次,但无交换次数。可根据这个进行优化,设置一个flag,当在一趟序列中没有发生交换,则该序列已排序好,但优化后排序的时间复杂度没有发生量级的改变。

代码

插入排序

原理

依次选择一个待排序的数据,插入到前边已排好序的序列中。

性能

时间复杂度为O(N^2),空间复杂度为O(1)。算法是稳定的,比较次数和交换次数都与初始序列有关。

优化

直接插入排序每次往前插入时,是按顺序依次往前找,可在这里进行优化,往前找合适的插入位置时采用二分查找的方式,即折半插入。

折半插入排序相对直接插入排序而言:平均性能更快,时间复杂度降至O(NlogN),排序是稳定的,但排序的比较次数与初始序列无关,总是需要foor(log(i))+1次排序比较。

使用场景

当数据基本有序时,采用插入排序可以明显减少数据交换和数据移动次数,进而提升排序效率。

代码

希尔排拆指序

原理

插入排序的改进版,是基于插入排序的以下俩点性质而提出的改进方法:

插入排序对几乎已排好序的数据操作时,效率很高,可以达到线性排序的效率。

但插入排序在每次往前插入时只能将数据移动一位,效率比较低。

所以希尔排序的思想是:

先是取一个合适的gap

缩小间隔gap,例如去gap=ceil(gap/2),重复上述子序列划分和排序

直到,最后gap=1时,将所有元素放在同一个序列中进行插入排序为止。

性能

开始时,gap取值较大,子序列中的元素较少,排序速度快,克服了直接插入排序的缺点;其次,gap值逐渐变小后,虽然子序列的元素逐渐变多,但大多元素已基本有序,所以继承了直接插入排序的优点,能以近线性的速度排好序。

代码

选择排序

原理

每次从未排序的序列中找到最小值,记录并最后存放到已排序序羡碰列的末尾

性能

时间复杂度为O(N^2),空间复杂度为O(1),排序是不稳定的(把最小值交换到已排序的末尾导致的),每次都能确定一个元素所在的最终位置,比较次数与初始序列无关。

代码

快速排序

原理

分而治之思想:

Divide:找到基准元素pivot,将数组A[p..r]划分为A[p..pivotpos-1]和A[pivotpos+1…q],左边的元素都比基准小,右边的元素都比基准大;

Conquer:对俩个划分的数组进行递归排序;

Combine:因为基准的作用,使得俩个子数组就地有序,无需合并操作。

性能

快排的平均时间复杂度为O(NlogN),空间复杂度为O(logN),但最坏情况下,时间复杂度为O(N^2),空间复杂度为O(N);且排序是不稳定的,但每次都能确定一个元素所在序列中的最终位置,复杂度与初始序列有关。

优化

当初始序列是非递减序列时,快排性能下降到最坏情况,主要因为基准每次都是从最左边取得,这时每次只能排好一个元素。

所以快排的优化思路如下:

优化基准,不每次都从左边取,可以进行三路划分,分别取最左边,中间和最右边的中间值,再交换到最左边进行排序;或者进行随机取得待排序数组中的某一个元素,再交换到最左边,进行排序。

在规模较小情况下,采用直接插入排序

代码

归并排序

原理

分而治之思想:

Divide:将n个元素平均划分为各含n/2个元素的子序列;

Conquer:递归的解决俩个规模为n/2的子问题;

Combine:合并俩个已排序的子序列。

性能

时间复杂度总是为O(NlogN),空间复杂度也总为为O(N),算法与初始序列无关,排序是稳定的。

优化

优化思路:

在规模较小时,合并排序可采用直接插入;

在写法上,可以在生成辅助数组时,俩头小,中间大,这时不需要再在后边加俩个while循环进行判断,只需一次比完。

代码

堆排序

原理

堆的性质:

是一棵完全二叉树

每个节点的值都大于或等于其子节点的值,为最大堆;反之为最小堆。

堆排序思想:

将待排序的序列构造成一个最大堆,此时序列的最大值为根节点

依次将根节点与待排序序列的最后一个元素交换

再维护从根节点到该元素的前一个节点为最大堆,如此往复,最终得到一个递增序列

性能

时间复杂度为O(NlogN),空间复杂度为O(1),因为利用的排序空间仍然是初始的序列,并未开辟新空间。算法是不稳定的,与初始序列无关。

使用场景

想知道最大值或最小值时,比如优先级队列,作业调度等场景。

代码

计数排序

原理

先把每个元素的出现次数算出来,然后算出该元素所在最终排好序列中的绝对位置(最终位置),再依次把初始序列中的元素,根据该元素所在最终的绝对位置移到排序数组中。

性能

时间复杂度为O(N+K),空间复杂度为O(N+K),算法是稳定的,与初始序列无关,不需要进行比较就能排好序的算法。

使用场景

算法只能使用在已知序列中的元素在0-k之间,且要求排序的复杂度在线性效率上。

代码

桶排序

原理

根据待排序列元素的大小范围,均匀独立的划分M个桶

将N个输入元素分布到各个桶中去

再对各个桶中的元素进行排序

此时再按次序把各桶中的元素列出来即是已排序好的。

性能

时间复杂度为O(N+C),O(C)=O(M(N/M)log(N/M))=O(NlogN-NlogM),空间复杂度为O(N+M),算法是稳定的,且与初始序列无关。

使用场景

算法思想和散列中的开散列法差不多,当冲突时放入同一个桶中;可应用于数据量分布比较均匀,或比较侧重于区间数量时。

基数排序

原理

对于有d个关键字时,可以分别按关键字进行排序。有俩种方法:

MSD:先从高位开始进行排序,在每个关键字上,可采用计数排序

LSD:先从低位开始进行排序,在每个关键字上,可采用桶排序

性能

时间复杂度为O(d*(N+K)),空间复杂度为O(N+K)。

总结

以上排序算法的时间、空间与稳定性的总结如下:

⑵ R-CNN, Fast R-CNN, Faster R-CNN, YOLO:目标检测算法总结

参考链接

以下是文中涉及的算法的最原始的文章:

一个最直接的解决办法是从图中取不同的感兴趣区域,然后对这些区域用CNN进行分类,检测这些区域中是否有物体的存在。
但是待检测物体可能存在于图片的不同位置而且有不同的长宽比例。所以以上方法需要选取量非常大的区域并需要非常大的计算量。

因此,R-CNN, Fast R-CNN, Faster R-CNN, YOLO被开发去又快又准地找物体。

为了解决上述提到的有大量区域被选择的问题, Ross Girshick et al 提出了一种方法:用了选择性搜索从图片提取了2000个区域,这些区域被称为”region proposals“。

用这种办法,我们不需要去分类巨大数量的区域了,我们只需要去处理2000个区域。这2000个区域是用如下的选择性搜索算法(selective search algorithm)来找到的:

这篇文章 介绍了更多关于选择性搜索算法(selective search algorithm)的内容。

RCNN步骤:

R-CNN存在的问题:

Fast R-CNN的几个改进:
The same author of the previous paper(R-CNN) solved some of the drawbacks of R-CNN to build a faster object detection algorithm and it was called Fast R-CNN. The approach is similar to the R-CNN algorithm.

Fast R-CNN更快的原因是:

Fast R-CNN更快:
From the above graphs, you can infer that Fast R-CNN is significantly faster in training and testing sessions over R-CNN. When you look at the performance of Fast R-CNN ring testing time, including region proposals slows down the algorithm significantly when compared to not using region proposals. Therefore, region proposals become bottlenecks in Fast R-CNN algorithm affecting its performance.

上面两个算法的缺点:
selective search耗时
Both of the above algorithms(R-CNN & Fast R-CNN) uses selective search to find out the region proposals . Selective search is a slow and time-consuming process affecting the performance of the network.

Faster R-CNN的改进:
不用selective search去找region proposals;
用network去找region proposals;
Therefore, Shaoqing Ren et al . came up with an object detection algorithm that eliminates the selective search algorithm and lets the network learn the region proposals .

Faster R-CNN的步骤:

时间上的对比:
Faster R-CNN最快并且能用作实时目标检测

之前几种算法的缺点:
产生region的时候没有纵览整幅图。其实图的某些部分有更高的可能性包含物体。
All of the previous object detection algorithms use regions to localize the object within the image. The network does not look at the complete image. Instead, parts of the image which have high probabilities of containing the object .

YOLO的思想:
用一个单独的网络去预测bounding boxes和bounding boxes中存在物体的概率
YOLO or You Only Look Once is an object detection algorithm much different from the region based algorithms seen above.
In YOLO, a single convolutional network predicts (1) the bounding boxes and (2)the class probabilities for these boxes.

YOLO的具体步骤:
How YOLO works is that:

YOLO的优缺点:

⑶ 优化算法总结

本文介绍一下机器学习和深度学习中常用的优化算法和优化器以及一些其他我知道的优化算法,部分算法我也没有搞懂,就先记录下来以后慢慢研究吧.*_*.

1.梯度下降算法(Gradient Descent)

梯度下降法可以参考我另一篇文章 机器学习-线性回归 里的讲解,这里就不在重复叙述.这里需要强调一下,深度学习里常用的SGD,翻译过来是随机梯度下降,但是实质是mini-batch梯度下降(mini-batch-gd),或者说是两者的结合更准确一些.

SGD的优点是,算法简单,计算量小,在函数为凸函数时可以找到全局最优解.所以是最常用的优化算法.缺点是如果函数不是凸函数的话,很容易进入到局部最优解而无法跳出来.同时SGD在选择学习率上也是比较困难的.

2.牛顿法

牛顿法和拟牛顿法都是求解无约束最优化问题的常用方法,其中牛顿法是迭代算法,每一步需要求解目标函数的海森矩阵的逆矩阵,计算比较复杂.

牛顿法在求解方程根的思想:在二维情况下,迭代的寻找某一点x,寻找方法是随机一个初始点x_0,目标函数在该点x_0的切线与x坐标轴的交点就是下一个x点,也就是x_1.不断迭代寻找x.其中切线的斜率为目标函数在点x_0的导数(梯度),切必过点(x_0,f(x_0)).所以迭代的方程式如图1,为了求该方程的极值点,还需要令其导数等于0,也就是又求了一次导数,所以需要用到f(x)的二阶导数.

在最优化的问题中,牛顿法提供了一种求解的办法. 假设任务是优化一个目标函数f, 求函数ff的极大极小问题, 可以转化为求解函数f导数等于0的问题, 这样求可以把优化问题看成方程求解问题(f的导数等于0). 剩下的问题就和牛顿法求解方程根的思想很相似了.

目标函数的泰勒展开式:

化简后:

这样就得到了与图1相似的公式,这里是二维的,在多维空间上,求二阶导数就是求海森矩阵,因为是分母,所以还需要求海森矩阵的逆矩阵.

牛顿法和SGD的区别:

牛顿法是二阶求导,SGD是一阶求导,所以牛顿法要收敛的更快一些.SGD只考虑当前情况下梯度下降最快的方向,而牛顿法不仅考虑当前梯度下降最快,还有考虑下一步下降最快的方向.

牛顿法的优点是二阶求导下降速度快,但是因为是迭代算法,每一步都需要求解海森矩阵的逆矩阵,所以计算复杂.

3.拟牛顿法(没搞懂,待定)

考虑到牛顿法计算海森矩阵比较麻烦,所以它使用正定矩阵来代替海森矩阵的逆矩阵,从而简化了计算过程.

常用的拟牛顿法有DFP算法和BFGS算法.

4.共轭梯度法(Conjugate Gradient)

共轭梯度法是介于最速下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了最速下降法收敛慢的缺点,又避免了牛顿法计算海森矩阵并求逆的缺点.共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一.

5.拉格朗日法

参考SVM里的讲解 机器学习-SVM

6.动量优化法(Momentum)

动量优化法主要是在SGD的基础上,加入了历史的梯度更新信息或者说是加入了速度更新.SGD虽然是很流行的优化算法,但是其学习过程很慢,因为总是以同样的步长沿着梯度下降的方向.所以动量是为了加速学习的方法.

其中第一行的减号部分是计算当前的梯度,第一行是根据梯度更新速度v,而α是新引进的参数,在实践中,α的一般取值为 0.5,0.9 和 0.99.和学习率 一样,α 也会随着时间不断调整.一般初始值是一个较小的值,随后会慢慢变大.

7.Nesterov加速梯度(NAG, Nesterov accelerated gradient)

NAG是在动量优化算法的基础上又进行了改进.根据下图可以看出,Nesterov 动量和标准动量之间的区别体现在梯度计算上, Nesterov 动量中,梯度计算在施加当前速度之后.因此,Nesterov 动量可以解释为往标准动量方法中添加了一个校正因子

8.AdaGrad算法

AdaGrad算法,自适应优化算法的一种,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平均值总和的平方根.具有代价函数最大梯度的参数相应地有个快速下降的学习率,而具有小梯度的参数在学习率上有相对较小的下降.通俗一点的讲,就是根据实际情况更改学习率,比如模型快要收敛的时候,学习率步长就会小一点,防止跳出最优解.

其中g是梯度,第一行的分母是计算累计梯度的平方根, 是为了防止分母为0加上的极小常数项,α是学习率.

Adagrad的主要优点是不需要人为的调节学习率,它可以自动调节.但是依然需要设置一个初始的全局学习率.缺点是随着迭代次数增多,学习率会越来越小,最终会趋近于0.

9.RMSProp算法

RMSProp修改 AdaGrad 以在非凸设定下效果更好,改变梯度积累为指数加权的移动平均.AdaGrad旨在应用于凸问题时快速收敛.

10.AdaDelta算法

11.Adam算法

Adam是Momentum和RMSprop的结合体,也就是带动量的自适应优化算法.

12.Nadam算法

13.模拟退火算法

14.蚁群算法

15.遗传算法

动量是为了加快学习速度,而自适应是为了加快收敛速度,注意学习速度快不一定收敛速度就快,比如步长大学习速度快,但是很容易跳出极值点,在极值点附近波动,很难达到收敛.

未完待定....

参考:

《统计学习方法》  李航    着

《深度学习》  花书

⑷ 图像分割算法总结

       图像处理的很多任务都离不开图像分割。因为图像分割在cv中实在太重要(有用)了,就先把图像分割的常用算法做个总结。

        接触机器学习和深度学习时间已经不短了。期间看过各种相关知识但从未总结过。本文过后我会尽可能详细的从工程角度来总结,从传统机器学习算法,传统计算机视觉库算法到深度学习目前常用算法和论文,以及模型在各平台的转化,量化,服务化部署等相关知识总结。

        图像分割常用算法大致分为下面几类。由于图像的能量范函,边缘追踪等方法的效果往往只能解决特定问题,效果并不理想,这里不再阐述。当然二值化本身也可以分割一些简单图像的。但是二值化算法较多,我会专门做一个文章来总结。这里不再赘述。

        1.基于边缘的图像分割算法:

            有利用图像梯度的传统算法算子的sobel,roberts,prewitt,拉普拉斯以及canny等。

            这些算法的基本思想都是采用合适的卷积算子,对图像做卷积。从而求出图像对应的梯度图像。(至于为什么通过如图1这样的算子卷积,即可得到图像的梯度图像,请读者复习下卷积和倒数的概念自行推导)由于图像的边缘处往往是图像像素差异较大,梯度较大地方。因此我们通过合适的卷积核得到图像的梯度图像,即得到了图像的边缘图像。至于二阶算子的推导,与一阶类似。优点:传统算子梯度检测,只需要用合适的卷积核做卷积,即可快速得出对应的边缘图像。缺点:图像边缘不一定准确,复杂图像的梯度不仅仅出现在图像边缘,可以能出现在图像内部的色彩和纹理上。

             也有基于深度学习方法hed,rcf等。由于这类网络都有同一个比较严重的缺陷,这里只举例hed网络。hed是基于FCN和VGG改进,同时引出6个loss进行优化训练,通过多个层输出不同scale的粒度的边缘,然后通过一个训练权重融合各个层的边缘结果。hed网络结构如下:

可以得到一个比较完整的梯度图像,可参考github的hed实现。优点:图像的梯度细节和边缘完整性,相比传统的边缘算子要好很多。但是hed对于边缘的图像内部的边缘并不能很好的区分。当然我们可以自行更改loss来尝试只拟合外部的图像边缘。但最致命的问题在于,基于vgg的hed的网络表达能力有限,对于图像和背景接近,或者图像和背景部分相融的图片,hed似乎就有点无能为力了。

        2.基于区域分割的算法:

            区域分割比较常用的如传统的算法结合遗传算法,区域生长算法,区域分裂合并,分水岭算法等。这里传统算法的思路是比较简单易懂的,如果有无法理解的地方,欢迎大家一起讨论学习。这里不再做过多的分析。

            基于区域和语意的深度学习分割算法,是目前图像分割成果较多和研究的主要方向。例如FCN系列的全卷积网络,以及经典的医学图像分割常用的unet系列,以及rcnn系列发展下的maskrcnn,以及18年底的PAnet。基于语意的图像分割技术,无疑会成为图像分割技术的主流。

            其中,基于深度学习语意的其他相关算法也可以间接或直接的应用到图像分割。如经典的图像matting问题。18年又出现了许多非常优秀的算法和论文。如Deep-Image-Matting,以及效果非常优秀的MIT的 semantic soft segmentation(sss).

            基于语意的图像分割效果明显要好于其他的传统算法。我在解决图像分割的问题时,首先尝试用了hed网络。最后的效果并不理想。虽然也参考github,做了hed的一些fine-tune,但是还是上面提到的原因,在我多次尝试后,最终放弃。转而适用FCN系列的网络。但是fcn也无法解决图像和背景相融的问题。图片相融的分割,感觉即需要大的感受野,又需要未相融部分原图像细节,所以单原FCN的网络,很难做出准确的分割。中间还测试过很多其他相关的网络,但都效果不佳。考虑到感受野和原图像细节,尝试了resnet和densenet作为图像特征提取的底层。最终我测试了unet系列的网络:

                unet的原始模型如图所示。在自己拍照爬虫等手段采集了将近1000张图片。去掉了图片质量太差的,图片内容太过类似的。爬虫最终收集160多张,自己拍照收集200张图片后,又用ps手动p了边缘图像,采用图像增强变换,大约有300*24张图片。原生unet网络的表现比较一般。在将unet普通的卷积层改为resnet后,网络的表达能力明显提升。在将resnet改为resnet101,此时,即使对于部分相融的图像,也能较好的分割了。但是unet的模型体积已经不能接受。

                在最后阶段,看到maskrcnn的实例分割。maskrcnn一路由rcnn,fasterrcnn发展过来。于是用maskrcnn来加入自己的训练数据和label图像进行训练。maskrcnn的结果表现并不令人满意,对于边缘的定位,相比于其他算法,略显粗糙。在产品应用中,明显还不合适。                

        3.基于图的分割算法

            基于深度学习的deepgrab,效果表现并不是十分理想。deepgrab的git作者backbone采用了deeplabv2的网络结构。并没有完全安装原论文来做。

论文原地址参考: https://arxiv.org/pdf/1707.00243.pdf

整体结构类似于encode和decoder。并没有太仔细的研究,因为基于resent101的结构,在模型体积,速度以及deeplab的分割精度上,都不能满足当前的需求。之前大致总结过计算机视觉的相关知识点,既然目前在讨论移动端模型,那后面就分模块总结下移动端模型的应用落地吧。

由于时间实在有限。这里并没有针对每个算法进行详细的讲解。后续我会从基础的机器学习算法开始总结。

⑸ 数学建模算法总结

无总结反省则无进步

写这篇文章,一是为了总结之前为了准备美赛而学的算法,而是将算法罗列并有几句话解释方便以后自己需要时来查找。

数学建模问题总共分为四类:

1. 分类问题 2. 优化问题 3. 评价问题 4. 预测问题

我所写的都是基于数学建模算法与应用这本书

一 优化问题

线性规划与非线性规划方法是最基本经典的:目标函数与约束函数的思想

现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络

模拟退火算法:

简介:材料统计力学的研究成果。统计力学表明材料中不同结构对应于粒子的不同能量水平。在高温条件下,粒子的能量较高,可以自由运动和重新排列。在低温条件下,粒子能量较低。如果从高温开始,非常缓慢地降温(此过程称为退火),粒子就可以在每个温度下达到热平衡。当系统完全被冷却时,最终形成处于低能状态的晶体。

思想可用于数学问题的解决 在寻找解的过程中,每一次以一种方法变换新解,再用退火过程的思想,以概率接受该状态(新解) 退火过程:概率转化,概率为自然底数的能量/KT次方

遗传算法: 遗传算法是一种基于自然选择原理和自然遗传机制的搜索算法。模拟自然界中的生命进化机制,在人工系统中实现特定目标的优化。

遗传算法的实质是通过群体搜索技术(?),根据适者生存的原则逐代进化,最终得到最优解或准最优解。

具体实现过程(P329~331)

* 编码

* 确定适应度函数(即目标函数)

* 确定进化参数:群体规模M,交叉概率Pc,变异概率Pm,进化终止条件

* 编码

* 确定初始种群,使用经典的改良圈算法

* 目标函数

* 交叉操作

* 变异操作

* 选择

改良的遗传算法

两点改进 :交叉操作变为了以“门当户对”原则配对,以混乱序列确定较差点位置 变异操作从交叉操作中分离出来

二 分类问题(以及一些多元分析方法)

* 支持向量机SVM

* 聚类分析

* 主成分分析

* 判别分析

* 典型相关分析

支持向量机SVM: 主要思想:找到一个超平面,使得它能够尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最远

聚类分析(极其经典的一种算法): 对样本进行分类称为Q型聚类分析 对指标进行分类称为R型聚类分析

基础:样品相似度的度量——数量化,距离——如闵氏距离

主成分分析法: 其主要目的是希望用较少的变量去解释原来资料中的大部分变异,将掌握的许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,及主成分。实质是一种降维方法

判别分析: 是根据所研究的个体的观测指标来推断个体所属类型的一种统计方法。判别准则在某种意义下是最优的,如错判概率最小或错判损失最小。这一方法像是分类方法统称。 如距离判别,贝叶斯判别和FISHER判别

典型相关分析: 研究两组变量的相关关系 相对于计算全部相关系数,采用类似主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系

三 评价与决策问题

评价方法分为两大类,区别在于确定权重上:一类是主观赋权:综合资讯评价定权;另一类为客观赋权:根据各指标相关关系或各指标值变异程度来确定权数

* 理想解法

* 模糊综合评判法

* 数据包络分析法

* 灰色关联分析法

* 主成分分析法(略)

* 秩和比综合评价法 理想解法

思想:与最优解(理想解)的距离作为评价样本的标准

模糊综合评判法 用于人事考核这类模糊性问题上。有多层次模糊综合评判法。

数据包络分析法 是评价具有多指标输入和多指标输出系统的较为有效的方法。是以相对效率为概念基础的。

灰色关联分析法 思想:计算所有待评价对象与理想对象的灰色加权关联度,与TOPSIS方法类似

主成分分析法(略)

秩和比综合评价法 样本秩的概念: 效益型指标从小到大排序的排名 成本型指标从大到小排序的排名 再计算秩和比,最后统计回归

四 预测问题

* 微分方程模型

* 灰色预测模型

* 马尔科夫预测

* 时间序列(略)

* 插值与拟合(略)

* 神经网络

微分方程模型 Lanchester战争预测模型。。

灰色预测模型 主要特点:使用的不是原始数据序列,而是生成的数据序列 优点:不需要很多数据·,能利用微分方程来充分挖掘系统的本质,精度高。能将无规律的原始数据进行生成得到规律性较强的生成序列。 缺点:只适用于中短期预测,只适合指数增长的预测

马尔科夫预测 某一系统未来时刻情况只与现在状态有关,与过去无关。

马尔科夫链

时齐性的马尔科夫链

时间序列(略)

插值与拟合(略)

神经网络(略)

⑹ 推荐算法总结

一、协同过滤

基于用户协同过滤UserCF

基于物品协同过滤ItemCF

基于模型协同过滤Mode_based

基于用户和基于物品协同过滤都称为以记忆为基础的协同过滤技术,共同缺点是资料稀疏、难以处理大数据量下的即时结果,因此发展出基于模型的协同过滤

核心思想:
基于历史资料得到一个模型,再用此模型进行预测用户对物品的评分

二、聚类算法

三、分类算法:

主要思路:根据文本特征或属性,划分到已有的类别中。常用分类算法包括:决策树分类法、朴素的贝叶斯分类算法、基于支持向量机的分类器,神经网络法,K-最近邻法,模糊分类法

#朴素贝叶斯分类算法

⑺ 比对算法总结(二)——基于BWT索引结构的比对算法-Bowite1

这是美国马里兰大学计算机研究所、生物信息学和计算生物学中心于2009年发表在《Genome Biology》杂志的一篇经典文章,至此以后依赖于BWT索引的比对算法成为主流。 Bowite 是一款超快速、内存占用低的短序列比对软件,适用于将短reads比对至大型参考基因组。采用Burrows-Wheeler 算法建立索引的Bowite软件可以在1 CPU时内,将2000万条reads 比对至人参考基因组,且内存只占有1.3Gb。于此同时Bowite 采用了新的quality-aware backtracking(质量回溯)算法,比对过程允许错配。

在此之前都是采用对reads (SHRiMP, Maq, RMAP,ZOOM) 或者参考基因组 (SOAP)构建哈希表的算法进行序列比对,该算法已在上篇文章中进行了介绍 https://www.jianshu.com/p/f5ccff73b181 。
Bowite 采用了一种完全新的索引构建策略,适用于哺乳动物重测序。根据千人基因组计划数据,Bowite 在35bp PE 序列上的比对速度要比Maq 软件快35 倍,比SOAP软件快300倍。Bowite 采用 Burrows-Wheeler 算法对 full-text minute-space (FM) 构建索引,人参考基因组占用的内存为1.3 GB。
为了追求速度,Bowite 针对哺乳动物重测序项目进行了很多合理的折中。例如,如果一条reads有多条最优匹配,Bowite 只会输出一条最优匹配。当输出的最优匹配也不是完全匹配时,Bowite并不能保证在所有情况下都能输出最高质量的匹配。在设定了较高的匹配阈值时,一小部分含有多个错配的reads可能会比对失败。在默认参数条件下,Bowite 的灵敏度与SOAP 相当,略低于Maq。可以在命令行手动改变参数,在牺牲更多时间的情况下,增加灵敏度,给出reads所有可能的比对结果。目前Bowite 比对的reads长度范围为4bp - 1024bp。

Bowite 对参考基因组建立索引的方法是 Burrows-Wheeler transform (BWT) 和 FM index。Bowite 建立的人类基因组索引在硬盘上的大小为2.2GB,在比对时的内存为1.3GB。FM index 常用的精确查找方法为 Ferragina 和 Manzini 算法。Bowite 没有完全使用该算法,因为该算法不允许错配,不能比对含有测序错误和变异的reads。针对这种情况,Bowite引入了新的扩展算法:quality-aware backtracking 算法,允许错配并支持高质量比对;double indexing 策略,避免过度回溯;Bowite比对策略与Maq软件相似,允许小部分的高质量reads 含有错配,并且对所有的错配位点的质量值设置了上限阈值。

BWT 转换是字符串的可逆性排列,它最早应用于文本数据的压缩,依赖BWT建立的索引,可以在较低内存下,实现大型文本的有效搜索。它被在生物信息学中有广泛的应用,包括重复区域计数、全基因组比对、微阵列探针设计、Smith-Waterman 比对到人参考基因组。Burrows-Wheeler transform (BWT) 的转换步骤如图1所示:

1、轮转排序。如图1a 所示,(1)将字符$ 添加到文本 T (acaacg)的末尾,但需注意其中字符$ 并未实际添加到文本 T 中,且其在字母表中逻辑顺序小于 T 中所有出现过的字符。(2) 然后将当前字符串的第一个字符移到最后一位,形成一个新的字符串,再将新的字符串的第一位移到最后一位形成另一个新的字符串,就这样不断循环这个过程,直到字符串循环完毕(即$处于第一位),这样就形成了一个基于原字符串的字符矩阵M(这一步原图1a 进行了省略,见下方小图)。(3) 然后对矩阵M的各行字符按照字典先后顺序排序,获得排序后的字符矩阵 BWM(T),矩阵的最后一列定义为 BWT(T)。 前期经过一个小复杂的过程获得了BWT(T)列,那这一列到底有什么用呢?其实BWT(T)列通过简单的算法就可以推算出原始文本T的所有信息。而经过转换之后的BWT(T)列大量重复字符是靠近的,只储存该列信息,可以大大提高字符压缩比例。

2、LF-Mapping。图1a 转换矩阵 BWM(T)含有一种 'last first (LF) mapping' 的特性,即最后一列L中出现某字符出现的顺序与第一列F某字符出现的次序时一致的。根据Supplementary1 图中算法1 STEPLEFT 和 算法2 UNPERMUTE 就可以推算出BWT(T)到 T 的过程, 图1 b记录了整个推算过程。 详细推算过程可参考这个博客介绍: https://blog.csdn.net/stormlovetao/article/details/7048481 。

3、reads精确匹配。使用BWT算法的最终目的是要将短reads比对到参考基因组上,确定短reads在参考基因组上的具体位置。转换后的BWT(T)序列,可以利用Supplementary1 图中算法3 EXACTMATCH 实现reads的精确匹配。图1c 列出了 字符串 aac 比对至acaacg 的过程 。 详细推算过程可参考这篇介绍: https://zhuanlan.hu.com/p/158901556 。

上述的BWT转换只能用于精确的匹配,但是测序reads是含有测序错误和突变的,精确匹配并不适用。这里应用了 backtracking 搜索的算法,用于允许错配快速比对 。含有错配的reads只是一小部分。测序reads的每个碱基都含有唯一的测序量值,测序质量值越该位点是测序错误的可能越大,只有当一条read 的所有错配的测序质量值总和小于一定阈值时可以允许错误匹配。
图2显示了精确匹配和非精确匹配的过程,backtracking 搜索过程类似于 EXACTMATCH ,首先计算连续较长的后缀矩阵。如果矩阵中没有搜索到相应的reads,则算法会选择一个已经匹配的查询位置,替换一个不同碱基,再次进行匹配。EXACTMATCH搜索从被替换位置之后开始,这样就可以比对就可以允许一定的错配。backtracking 过程发生在堆栈结构的上下文中,当有替换产生时,堆栈的结构会增长;当所有结果都不匹配时,堆栈结构会收缩。
Bowite 软件的搜索算法是比较贪婪的,Bowite软件会报出遇到的第一个有效比对,并不一定是在错配数目和变异质量上的“最佳比对”。没有查询最优比对的原因是寻找“最佳比对”会比现有的模型慢2-3倍。而在重测序项目上,速度是更重要的因素。Bowite 也设置了可以输出多个比对位置(-k)和所有比对位置(-a)的参数,添加这些参数后,比对速度会显着变慢。

目前的比对软件会有过度回溯的情况,在reads的3‘端花费大量无用时间去回溯。Bowite利用‘double indexing’技术减少了过度回溯的发生。简单来说就是对正向参考基因组进行BWT转换,称为 ‘Forward index’,同时对反向(注意不是互补配对序列,是反向序列)参考基因组也进行BWT转换,称为‘Mirror index’。 当只允许一个错配时,比对根据reads是前半段出现错配,还是后半段出现错配会有两种情况:(1)Phase1 将Forward index 加载入内存,不允许查询reads右半段出现错配;(2)Phase2 将Mirror index 加载如内存,不允许查询序列的反向reads右半段(原查询序列的左半端) 出现错配。这样可以避免过度回溯,提高比比对的灵敏度。 但是,如果比对软件允许一个reads有多个错配时,仍然会有过度回溯的现象发生,为了减少过度回溯现象的发生,这里将回溯的上限进行了限定(默认值为:125次)。

Bowite 允许使用者在高质量reads的末端(默认是28bp)设置错配数目(默认的错配数目是2)。高质量reads末端的28bp序列被称为 '种子' 序列。这个‘种子’序列又可分为两等份:14bp的高质量末端称为 ‘hi-half’(通常位于5‘端),14bp的低质量末端称为‘lo-half’。 如果种子序列只允许2bp 的错配,比对会出现4 种情况:(1)种子序列中没有错配(case1);(2)hi-half区域没有错配,lo-half区域有一个或两个错配(case2);(3)lo-half区域没有错配,hi-half区域有一个或两个错配(case3);(4)lo-half区域有一个错配,hi-half区域有一个错配(case4);
在所有情况下,reads的非种子部分允许任意数目的错配。如图3所示,Bowite 算法会根据上面4 种情况交替变化‘Forward index’和‘Mirror index’比对策略,主要会有三种比对策略。

Bowite 建立一次参考基因组索引后,后续的比对可反复使用该索引。表1和表2列出了在默认参数条件下,Bowite、SOAP、Maq软件性能的比较。在reads比对率相近的条件下,Bowite软件的比对速度速度相对于SOAP、Maq软件有较大的提升。

1、将reads 比对至人参考基因组上,Bowite相对于SOAP和Maq软件有较大的优势。它运行的内存非常小(1.2GB),在相同灵敏度下,速度有了较大的提升。
2、Bowite 软件建立一次参考基因组索引后,后续的比对可反复使用该索引。
3、Bowite 速度快、内存占用小、灵敏度高主要是因为使用了BWT算法构建索引、利用回溯算法允许错配、采用Double index策略避免过度回溯。
4、Bowite 软件目前并不支持插入、缺失比对,这个是今后需要努力的方向。

[1] Langmead B . Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome biology, 2009, 10(3):R25.
[2] BWT 推算过程参考博客 https://blog.csdn.net/stormlovetao/article/details/7048481
[3] FM index 精确查匹配过程参考文章 https://zhuanlan.hu.com/p/158901556

⑻ 《算法心得:高效算法的奥秘(原书第2版)》pdf下载在线阅读,求百度网盘云资源

《算法心得:高效算法的奥秘(原书第2版)》([美] Henry S. Warren, Jr.)电子书网盘下载免费在线阅读

链接:https://pan..com/s/1c2AAxOe1HvDXDia4RorcVg 密码:t38w

书名:算法心得:高效算法的奥秘(原书第2版)

作者:[美] Henry S. Warren, Jr.

译者:爱飞翔

豆瓣评分:8.8

出版社:机械工业出版社

出版年份:2014-3

页数:419

内容简介:

在本书中,作者给我们带来了一大批极为诱人的知识,其中包括各种节省程序运行时间的技巧、算法与窍门。学习了这些技术,程序员就可写出优雅高效的软件,同时还能洞悉其中原理。这些技术极为实用,而且其问题本身又非常有趣,有时甚至像猜谜解谜一般,需要奇思妙想才行。简而言之,软件开发者看到这些改进程序效率的妙计之后,定然大喜。

作者简介:

【作者简介】

Henry S. Warren, Jr.

计算机科学家,在IBM供职50余年,经历了IBM704时代、PowerPC时代及其后种种更迭。曾参与多个军事指挥与控制系统工程,并且参加了由Jack Schwarz领衔的“SET语言”项目。自1973年起,Hank就职于IBM研发部,努力探索编译器和计算机架构。当前正研究一种旨在每秒执行百亿亿次运算的超级计算机。Hank拥有纽约大学柯朗数学科学研究所计算机科学博士学位。

【译者简介】

爱飞翔

资深软件开发工程师,擅长Web开发、移动开发和游戏开发,有10余年开发经验,曾主导和参与了多个手机游戏和手机软件项目的开发,经验十分丰富。他是手机软件开发引擎AgileMobileEngine的创始人兼项目经理,同时也是CatEngine手机游戏开发引擎的联合创始人兼代码维护员。他对极限编程、设计模式、重构、测试驱动开发、敏捷软件开发等也有较深入的研究,目前负责敏捷移动开发网(http://www.agilemobidev.com/)的运营。业余爱好文学和历史,有一定的文学造诣。翻译并出版了多本计算机着作。

⑼ 《挑战程序设计竞赛2算法和数据结构》pdf下载在线阅读全文,求百度网盘云资源

《挑战程序设计竞赛2 算法和数据结构》([日]渡部有隆)电子书网盘下载免费在线阅读

链接: https://pan..com/s/1B5oEwukMNtPgrWcmM05upQ

提取码: 8u8n

书名:挑战程序设计竞赛2 算法和数据结构

作者:[日]渡部有隆

译者:支鹏浩

豆瓣评分:8.3

出版社:人民邮电出版社

出版年份:2016-9-1

页数:404

内容简介:

本书分为准备篇、基础篇和应用篇三大部分,借助在线评测系统Aizu Online Judge以及大量例题,详细讲解了算法与复杂度、初等和高等排序、搜索、递归和分治法、动态规划法、二叉搜索树、堆、图、计算几何学、数论等与程序设计竞赛相关的算法和数据结构,既可以作为挑战程序设计竞赛的参考书,也可以用来引导初学者系统学习算法和数据结构的基础知识。本书适合所有程序设计人员、程序设计竞赛爱好者以及高校计算机专业师生阅读。

作者简介:

渡部有隆(作者)

出生于1979年,计算机理工学博士。会津大学计算机理工学部信息系统学部门副教授。专业领域为可视化编程语言。AIZU ONLINE JUDGE开发者。

Ozy(审校)

本名冈田佑一,出生于日本大阪的短码高手。他花费相当长的时间提升短码编程技术,进而将其发展成一种技能,曾获得程序设计大赛的冠军。他开办过程序设计方面的培训班,目前致力于数学教育和程序设计师的培养工作。曾着有《短码之美:变成达人的心得技法》(人民邮电出版社)。

秋叶拓哉(审校)

2011年考入东京大学研究生院。以iwi的昵称活跃在程序设计竞赛中。TopCoder评级好成绩为世界第四(2013年)。《挑战程序设计竞赛(第2版)》(人民邮电出版社)作者之一。

⑽ 《编程之法面试和算法心得gitbook》pdf下载在线阅读全文,求百度网盘云资源

《编程之法面试和算法心得gitbook》网络网盘pdf最新全集下载:
链接: https://pan..com/s/16awQV8D5SLoWTkg66Cv2ZA

?pwd=6ufu 提取码: 6ufu
简介:第1章阐述与字符串相关的面试题,第2章阐述与数组相关的面试题,第3章阐述与树相关的面试题和数据结构(红黑树、B树等),第4章阐述与查找相关的面试题(重点介绍KMP),第5章阐述与动态规划相关的面试题,第6章阐述与海量数据处理相关的面试题,第7章介绍机器学习的两个算法-K近邻、SVM.此外,每一章都有“举一反三”和“习题”,以便读者及时运用所学的方法解决相似的问题,并且在附录中收录了语言、链表、矩阵、栈、队列、图搜索、概率统计、系统设计等其他题型。

阅读全文

与算法心得pdf下载相关的资料

热点内容
QQ聊天记录journal文件夹 浏览:118
苹果公司云服务器地址 浏览:85
加密记事本手机 浏览:437
汽车压缩机变频阀 浏览:95
域外服务器是什么意思 浏览:639
大众点评服务器怎么老卡顿 浏览:556
javavector与list的区别 浏览:316
java初始化类数组 浏览:303
java字符串转换成json对象 浏览:647
android非阻塞socket 浏览:358
编译系统概念 浏览:452
天眼通app能做什么 浏览:557
魅族手机怎么加密图库 浏览:8
rpa编译器 浏览:572
车载云服务器记录 浏览:740
四川金星压缩机制造有限公司 浏览:55
移动平台图片压缩算法 浏览:37
银行项目java 浏览:571
怎样将pdf转换为ppt 浏览:598
纯净服务器怎么开服 浏览:288