计算机视觉方面的算法_计算机视觉中目前有哪些经典的目标跟踪算法

㈠计算机视觉中算法 RANSAC

RANSAC 主要是用于处理 外点数 (outline) 比较多情况下来搜索一条直线或进行模型参数拟合。从 RANSAC 全名字面意思是随机采样一致性。是一种非常简单且有效估计模型参数的方法。不仅限于直线模型的参数，在 SLAM 通过对比前后量帧图像上特征点间关系可以计算出摄像机的外参数，从而计算运动轨迹并生成稀疏点云。

对于RANSAC算法来说一个基本的假设就是数据是由内点和外点组成的。

同时 RANSAC 假设：在给定一组含有少部分内点的数据，存在一个程序可以估计出符合内点的模型。

通常会有如下几个步骤

如图

到此算完成一次迭代，重复上面的迭代记录小每次迭代选择点后绘制所得到的投票数，投票数最大所对应的直线模型就是我们要找到的直线

从上面求解过程，可以发现迭代次数 N 和内点率 t 或者理解为外点率 e 都可以这些参数确定是比较困难的，可以感觉经验进行来设置这些参数，

通常我们还会设定一个阈值，这个阈值是关于投票数的阈值，也就是最少投票数值，计算出直线中投票数最大的直线的投票数量还需要大于这个最少投票数才可以。其实 RANSAC 输出一个一条投票数最多且大于事先设定好阈值的直线模型参数，也可以是多条投票数大于最小投票(阈值)的多条直线。

通常我们对这些点的外点率是一无所知的，那么在这种情况下应该如何处理呢?
首先将迭代次数 N 设置无穷大，因为现在对外点率一无所知，所以也就没办法设置 N。所以真实迭代次数 sample_count 通常都会比 N 小

接下来就是将 sample_count 增加 1 然后重复上面步骤，在下一次迭代中 N 就不再是无穷大而是用 N1 来如果在下一次迭代中计算 d 内点数量要比上一次高就保留本次 d 以及计算得到 N1 而舍弃上一次的计算得到 N1 。

图像配准就是找到一幅图像像素到另一幅图像像素间的空间映射关系。这些图像可以是不同时间(多时间配准)，不同传感器在不同地方拍摄（多模式配准）。这些图像之间的空间关系可以是刚性 (平移和旋转)，仿射(例如剪切），单应性(或复杂的大变形模型）。

这是一个三维重建必用的算法，如果在三维重建不用 RANSAC 就说明你做的还不算好。帮助我们排序一些噪音点还是outline 的点。我们以拟合直线为例讲解 RANSAC 我们随机地挑选两个点作为模型，然后看有多少点 inline，我们在随意找两个点来作为模型，我们通过评估（投票形式）来找出最优模型，但是这本模型并不是最优模型而是我们要，随意选择最少 x 个样本，x 个数取决于你要拟合模型，如果是直线就是 2 个点，平面需要3 点。然后计算有多少点和模型拟合。直到找到一个模型其中 inline 样本点是最多的。然后在拟合一次就可以得到我们想要点。

㈡计算机视觉中，目前有哪些经典的目标检测算法

第一章介绍运动的分类、计算机视觉领域中运动分析模型、计算机视觉领域运动检测和目标跟踪技术研究现状、计算机视觉领域中运动分析技术的难点等内容；
第二章介绍传统的运动检测和目标跟踪算法，包括背景差分法、帧间差分法、光流场评估算法等；
第三章介绍具有周期性运动特征的低速目标运动检测和跟踪算法，并以CCD测量系统为例介绍该算法的应用；
第四章介绍高速运动目标识别和跟踪算法，并以激光通信十信标光捕获和跟踪系统为例介绍该算法的应用；
第五章介绍具有复杂背景的目标运动检测过程中采用的光流场算法，包括正规化相关的特性及其改进光流场评估算法，并介绍改进光流场算法的具体应用；
第六章介绍互补投票法实现可信赖运动向量估计。

㈢ cv算法是什么呀

cv算法是计算机视觉算法。是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。

定义：

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。

计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛（照相机）和大脑（算法），让计算机能够感知环境。

我们中国人的成语"眼见为实"和西方人常说的"One picture is worth ten thousand words"表达了视觉对人类的重要性。不难想象，具有视觉的机器的应用前景能有多么地宽广。

㈣计算机视觉中，目前有哪些经典的目标跟踪算法

benchmark 2015版：Visual Tracker Benchmark 不过这些算法都比较新要看老的话主要是06年这篇paper http://crcv.ucf.e/papers/Object%20Tracking.pdf 和09年有一篇暂时忘记paper名字了
古老的方法比如optical flow，kalman filter(后面的particle filter)……了解不多不瞎扯了

目前tracking主要是两种，discriminative 和 generative，当然也有combine两个的比如SCM。你提到的都是前者，就是算法里面基本有一个classifier可以分辨要追踪的物体。这类除了你说的最近比较火的还有速度极占优势的CSK（后来进化成KCF/DCF了）
另一种generative的方法，大致就是用模版（或者sparse code）抽一堆feature，按距离函数来匹配。L1，ASLA，LOT，MTT都是。

最近才开始了解tracking，所以说得可能并不是很对，仅供参考

㈤ cv算法是什么

计算机视觉算法。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

计算机视觉应用的实例包括用于系统：

（1）控制过程，比如，一个工业机器人。

（2）导航，例如，通过自主汽车或移动机器人。

（3）检测的事件，如，对视频监控和人数统计。

（4）组织信息，例如，对于图像和图像序列的索引数据库。

（5）造型对象或环境，如，医学图像分析系统或地形模型。

（6）相互作用，例如，当输入到一个装置，用于计算机人的交互。

（7）自动检测，例如，在制造业的应用程序。

㈥计算机视觉中，目前有哪些经典的目标跟踪算法

计算机视觉中,目前有哪些经典的目标跟踪算法比如TLD、CT、Struct这些效果不错的Tracker其实都不是单纯的Tracker了。09年的时候我记得比较流行的是Particle Filtering，或者一些MeanShift/CamSh

㈦计算机视觉——典型的目标检测算法(OverFeat算法)（二）

【嵌牛导读】目标检测在现实中的应用很广泛，我们需要检测数字图像中的物体位置以及类别，它需要我们构建一个模型，模型的输入一张图片，模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。在深度学习浪潮到来之前，目标检测精度的进步十分缓慢，靠传统依靠手工特征的方法来提高精度已是相当困难的事。而ImageNet分类大赛出现的卷积神经网络（CNN）——AlexNet所展现的强大性能，吸引着学者们将CNN迁移到了其他的任务，这也包括着目标检测任务，近年来，出现了很多目标检测算法。

【嵌牛鼻子】计算机视觉

【嵌牛提问】如何理解目标检测算法——OverFeat

【嵌牛正文】

一、深度学习的典型目标检测算法

深度学习目标检测算法主要分为双阶段检测算法和单阶段检测算法，如图1所示。

双阶段目标检测算法先对图像提取候选框，然后基于候选区域做二次修正得到检测结果，检测精度较高，但检测速度较慢;单阶段目标验测算法直接对图像进行计算生成检测结果，检测速度快,但检测精度低。

1、双阶段目标检测算法

双阶段目标检测方法主要通过选择性搜索（Selective Search）或者Edge Boxes等算法对输入图像选取可能包含检测目标的候选区域（Region Proposal），再对候选区域进行分类和位置回归以得到检测结果。

1.1 OverFeat 算法

《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》

Sermanet 等改进AlexNet 提出 OverFeat 算法。该算法结合AlexNet通过多尺度滑动窗口实现特征提取功能，并且共享特征提取层，应用于图像分类、定位和目标检测等任务。

关键技术：

1、FCN（全卷积神经网络）

对于一个各层参数结构都设计好的网络模型，要求输入图片的尺寸是固定的（例如，Alexnet要求输入图片的尺寸为227px*227px）。如果输入一张500*500的图片，希望模型仍然可以一直前向传导，即一个已经设计完毕的网络，可以输入任意大小的图片，这就是FCN。

FCN的思想在于：

1、从卷积层到全连接层，看成是对一整张图片的卷积层运算。

2、从全连接层到全连接层，看成是采用1*1大小的卷积核，进行卷积层运算。

如上图所示，绿色部分代表卷积核大小。假设一个CNN模型，其输入图片大小是14*14，通过第一层卷积后得到10*10大小的图片，然后接着通过池化得到了5*5大小的图片。像但是对于像素值为5*5的图片到像素值为1*1的图片的过程中：

（1）传统的CNN：如果从以前的角度进行理解的话，那么这个过程就是全连接层，我们会把这个5*5大小的图片，展平成为一维向量进行计算。

（2）FCN：FCN并不是把5*5的图片展平成一维向量再进行计算，而是直接采用5*5的卷积核，对一整张图片进行卷积运算。

二者本质上是相同的，只是角度不同，FCN把这个过程当成了对一整张特征图进行卷积，同样，后面的全连接层也是把它当做是以1*1大小的卷积核进行卷积运算。

当输入一张任意大小的图片，就需要利用以上所述的网络，例如输入一张像素为16*16的图片：

根据上图，该网络最后的输出是一张2*2的图片。可见采用FCN网络可以输入任意大小的图片。同时需要注意的是网络最后输出的图片大小不在是一个1*1大小的图片，而是一个与输入图片大小息息相关的一张图片。

Overfeat就是把采用FCN的思想把全连接层看成了卷积层，在网络测试阶段可以输入任意大小的图片。

2、offset max-pooling

简单起见，不用二维的图像作为例子，而是采用一维作为示例：

如上图所示，在X轴上有20个神经元，并且选择池化size=3的非重叠池化，那么根据之前所学的方法应该是：对上面的20个神经元，从1位置开始进行分组，每3个连续的神经元为一组，然后计算每组的最大值(最大池化)，19、20号神经元将被丢弃，如下图所示：

或者可以在20号神经元后面，添加一个数值为0的神经元编号21，与19、20成为一组，这样可以分成7组:[1,2,3]，[4,5,6]……,

[16,17,18],[19,20,21]，最后计算每组的最大值。

如果只分6组，除了以1作为初始位置进行连续组合之外，也可以从位置2或者3开始进行组合。也就是说其实有3种池化组合方法：

A、△=0分组:[1,2,3]，[4,5,6]……,[16,17,18]；

B、△=1分组:[2,3,4]，[5,6,7]……,[17,18,19]；

C、△=2分组:[3,4,5]，[6,7,8]……,[18,19,20]；

对应图片如下：

以往的CNN中，一般只用△=0的情况，得到池化结果后，就送入了下一层。但是该文献的方法是，把上面的△=0、△=1、△=2的三种组合方式的池化结果，分别送入网络的下一层。这样的话，网络在最后输出的时候，就会出现3种预测结果了。

前面所述是一维的情况，如果是2维图片的话，那么(△x,△y)就会有9种取值情况(3*3)；如果我们在做图片分类的时候，在网络的某一个池化层加入了这种offset 池化方法，然后把这9种池化结果，分别送入后面的网络层，最后的图片分类输出结果就可以得到9个预测结果(每个类别都可以得到9种概率值，然后我们对每个类别的9种概率，取其最大值，做为此类别的预测概率值)。

算法原理：

文献中的算法，就是把这两种思想结合起来，形成了文献最后测试阶段的算法。

1、论文的网络架构与训练阶段

(1)网络架构

对于网络的结构，文献给出了两个版本——快速版、精确版，一个精度比较高但速度慢；另外一个精度虽然低但是速度快。下面是高精度版本的网络结构表相关参数：

表格参数说明：

网络输入：图片大小为221px*221px；

网络结构方面基本上和AlexNet相同，使用了ReLU激活，最大池化。不同之处在于：(a)作者没有使用局部响应归一化层；(b)然后也没有采用重叠池化的方法；(c)在第一层卷积层，stride作者是选择了2，这个与AlexNet不同（AlexNet选择的跨步是4，在网络中，如果stride选择比较大得话，虽然可以减少网络层数，提高速度，但是却会降低精度）。

需要注意的是把f7这一层，看成是卷积核大小为5*5的卷积层，总之就是需要把网络看成前面所述的FCN模型，去除了全连接层的概念，因为在测试阶段可不是仅仅输入221*221这样大小的图片，在测试阶段要输入各种大小的图片，具体请看后面测试阶段的讲解。

(2)网络训练

训练输入：对于每张原图片为256*256，然后进行随机裁剪为221*221的大小作为CNN输入，进行训练。

优化求解参数设置：训练的min-batchs选择128，权重初始化选择高斯分布的随机初始化：

然后采用随机梯度下降法，进行优化更新，动量项参数大小选择0.6，L2权重衰减系数大小选择10-5次方。学习率初始化值为0.05，根据迭代次数的增加，每隔几十次的迭代后，就把学习率的大小减小一半。

然后就是DropOut，这个只有在最后的两个全连接层，才采用dropout，dropout比率选择0.5。

2、网络测试阶段

在Alexnet的文献中，预测方法是输入一张图片256*256，然后进行multi-view裁剪，也就是从图片的四个角进行裁剪，还有就是一图片的中心进行裁剪，这样可以裁剪到5张224*224的图片。然后把原图片水平翻转一下，再用同样的方式进行裁剪，又可以裁剪到5张图片。把这10张图片作为输入，分别进行预测分类，在后在softmax的最后一层，求取个各类的总概率，求取平均值。

然而Alexnet这种预测方法存在两个问题：

一方面这样的裁剪方式，把图片的很多区域都给忽略了，这样的裁剪方式，刚好把图片物体的一部分给裁剪掉了；

另一方面，裁剪窗口重叠存在很多冗余的计算，像上面要分别把10张图片送入网络，可见测试阶段的计算量还是较大的。

Overfeat算法：

训练完上面所说的网络之后，在测试阶段不再是用一张221*221大小的图片了作为网络的输入，而是用了6张大小都不相同的图片，也就是所谓的多尺度输入预测，如下表格所示：

当网络前向传导到layer 5的时候，就利用了前面所述的FCN、offset pooling这两种思想的相结合。现以输入一张图片为例(6张图片的计算方法都相同)，讲解layer 5后面的整体过程，具体流程示意图如下：

步骤一：

对于某个尺度的图片，经过前五层的卷积后得到特征图。上图中特征图的分辨率是20x23，256个通道。

步骤二：

对于该特征图，重复多次使用非重叠的池化，每次池化的偏置不同，有行偏置和列偏置。上图中偏置池化3次，偏置分别为为(0,1,2)。这就是offset pooling，也被称为fine stride。offset pooling得到的特征图的维度为6x7x3x3xD，其中6x7是特征图的分辨率，3x3是偏置池化的次数，D是通道数。上图中是以1维显示的。

步骤三：

池化后得到的特征图将被送入分类器。

步骤四：

分类器的输入是的5x5xD，输出是C(类别数)维向量。但是offset pooling后得到的特征图并不是5x5xD，比如上图中的特征图大小为6x7xD，因此分类器以滑动窗口的方式应用在特征图上，每个滑动窗口经过分类器输出一个C维向量。比如上图中输入的6x7xD的特征图最终得到2x3xC的输出，其中2x3是滑动窗口的个数。

步骤五：

而2x3xC只是一组偏置池化的输出，总的输出为2x3x3x3xC，将输出的张量reshape，得到6x9xC输出张量。最终输出分类张量为3d张量，即两个分辨率维度 x C维。

然后需要在后面把它们拉成一维向量，这样在一个尺度上，可以得到一个C*N个预测值矩阵，每一列就表示图片属于某一类别的概率值，并且求取每一列的最大值，作为本尺度的每个类别的概率值。

最后一共用了6种不同尺度(文献使用了12张，另外6张是水平翻转的图片)进行做预测，然后把这六种尺度结果再做一个平均，作为最最后的结果。

从上面过程可以看到整个网络分成两部分：layer 1~5这五层称之为特征提取层；layer 6~output称之为分类层。

六、定位任务

用于定位任务的时候，就把分类层(上面的layer 6~output)给重新设计一下，把分类改成回归问题，然后在各种不同尺度上训练预测物体的bounding box。

导航:首页 > 源码编译 > 计算机视觉方面的算法

计算机视觉方面的算法

与计算机视觉方面的算法相关的资料