kalman目标跟踪算法原理_卡尔曼滤波的详细原理

① 基于卡尔曼滤波的目标跟踪怎么做

在cnki上下篇kalman目标跟踪的硕士论文吧，很多的，当然期刊也可以，不过一般情况下硕士论文讲的能详细点，然后找准一篇仔细研读，这样子基本上理论就没啥问题了，编程就用MATLAB，用C很麻烦，很多算法都没有得自己从头编，matlab集成了很多的算法的，只要找出来调用就行了。

这里给你说下kalman跟踪的思路吧：

0.如果你的视频是实际录得话，为防止检测到伪目标，首先要对输入的图像进行滤波，简单的有中值均值滤波。

1.对视频序列采用背景差分或帧间差分就可以得到运动区域了，这里重点就是背景建模，如果嫌麻烦也就别看什么单高斯或多高斯的了，直接找一个空帧(没有运动目标)当背景就OK了，差分后就有了运动区域，然后二值化方便以后的处理。然后视有没有阴影而进行阴影去除的工作。

2.上边这步也就是检测出了运动区域，按你的检测出来是要给边边画圈，这个在matlab上好好研究研究怎样提取目标边缘的点，在原位图图上把边缘的点改变成一个同像素值就行了，这样检测就完了。

3.跟踪，首先得找到目标的中心，因为目标不只是一个像素，必须有一个中心来表示它的坐标位置，这个方法自己想啦，什么取均值求外接矩形中心啊都可以的，然后每一帧都这么做就有一系列的中心坐标了。

4.Kalman，Kalman的作用还是以滤波为主，相当于把第三步的那些坐标都当成信号序列，用Kalman滤波，边检测边滤波，kalman主要记住那5个公式，知道它的递推过程就基本能编出来了，至于滤波器参数就在参考文献里找吧，编出来kalman部分的程序没多少行的，别怕。

5.如果是多目标跟踪的话就进行目标匹配的工作，相当于每帧都检测出两个目标，你要知道最新一帧中的每个分别对应的是前边帧的哪个目标。

上边这些给你一个大体的思路，你根据自己的任务选择做哪些工作，这个题目不难的，要有信心

② 卡尔曼滤波的详细原理

卡尔曼滤波（Kalman filtering）是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。
斯坦利·施密特(Stanley Schmidt)首次实现了卡尔曼滤波器。卡尔曼在NASA埃姆斯研究中心访问时，发现他的方法对于解决阿波罗计划的轨道预测很有用，后来阿波罗飞船的导航电脑使用了这种滤波器。关于这种滤波器的论文由Swerling (1958), Kalman (1960)与 Kalman and Bucy (1961)发表。

数据滤波是去除噪声还原真实数据的一种数据处理技术, Kalman滤波在测量方差已知的情况下能够从一系列存在测量噪声的数据中，估计动态系统的状态. 由于, 它便于计算机编程实现, 并能够对现场采集的数据进行实时的更新和处理, Kalman滤波是目前应用最为广泛的滤波方法, 在通信, 导航, 制导与控制等多领域得到了较好的应用.

表达式
X(k)=A X(k-1)+B U(k)+W(k)

背景
斯坦利·施密特(Stanley Schmidt)首次实
现了卡尔曼滤波器。卡尔曼在NASA埃姆斯研究中心访问时,发现他的方法对于解决阿波罗计划的轨道预测很有用,后来阿波罗飞船的导航电脑使用了这种滤波器。关于这种滤波器的论文由Swerling (1958), Kalman (1960)与 Kalman and Bucy (1961)发表。

定义
传统的滤波方法，只能是在有用信号与噪声具有不同频带的条件下才能实现．20世纪40年代，N．维纳和A．H．柯尔莫哥罗夫把信号和噪声的统计性质引进了滤波理论，在假设信号和噪声都是平稳过程的条件下，利用最优化方法对信号真值进行估计，达到滤波目的，从而在概念上与传统的滤波方法联系起来，被称为维纳滤波。这种方法要求信号和噪声都必须是以平稳过程为条件。60年代初，卡尔曼(R．E．Kalman)和布塞(R． S．Bucy)发表了一篇重要的论文《线性滤波和预测理论的新成果》，提出了一种新的线性滤波和预测理由论，被称之为卡尔曼滤波。特点是在线性状态空间表示的基础上对有噪声的输入和观测信号进行处理，求取系统状态或真实信号。
这种理论是在时间域上来表述的，基本的概念是：在线性系统的状态空间表示基础上，从输出和输入观测数据求系统状态的最优估计。这里所说的系统状态，是总结系统所有过去的输入和扰动对系统的作用的最小参数的集合，知道了系统的状态就能够与未来的输入与系统的扰动一起确定系统的整个行为。
卡尔曼滤波不要求信号和噪声都是平稳过程的假设条件。对于每个时刻的系统扰动和观测误差（即噪声），只要对它们的统计性质作某些适当的假定，通过对含有噪声的观测信号进行处理，就能在平均的意义上，求得误差为最小的真实信号的估计值。因此，自从卡尔曼滤波理论问世以来，在通信系统、电力系统、航空航天、环境污染控制、工业控制、雷达信号处理等许多部门都得到了应用，取得了许多成功应用的成果。例如在图像处理方面，应用卡尔曼滤波对由于某些噪声影响而造成模糊的图像进行复原。在对噪声作了某些统计性质的假定后，就可以用卡尔曼的算法以递推的方式从模糊图像中得到均方差最小的真实图像，使模糊的图像得到复原。

性质
①卡尔曼滤波是一个算法，它适用于线性、离散和有限维系统。每一个有外部变量的自回归移动平均系统(ARMAX)或可用有理传递函数表示的系统都可以转换成用状态空间表示的系统，从而能用卡尔曼滤波进行计算。
②任何一组观测数据都无助于消除x(t)的确定性。增益K(t)也同样地与观测数据无关。
③当观测数据和状态联合服从高斯分布时用卡尔曼递归公式计算得到的是高斯随机变量的条件均值和条件方差，从而卡尔曼滤波公式给出了计算状态的条件概率密度的更新过程线性最小方差估计，也就是最小方差估计。

形式
卡尔曼滤波已经有很多不同的实现，卡尔曼最初提出的形式一般称为简单卡尔曼滤波器。除此以外，还有施密特扩展滤波器、信息滤波器以及很多Bierman, Thornton 开发的平方根滤波器的变种。最常见的卡尔曼滤波器是锁相环，它在收音机、计算机和几乎任何视频或通讯设备中广泛存在。

实例
卡尔曼滤波的一个典型实例是从一组有限的，对物体位置的，包含噪声的观察序列中预测出物体的坐标位置及速度。在很多工程应用(雷达、计算机视觉)中都可以找到它的身影。同时，卡尔曼滤波也是控制理论以及控制系统工程中的一个重要话题。

应用
比如，在雷达中，人们感兴趣的是跟踪目标，但目标的位置、速度、加速度的测量值往往在任何时候都有噪声。卡尔曼滤波利用目标的动态信息,设法去掉噪声的影响，得到一个关于目标位置的好的估计。这个估计可以是对当前目标位置的估计(滤波)，也可以是对于将来位置的估计(预测)，也可以是对过去位置的估计(插值或平滑)。

扩展卡尔曼滤波（EXTEND KALMAN FILTER, EKF）
是由kalman filter考虑时间非线性的动态系统，常应用于目标跟踪系统。

状态估计
状态估计是卡尔曼滤波的重要组成部分。一般来说，根据观测数据对随机量进行定量推断就是估计问题，特别是对动态行为的状态估计，它能实现实时运行状态的估计和预测功能。比如对飞行器状态估计。状态估计对于了解和控制一个系统具有重要意义，所应用的方法属于统计学中的估计理论。最常用的是最小二乘估计，线性最小方差估计、最小方差估计、递推最小二乘估计等。其他如风险准则的贝叶斯估计、最大似然估计、随机逼近等方法也都有应用。

状态量
受噪声干扰的状态量是个随机量，不可能测得精确值，但可对它进行一系列观测，并依据一组观测值，按某种统计观点对它进行估计。使估计值尽可能准确地接近真实值，这就是最优估计。真实值与估计值之差称为估计误差。若估计值的数学期望与真实值相等，这种估计称为无偏估计。卡尔曼提出的递推最优估计理论，采用状态空间描述法，在算法采用递推形式，卡尔曼滤波能处理多维和非平稳的随机过程。

理论
卡尔曼滤波理论的提出，克服了威纳滤波理论的局限性使其在工程上得到了广泛的应用，尤其在控制、制导、导航、通讯等现代工程方面。

③ 图解卡尔曼滤波及匹配算法进行多目标跟踪

状态预测（位置、速度等）的准不准，影响了目标之间能否正确匹配（目标编号）。

上图是多目标跟踪的一戚老个例子，有效跟踪范围为x=0到x=200之间，红线表示卡尔曼滤波的 初始化 及更新阶段，绿线表示预测阶段。

当t=1时，

当t=2时，

当t=3时，

当t=4时，

当t=5时，

当t=6时，

由上述分析可高笑升知，卡尔曼滤波算法对多目标的状态进行估计，匈牙利算法对多目标进行匹配，实现多升清目标跟踪。

参考 https://www.pianshen.com/article/9795849360/
公式中 A和H为转移矩阵

④ 无人驾驶(三)行人跟踪算法

姓名：王梦妮

学号：20021210873

学院：电子工程学院

【嵌牛导读】本文主要介绍了无人驾驶中所需的拿肢行人跟踪算法

【嵌牛鼻子】无人驾驶环境感知计算机视觉卡尔曼滤波粒子滤波均值漂移

【嵌牛提问】无人驾驶中所用到的行人跟踪算法有哪些

【嵌牛正文】

行人跟踪一直是视觉领域的一个难点，实际应用环境复杂、遮挡以及行人姿态变化等外界因素都影响着行人跟踪算法的研究。行人跟踪算法模型主要分为生成模型和判别模型。

（一）生成式模型

生成式模型是一种通过在线学习行人目标特征，建立行人跟踪模型，然后使用模型来搜索误差最小的目标区域，从而完成对行人的跟踪。这种算法在构建模型只考虑了行人本身的特征，忽略了背景信息，没有做到有效利用图像中的全部信息。其中比较经典的算法主要有卡尔曼滤波，粒子滤波，mean-shift等。

（1）卡尔曼滤波算法

卡尔曼滤波算法是一种通过对行人构建状态方程和观测方程为基础，计算最小均方误差来实现跟踪的最优线性递归滤波算法，通过递归行人的运动状态来预测行人轨迹的变化。

首先设定初始参数，读取视频序列。然后进行背景估计，产生初始化背景图像。然后依次读取视频序列，利用Kahnan滤波算法，根据上一帧估计的背景和当前帧数据得到当前帧的前景目标。然后对前景目标进行连通计算，检测出运动目标的轨迹。经典的卡尔曼滤波算法．只能对线性运动的行人实现跟踪，之后学者改进了卡尔曼滤波算法，能够实现对非线性运动的行人进行跟踪，计算量小，能实现实时跟踪，但是跟踪效果不理想。

（2）粒子滤波

粒子滤波的核心就是贝叶斯推理和重要性采样。粒子滤波可用于非线性非高斯模型，这是由于贝叶斯推理采用蒙特卡洛法，以某个时间点事件出现的频率表示其概率。通过一组粒子消宴世对整个模型的后验概率分布进行近似的表示，通过这个表示来估计整个非线性非高斯系统的状态。重要性采用就是通过粒子的置信度来赋予不同的权重，置信度高的粒子，赋予较大的权重，通过权重的分布形式表示相似程度。

（3）均值漂移（mean-shift）

Mean-shift算法属于核密度估计法。不必知道先验概率，密度函数值由采样点的特征空间计算。通过计算当前帧目标区域的像素特征值概率来描述目标模型，并对候选区域进行统一描述，使用相似的函数表示目标模型与候选模板之间的相似度，然后选择在具有相似函数值最大的候选模型中，您将获得关于目标模型的均值漂移向量，该向量表示目标从当前位置移动到下一个位置的向量。通过连续迭代地计算均值偏移矢量，行人跟踪算法将最终收敛到行人的实际位置，从而实现行人跟踪。

（二）判别式模型

判别模型与生成模型不同，行人跟踪被视为二分类问题。提取图像中的行人和背景信息，并用于训练分类器。通过分类将行人从图像背景中分离出来，以获取行人的当前位置。以行人区域为正样本，背景区域为负样本，通过机器学习算法对正样本和负样本进行训练，训练后的分类器用于在下一帧中找到相似度最高的区域，以完成行人轨迹更新。判别式模型不像生成式模型仅仅利用了行人的信息，还利用了背景信息，因此判别式模型的跟踪效果普遍优于生成式模型。

（1）基于相关滤波的跟踪算法

核相关滤波(KCF)算法是基于相关滤波的经典跟踪算法，具有优良的跟踪效果和跟踪速度。这是由于其采用了循环移位的方式来进行样本生产，用生成的样本来训练分类器，通过高斯核函数来计算当前帧行人与下一帧中所有候选目标之间的相似概率图，找到相似概率图最大的那个候选目标，就得到了行人的新位置。KCF算法为了提高跟踪精度，使用HOG特征对行人进行描述，同时结合了离散傅里叶变换来降低计算量。

（2）基于深度学习的跟踪算法

近年来，深度学习在图像和语音方面取得了较大的成果，因此有许多科研人员将深度学习与行人跟踪相结合，取得了比传统跟踪算法更好的性能。DLT就是一个基于深度学习的行人跟踪算法，利用深度模型自动编码器通过离线训练的方式，在大规模行人数据集上得到一个行人模型，然后在线对行人进行跟踪来微调模型。首先通过粒子滤波获取候选行人目标，然后利用自动编码器进行预测，最终得到行人的预测位置即最大输出值的候选行人目标位置。2015年提出的MDNet算法采用了分域训练的方式祥森。对于每个类别，一个单独的全连接层用于分类，并且全连接层前面的所有层都是共享，用于特征提取。2017年提出的HCFT算法使用深度学习对大量标定数据进行训练，得到强有力的特征表达模型，结合基于相关滤波的跟踪算法，用于解决在线进行跟踪过程中行人样本少、网络训练不充分的问题。此外，通过深度学习提取特征，利用数据关联的方法来实现跟踪的算法，其中最为着名的就JPDAF与MHT这两种方法。

⑤ 目标跟踪检测算法（四）——多目标扩展

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛导读】基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题，深度学习方法相比传统方法表现出极大的优势。与行人重识别问题紧密相关的是行人的多目标跟踪问题。

【嵌牛鼻子】深度多目标跟踪算法

【嵌牛提问】深度多目标跟踪算法有哪些？

【嵌牛正文】

第一阶段（概率统计最大化的追踪）

1）多假设多目标追踪算法（MHT，基于kalman在多目标上的拓展）

多假设跟踪算法(MHT)是非常经典的多目标跟踪算法，由Reid在对雷达信号的自动跟踪研究中提出，本质上是基于Kalman滤波跟踪算法在多目标跟踪问题中的扩展。

卡尔曼滤波实际上是一种贝叶斯推理的应用，通过历史关联的预测量和k时刻的预测量来计算后验概率：

关联假设的后验分布是历史累计概率密度的连乘，转化为对数形式，可以看出总体后验概率的对数是每一步观察似然和关联假设似然的求和。但是若同时出现多个轨迹的时候，则需要考虑可能存在的多个假设关联。

左图为k-3时刻三个检测观察和两条轨迹的可能匹配。对于这种匹配关系，可以继续向前预测两帧，如图右。得到一种三层的假设树结构，对于假设树根枝干的剪枝，得到k-3时刻的最终关联结果。随着可能性增加，假设组合会爆炸性增多，为此，只为了保留最大关联性，我们需要对其他的节点进行裁剪。下式为选择方程

实际上MHT不会单独使用，一般作为单目标追踪的扩展添加。

2）基于检测可信度的粒子滤波算法

这个算法分为两个步骤：

1、对每一帧的检测结果，利用贪心匹配算法与已有的对象轨迹进行关联。

其中tr表示一个轨迹，d是某一个检测，他们的匹配亲和度计算包含三个部分：在线更新的分类学习模型(d)，用来判断检测结果是不是属于轨迹tr; 轨迹的每个粒子与检测的匹配度，采用中心距离的高斯密度函数求和(d-p)表示；与检测尺寸大小相关的阈值函数g(tr,d)，表示检测与轨迹尺度的符合程度, 而α是预设的一个超参数。

计算出匹配亲和度矩阵之后，可以采用二部图匹配的Hungarian算法计算匹配结果。不过作者采用了近似的贪心匹配算法，即首先找到亲和度最大的那个匹配，然后删除这个亲和度，寻找下一个匹配，依次类推。贪心匹配算法复杂度是线性，大部分情况下，也能得到最优匹配结果。

2、利用关联结果，计算每个对象的粒子群权重，作为粒子滤波框架中的观察似然概率。

其中tr表示需要跟踪的对象轨迹，p是某个粒子。指示函数I(tr)表示第一步关联中，轨迹tr是不是关联到某个检测结果，当存在关联时，计算与关联的检测d 的高斯密度P{n}(p-d )；C{tr}§是对这个粒子的分类概率；§是粒子通过检测算法得到的检测可信度，(tr)是一个加权函数，计算如下：

3）基于马尔科夫决策的多目标跟踪算法

作者把目标跟踪看作为状态转移的过程，转移的过程用马尔科夫决策过程(MDP)建模。一个马尔科夫决策过程包括下面四个元素：(S, A, T(.),R(.))。其中S表示状态集合，A表示动作集合，T表示状态转移集合，R表示奖励函数集合。一个决策是指根据状态s确定动作a, 即 π: SA。一个对象的跟踪过程包括如下决策过程：

从Active状态转移到Tracked或者Inactive状态：即判断新出现的对象是否是真。

从Tracked状态转移到Tracked或者Lost状态：即判断对象是否是持续跟踪或者暂时处于丢失状态。

从Lost状态转移到Lost或者Tracked或者Inactive状态：即判断丢失对象是否重新被跟踪，被终止，或者继续处于丢失状态。

作者设计了三个奖励函数来描述上述决策过程：

第一个是：

即判断新出现的对象是否为真，y(a)=1时表示转移到跟踪状态，反之转移到终止状态。这是一个二分类问题，采用2类SVM模型学习得到。这里用了5维特征向量：包括x-y坐标、宽、高和检测的分数。

第二个是：

这个函数用来判断跟踪对象下一时刻状态是否是出于继续跟踪，还是处于丢失，即跟踪失败。这里作者用了5个历史模板，每个模板和当前图像块做光流匹配，emedFB表示光流中心偏差，表示平均重合率。和是阈值。

第三个是：

这个函数用来判断丢失对象是否重新跟踪，或者终止，或者保持丢失状态不变。这里当丢失状态连续保持超过 (=50)时，则转向终止，其他情况下通过计算M个检测匹配，来判断是否存在最优的匹配使上式(3-14)奖励最大，并大于0。这里涉及两个问题如何设计特征以及如何学习参数。这里作者构造了12维与模板匹配相关的统计值。而参数的学习采用强化学习过程，主要思想是在犯错时候更新二类分类器值。

第二阶段深度学习应用

1）基于对称网络的多目标跟踪算法

关于Siamese网络在单目标跟踪深度学习中有了介绍，在这里不再介绍，可以向前参考。

2）基于最小多割图模型的多目标跟踪算法

上述算法中为了匹配两个检测采用LUV图像格式以及光流图像。Tang等人在文献中发现采用深度学习计算的类光流特征(DeepMatching)，结合表示能力更强的模型也可以得到效果很好的多目标跟踪结果。

基于DeepMatching特征，可以构造下列5维特征：

其中MI,MU表示检测矩形框中匹配的点的交集大小以及并集大小，ξv和ξw表示检测信任度。利用这5维特征可以学习一个逻辑回归分类器。

同样，为了计算边的匹配代价，需要设计匹配特征。这里，作者采用结合姿态对齐的叠加Siamese网络计算匹配相似度，如图9，采用的网络模型StackNetPose具有最好的重识别性能。

综合StackNetPose网络匹配信任度、深度光流特征(deepMatching)和时空相关度，作者设计了新的匹配特征向量。类似于[2], 计算逻辑回归匹配概率。最终的跟踪结果取得了非常突出的进步。在MOT2016测试数据上的结果如下表：

3）通过时空域关注模型学习多目标跟踪算法

除了采用解决目标重识别问题的深度网络架构学习检测匹配特征，还可以根据多目标跟踪场景的特点，设计合适的深度网络模型来学习检测匹配特征。Chu等人对行人多目标跟踪问题中跟踪算法发生漂移进行统计分析，发现不同行人发生交互时，互相遮挡是跟踪算法产生漂移的重要原因[4]。如图10。

在这里插入图片描述

针对这个问题，文献[4]提出了基于空间时间关注模型(STAM)用于学习遮挡情况，并判别可能出现的干扰目标。如图11，空间关注模型用于生成遮挡发生时的特征权重，当候选检测特征加权之后，通过分类器进行选择得到估计的目标跟踪结果，时间关注模型加权历史样本和当前样本，从而得到加权的损失函数，用于在线更新目标模型。

该过程分三步，第一步是学习特征可见图：

第二步是根据特征可见图，计算空间关注图(Spatial Attention):

其中fatt是一个局部连接的卷积和打分操作。wtji是学习到的参数。

第三步根据空间注意图加权原特征图：

对生成的加权特征图进行卷积和全连接网络操作，生成二元分类器判别是否是目标自身。最后用得到分类打分选择最优的跟踪结果。

4）基于循环网络判别融合表观运动交互的多目标跟踪算法

上面介绍的算法采用的深度网络模型都是基于卷积网络结构，由于目标跟踪是通过历史轨迹信息来判断新的目标状态，因此，设计能够记忆历史信息并根据历史信息来学习匹配相似性度量的网络结构来增强多目标跟踪的性能也是比较可行的算法框架。

考虑从三个方面特征计算轨迹历史信息与检测的匹配：表观特征，运动特征，以及交互模式特征。这三个方面的特征融合以分层方式计算。

在底层的特征匹配计算中，三个特征都采用了长短期记忆模型(LSTM)。对于表观特征，首先采用VGG-16卷积网络生成500维的特征ϕtA，以这个特征作为LSTM的输入计算循环。

对于运动特征，取相对位移vit为基本输入特征，直接输入LSTM模型计算没时刻的输出ϕi，对于下一时刻的检测同样计算相对位移vjt+1,通过全连接网络计算特征ϕj，类似于表观特征计算500维特征ϕm，并利用二元匹配分类器进行网络的预训练。

对于交互特征，取以目标中心位置周围矩形领域内其他目标所占的相对位置映射图作为LSTM模型的输入特征，计算输出特征ϕi，对于t+1时刻的检测计算类似的相对位置映射图为特征，通过全连接网络计算特征ϕj，类似于运动模型，通过全连接网络计算500维特征ϕI，进行同样的分类训练。

当三个特征ϕA，ϕM，ϕI都计算之后拼接为完整的特征，输入到上层的LSTM网络，对输出的向量进行全连接计算，然后用于匹配分类，匹配正确为1，否则为0。对于最后的网络结构，还需要进行微调，以优化整体网络性能。最后的分类打分看作为相似度用于检测与轨迹目标的匹配计算。最终的跟踪框架采用在线的检测与轨迹匹配方法进行计算。

5）基于双线性长短期循环网络模型的多目标跟踪算法

在对LSTM中各个门函数的设计进行分析之后，Kim等人认为仅仅用基本的LSTM模型对于表观特征并不是最佳的方案，在文献[10]中，Kim等人设计了基于双线性LSTM的表观特征学习网络模型。

除了利用传统的LSTM进行匹配学习，或者类似[5]中的算法，拼接LSTM输出与输入特征，作者设计了基于乘法的双线性LSTM模型，利用LSTM的隐含层特征(记忆)信息与输入的乘积作为特征，进行匹配分类器的学习。

这里对于隐含层特征ht-1,必须先进行重新排列(reshape)操作，然后才能乘以输入的特征向量xt。

其中f表示非线性激活函数，mt是新的特征输入。而原始的检测图像采用ResNet50提取2048维的特征，并通过全连接降为256维。下表中对于不同网络结构、网络特征维度、以及不同LSTM历史长度时，表观特征的学习对跟踪性能的影响做了验证。

可以看出采用双线性LSTM(bilinear LSTM)的表观特征性能最好，此时的历史相关长度最佳为40，这个值远远超过文献[5]中的2-4帧历史长度。相对来说40帧历史信息影响更接近人类的直觉。

⑥ 目标跟踪检测算法（一）——传统方法

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893214

【嵌牛导读】目标跟踪算法研究难点与挑战在于实际复杂的应用环境、背景相似干扰、光照条件的变化、遮挡等外界因素以及目标姿态变化，外观变形，尺度变化、平面外旋转、平面内旋转、出视野、快速运动和运动模糊等。而且当目标跟踪算法投入实际应用时，不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题，才使得算法研究充满着难点和挑战。

【嵌牛鼻子】目标跟踪算法，传统算法

【嵌牛提问】利用目标跟踪检测算法要达到何目的?第一阶段的单目标追踪算法包括什么?具体步骤有哪些?它们有何特点?

【嵌牛正文】

第一阶段

目标跟踪分为两个部分，一个是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一个是对目标特征进行跟踪。

1、静态背景

1）背景差：对背景的光照变化、噪声干扰以及周期性运动等进行建模。通过当前帧减去背景图来捕获运动物体的过程。

2）帧差：由于场景中的目标在运动，目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算，不同帧对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动目标，从而实现目标的检测功能。

与二帧差分法不同的是，三帧差分法（交并运算）去除了重影现象，可以检测出较为完整的物体。帧间差分法的原理简单，计算量小，能够快速检测出场景中的运动目标。但帧间差分法检测的目标不完整，内部含有“空洞”，这是因为运动目标在相邻帧之间的位置变化缓慢，目标内部在不同帧图像中相重叠的部分很难检测出来。帧间差分法通常不单独用在目标检测中，往往与其它的检测算法结合使用。

3）Codebook

算法为图像中每一个像素点建立一个码本，每个码本可以包括多个码元（对应阈值范围），在学习阶段，对当前像素点进行匹配，如果该像素值在某个码元的学习阈值内，也就是说与之前出现过的某种历史情况偏离不大，则认为该像素点符合背景特征，需要更新对应点的学习阈值和检测阈值。

如果新来的像素值与每个码元都不匹配，则可能是由于动态背景导致，这种情况下，我们需要为其建立一个新的码元。每个像素点通过对应多个码元，来适应复杂的动态背景。

在应用时，每隔一段时间选择K帧通过更新算法建立CodeBook背景模型，并且删除超过一段时间未使用的码元。

4）GMM

混合高斯模型（Gaussian of Micture Models，GMM）是较常用的背景去除方法之一（其他的还有均值法、中值法、滑动平均滤波等）。

首先我们需要了解单核高斯滤波的算法步骤：

混合高斯建模GMM（Gaussian Mixture Model）作为单核高斯背景建模的扩展，是目前使用最广泛的一种方法，GMM将背景模型描述为多个分布，每个像素的R、G、B三个通道像素值的变化分别由一个混合高斯模型分布来刻画，符合其中一个分布模型的像素即为背景像素。作为最常用的一种背景建模方法，GMM有很多改进版本，比如利用纹理复杂度来更新差分阈值，通过像素变化的剧烈程度来动态调整学习率等。

5）ViBe（2011）

ViBe算法主要特点是随机背景更新策略，这和GMM有很大不同。其步骤和GMM类似。具体的思想就是为每个像素点存储了一个样本集，样本集中采样值就是该像素点过去的像素值和其邻居点的像素值，然后将每一个新的像素值和样本集进行比较来判断是否属于背景点。

其中pt（x）为新帧的像素值，R为设定值，p1、p2、p3….为样本集中的像素值，以pt（x）为圆心R为半径的圆被认为成一个集，当样本集与此集的交集大于设定的阈值#min时，可认为此为背景像素点（交集越大，表示新像素点与样本集越相关）。我们可以通过改变#min的值与R的值来改变模型的灵敏度。

Step1：初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设，每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律，邻域的范围要足够大。当输入第一帧图像时，即t=0时，像素的背景模型。其中，NG（x,y）表示空域上相邻的像素值，f(xi,yi)表示当前点的像素值。在N次的初始化的过程中，NG（x,y）中的像素点(xi,yi)被选中的可能次数为L=1,2,3,…,N。

Step2：对后续的图像序列进行前景目标分割操作。当t=k时，像素点(x,y)的背景模型为BKm(x,y)，像素值为fk(x,y)。按照下面判断该像素值是否为前景。这里上标r是随机选的；T是预先设置好的阈值。当fk(x,y)满足符合背景#N次时，我们认为像素点fk(x,y)为背景，否则为前景。

Step3：ViBe算法的更新在时间和空间上都具有随机性。每一个背景点有1/ φ的概率去更新自己的模型样本值，同时也有1/ φ的概率去更新它的邻居点的模型样本值。更新邻居的样本值利用了像素值的空间传播特性，背景模型逐渐向外扩散，这也有利于Ghost区域的更快的识别。同时当前景点计数达到临界值时将其变为背景，并有1/ φ的概率去更新自己的模型样本值（为了减少缓慢移动物体的影响和摄像机的抖动）。

可以有如下总结，ViBe中的每一个像素点在更新的时候都有一个时间和空间上随机影响的范围，这个范围很小，大概3x3的样子，这个是考虑到摄像头抖动时会有坐标的轻微来回变化，这样虽然由于ViBe的判别方式仍认为是背景点，但是也会对后面的判别产生影响，为了保证空间的连续性，随机更新减少了这个影响。而在样本值保留在样本集中的概率随着时间的增大而变小，这就保证了像素模型在时间上面的延续特性。

6）光流

光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式。它是2D矢量场，其中每个矢量是一个位移矢量，显示点从第一帧到第二帧的移动。

光流实际上是一种特征点跟踪方法，其计算的为向量，基于三点假设：

1、场景中目标的像素在帧间运动时亮度（像素值或其衍生值）不发生变化；2、帧间位移不能太大；3、同一表面上的邻近点都在做相同的运动；

光流跟踪过程：1）对一个连续视频帧序列进行处理；2）对每一帧进行前景目标检测；3）对某一帧出现的前景目标，找出具有代表性的特征点（Harris角点）；4）对于前后帧做像素值比较，寻找上一帧在当前帧中的最佳位置，从而得到前景目标在当前帧中的位置信息；5）重复上述步骤，即可实现目标跟踪

2、运动场（分为相机固定，但是视角变化和相机是运动的）

1）运动建模（如视觉里程计运动模型、速度运动模型等）

运动学是对进行刚性位移的相机进行构型，一般通过6个变量来描述，3个直角坐标，3个欧拉角（横滚、俯仰、偏航）。

Ⅰ、对相机的运动建模

由于这个不是我们本次所要讨论的重点，但是在《概率机器人》一书中提出了很多很好的方法，相机的运动需要对图像内的像素做位移矩阵和旋转矩阵的坐标换算。除了对相机建立传统的速度运动模型外，也可以用视觉里程计等通关过置信度的更新来得到概率最大位置。

Ⅱ、对于跟踪目标的运动建模

该方法需要提前通过先验知识知道所跟踪的目标对象是什么，比如车辆、行人、人脸等。通过对要跟踪的目标进行建模，然后再利用该模型来进行实际的跟踪。该方法必须提前知道要跟踪的目标对象是什么，然后再去跟踪指定的目标，这是它的局限性，因而其推广性相对比较差。（比如已知跟踪的物体是羽毛球，那很容易通过前几帧的取点，来建立整个羽毛球运动的抛物线模型）

2）核心搜索算法（常见的预测算法有Kalman(卡尔曼)滤波、扩展卡尔曼滤波、粒子滤波）

Ⅰ、Kalman 滤波

Kalman滤波器是通过前一状态预测当前状态，并使用当前观测状态进行校正，从而保证输出状态平稳变化，可有效抵抗观测误差。因此在运动目标跟踪中也被广泛使用。

在视频处理的运动目标跟踪里，每个目标的状态可表示为(x,y,w,h)，x和y表示目标位置，w和h表示目标宽高。一般地认为目标的宽高是不变的，而其运动速度是匀速，那么目标的状态向量就应该扩展为(x,y,w,h,dx,dy)，其中dx和dy是目标当前时刻的速度。通过kalman滤波器来估计每个时刻目标状态的大致过程为：

对视频进行运动目标检测，通过简单匹配方法来给出目标的第一个和第二个状态，从第三个状态开始，就先使用kalman滤波器预测出当前状态，再用当前帧图像的检测结果作为观测值输入给kalman滤波器，得到的校正结果就被认为是目标在当前帧的真实状态。(其中，Zt为测量值，为预测值，ut为控制量，Kt为增益。)

Ⅱ、扩展卡尔曼滤波（EKF）和无迹卡尔曼滤波（UKF）

由于卡尔曼滤波的假设为线性问题，无法直接用在非线性问题上，EKF和UKF解决了这个问题（这个线性问题体现在用测量量来计算预测量的过程中）。EKF是通过构建线性函数g(x)，与非线性函数相切，并对每一时刻所求得的g（x）做KF，如下图所示。

UKF与EKF去求解雅可比矩阵拟合线性方程的方法不同，通过对那个先验分布中的采集点，来线性化随机变量的非线性函数。与EKF所用的方法不同，UKF产生的高斯分布和实际高斯分布更加接近，其引起的近似误差也更小。

Ⅲ、粒子滤波

1、初始状态：基于粒子滤波的目标追踪方法是一种生成式跟踪方法，所以要有一个初始化的阶段。对于第一帧图像，人工标定出待检测的目标，对该目标区域提出特征；

2、搜索阶段：现在已经知道了目标的特征，然后就在目标的周围撒点(particle), 如：a)均匀的撒点;b)按高斯分布撒点，就是近的地方撒得多，远的地方撒的少。论文里使用的是后一种方法。每一个粒子都计算所在区域内的颜色直方图，如初始化提取特征一样，然后对所有的相似度进行归一化。文中相似性使用的是巴氏距离；

3、重采样：根据粒子权重对粒子进行筛选，筛选过程中，既要大量保留权重大的粒子，又要有一小部分权重小的粒子；

4、状态转移：将重采样后的粒子带入状态转移方程得到新的预测粒子；

5、测量及更新：对目标点特征化，并计算各个粒子和目标间的巴氏距离，更新粒子的权重；

6、决策阶段：每个粒子都获得一个和目标的相似度，相似度越高，目标在该范围出现的可能性越高，将保留的所有粒子通过相似度加权后的结果作为目标可能的位置。

3）Meanshift算法

MeanShift算法属于核密度估计法，它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据，直方图法通常把数据的值域分成若干相等的区间，数据按区间分成若干组，每组数据的个数与总参数个数的比率就是每个单元的概率值；核密度估计法的原理相似于直方图法，只是多了一个用于平滑数据的核函数。采用核函数估计法，在采样充分的情况下，能够渐进地收敛于任意的密度函数，即可以对服从任何分布的数据进行密度估计。

Meanshift算法步骤

1、通过对初始点（或者上一帧的目标点）为圆心，绘制一个半径为R的圆心，寻找特征和该点相似的点所构成的向量；

2、所有向量相加，可以获得一个向量叠加，这个向量指向特征点多的方向；

3、取步骤二的向量终点为初始点重复步骤一、二，直到得到的向量小于一定的阈值，也就是说明当前位置是特征点密度最密集的地方，停止迭代，认为该点为当前帧的目标点；

4）Camshift算法

Camshift算法是MeanShift算法的改进，称为连续自适应的MeanShift算法。Camshift 是由Meanshift 推导而来 Meanshift主要是用在单张影像上，但是独立一张影像分析对追踪而言并无意义，Camshift 就是利用MeanShift的方法，对影像串行进行分析。

1、首先在影像串行中选择目标区域。

2、计算此区域的颜色直方图（特征提取）。

3、用MeanShift算法来收敛欲追踪的区域。

4、通过目标点的位置和向量信息计算新的窗口大小，并标示之。

5、以此为参数重复步骤三、四。

Camshift 关键就在于当目标的大小发生改变的时候，此算法可以自适应调整目标区域继续跟踪。

3、小结

第一阶段的单目标追踪算法基本上都是传统方法，计算量小，在嵌入式等设备中落地较多，opencv中也预留了大量的接口。通过上面的两节的介绍，我们不难发现，目标检测算法的步骤分为两部分，一部分是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一部分是对目标特征进行跟踪，如上文所提及的方法。所以目标检测方法的发展，也可总结为两个方面，一个是如何去获得更加具有区分性的可跟踪的稳定特征，另一个是如何建立帧与帧之间的数据关联，保证跟踪目标是正确的。

随着以概率为基础的卡尔曼滤波、粒子滤波或是以Meanshift为代表向量叠加方法在目标检测的运用，使得目标检测不再需要假设自身的一个状态为静止的，而是可以是运动的，更加符合复杂场景中的目标跟踪。

⑦ 目标跟踪算法

一般将目标跟踪分为两个部分：特征提取、目标跟踪算法。其中提取的目标特征大致可以分为以下几种：
1）以目标区域的颜色直方图作为特征，颜色特征具有旋转不变性，且不受目标物大小和形状的变化影响，在颜色空间中分布大致相同。
2）目标的轮廓特征，算法速度较快，并且在目标有小部分遮挡的情况下同样有较好的效果。

(7)kalman目标跟踪算法原理扩展阅读

目标跟踪的算法大致可以分为以下四种：

1) 均值漂移算法，即meanshift算法，此方法可以通过较少的迭代次数快速找到与目标最相似的位置，效果也挺好的。但是其不能解决目标的遮挡问题并且不能适应运动目标的的形状和大小变化等。对其改进的算法有camshift算法，此方法可以适应运动目标的大小形状的改变，具有较好的跟踪效果，但当背景色和目标颜色接近时，容易使目标的区域变大，最终有可能导致目标跟踪丢失。

2) 基于Kalman滤波的目标跟踪，该方法是认为物体的运动模型服从高斯模型，来对目标的运动状态进行预测，然后通过与观察模型进行对比，根据误差来更新运动目标的状态，该算法的精度不是特高。

3) 基于粒子滤波的目标跟踪，每次通过当前的跟踪结果重采样粒子的分布，然后根据粒子的分布对粒子进行扩散，再通过扩散的结果来重新观察目标的状态，最后归一化更新目标的`状态。此算法的特点是跟踪速度特别快，而且能解决目标的部分遮挡问题，在实际工程应用过程中越来越多的被使用。

4) 基于对运动目标建模的方法。该方法需要提前通过先验知识知道所跟踪的目标对象是什么，比如车辆、行人、人脸等。通过对要跟踪的目标进行建模，然后再利用该模型来进行实际的跟踪。该方法必须提前知道要跟踪的目标对象是什么，然后再去跟踪指定的目标，这是它的局限性，因而其推广性相对比较差。

导航:首页 > 源码编译 > kalman目标跟踪算法原理

kalman目标跟踪算法原理

(7)kalman目标跟踪算法原理扩展阅读

与kalman目标跟踪算法原理相关的资料