1. 目标跟踪检测算法(一)——传统方法
姓名:刘帆;学号:20021210609;学院:电子工程学院
https://blog.csdn.net/qq_34919792/article/details/89893214
【嵌牛导读】目标跟踪算法研究难点与挑战在于实际复杂的应用环境 、背景相似干扰、光照条件的变化、遮挡等外界因素以及目标姿态变化,外观变形,尺度变化、平面外旋转、平面内旋转、出视野、快速运动和运动模糊等。而且当目标跟踪算法投入实际应用时,不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题,才使得算法研究充满着难点和挑战。
【嵌牛鼻子】目标跟踪算法,传统算法
【嵌牛提问】利用目标跟踪检测算法要达到何目的?第一阶段的单目标追踪算法包括什么?具体步骤有哪些?它们有何特点?
【嵌牛正文】
第一阶段
目标跟踪分为两个部分,一个是对指定目标寻找可以跟踪的特征,常用的有颜色,轮廓,特征点,轨迹等,另一个是对目标特征进行跟踪。
1、静态背景
1)背景差: 对背景的光照变化、噪声干扰以及周期性运动等进行建模。通过当前帧减去背景图来捕获运动物体的过程。
2)帧差: 由于场景中的目标在运动,目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算,不同帧对应的像素点相减,判断灰度差的绝对值,当绝对值超过一定阈值时,即可判断为运动目标,从而实现目标的检测功能。
与二帧差分法不同的是,三帧差分法(交并运算)去除了重影现象,可以检测出较为完整的物体。帧间差分法的原理简单,计算量小,能够快速检测出场景中的运动目标。但帧间差分法检测的目标不完整,内部含有“空洞”,这是因为运动目标在相邻帧之间的位置变化缓慢,目标内部在不同帧图像中相重叠的部分很难检测出来。帧间差分法通常不单独用在目标检测中,往往与其它的检测算法结合使用。
3)Codebook
算法为图像中每一个像素点建立一个码本,每个码本可以包括多个码元(对应阈值范围),在学习阶段,对当前像素点进行匹配,如果该像素值在某个码元的学习阈值内,也就是说与之前出现过的某种历史情况偏离不大,则认为该像素点符合背景特征,需要更新对应点的学习阈值和检测阈值。
如果新来的像素值与每个码元都不匹配,则可能是由于动态背景导致,这种情况下,我们需要为其建立一个新的码元。每个像素点通过对应多个码元,来适应复杂的动态背景。
在应用时,每隔一段时间选择K帧通过更新算法建立CodeBook背景模型,并且删除超过一段时间未使用的码元。
4)GMM
混合高斯模型(Gaussian of Micture Models,GMM)是较常用的背景去除方法之一(其他的还有均值法、中值法、滑动平均滤波等)。
首先我们需要了解单核高斯滤波的算法步骤:
混合高斯建模GMM(Gaussian Mixture Model)作为单核高斯背景建模的扩展,是目前使用最广泛的一种方法,GMM将背景模型描述为多个分布,每个像素的R、G、B三个通道像素值的变化分别由一个混合高斯模型分布来刻画,符合其中一个分布模型的像素即为背景像素。作为最常用的一种背景建模方法,GMM有很多改进版本,比如利用纹理复杂度来更新差分阈值,通过像素变化的剧烈程度来动态调整学习率等。
5)ViBe(2011)
ViBe算法主要特点是随机背景更新策略,这和GMM有很大不同。其步骤和GMM类似。具体的思想就是为每个像素点存储了一个样本集,样本集中采样值就是该像素点过去的像素值和其邻居点的像素值,然后将每一个新的像素值和样本集进行比较来判断是否属于背景点。
其中pt(x)为新帧的像素值,R为设定值,p1、p2、p3….为样本集中的像素值,以pt(x)为圆心R为半径的圆被认为成一个集,当样本集与此集的交集大于设定的阈值#min时,可认为此为背景像素点(交集越大,表示新像素点与样本集越相关)。我们可以通过改变#min的值与R的值来改变模型的灵敏度。
Step1:初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设,每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律,邻域的范围要足够大。当输入第一帧图像时,即t=0时,像素的背景模型。其中,NG(x,y)表示空域上相邻的像素值,f(xi,yi)表示当前点的像素值。在N次的初始化的过程中,NG(x,y)中的像素点(xi,yi)被选中的可能次数为L=1,2,3,…,N。
Step2:对后续的图像序列进行前景目标分割操作。当t=k时,像素点(x,y)的背景模型为BKm(x,y),像素值为fk(x,y)。按照下面判断该像素值是否为前景。这里上标r是随机选的;T是预先设置好的阈值。当fk(x,y)满足符合背景#N次时,我们认为像素点fk(x,y)为背景,否则为前景。
Step3:ViBe算法的更新在时间和空间上都具有随机性。每一个背景点有1/ φ的概率去更新自己的模型样本值,同时也有1/ φ的概率去更新它的邻居点的模型样本值。更新邻居的样本值利用了像素值的空间传播特性,背景模型逐渐向外扩散,这也有利于Ghost区域的更快的识别。同时当前景点计数达到临界值时将其变为背景,并有1/ φ的概率去更新自己的模型样本值(为了减少缓慢移动物体的影响和摄像机的抖动)。
可以有如下总结,ViBe中的每一个像素点在更新的时候都有一个时间和空间上随机影响的范围,这个范围很小,大概3x3的样子,这个是考虑到摄像头抖动时会有坐标的轻微来回变化,这样虽然由于ViBe的判别方式仍认为是背景点,但是也会对后面的判别产生影响,为了保证空间的连续性,随机更新减少了这个影响。而在样本值保留在样本集中的概率随着时间的增大而变小,这就保证了像素模型在时间上面的延续特性。
6)光流
光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式。它是2D矢量场,其中每个矢量是一个位移矢量,显示点从第一帧到第二帧的移动。
光流实际上是一种特征点跟踪方法,其计算的为向量,基于三点假设:
1、场景中目标的像素在帧间运动时亮度(像素值或其衍生值)不发生变化;2、帧间位移不能太大;3、同一表面上的邻近点都在做相同的运动;
光流跟踪过程:1)对一个连续视频帧序列进行处理;2)对每一帧进行前景目标检测;3)对某一帧出现的前景目标,找出具有代表性的特征点(Harris角点);4)对于前后帧做像素值比较,寻找上一帧在当前帧中的最佳位置,从而得到前景目标在当前帧中的位置信息;5)重复上述步骤,即可实现目标跟踪
2、运动场(分为相机固定,但是视角变化和相机是运动的)
1)运动建模(如视觉里程计运动模型、速度运动模型等)
运动学是对进行刚性位移的相机进行构型,一般通过6个变量来描述,3个直角坐标,3个欧拉角(横滚、俯仰、偏航)。
Ⅰ、对相机的运动建模
由于这个不是我们本次所要讨论的重点,但是在《概率机器人》一书中提出了很多很好的方法,相机的运动需要对图像内的像素做位移矩阵和旋转矩阵的坐标换算。除了对相机建立传统的速度运动模型外,也可以用视觉里程计等通关过置信度的更新来得到概率最大位置。
Ⅱ、对于跟踪目标的运动建模
该方法需要提前通过先验知识知道所跟踪的目标对象是什么,比如车辆、行人、人脸等。通过对要跟踪的目标进行建模,然后再利用该模型来进行实际的跟踪。该方法必须提前知道要跟踪的目标对象是什么,然后再去跟踪指定的目标,这是它的局限性,因而其推广性相对比较差。(比如已知跟踪的物体是羽毛球,那很容易通过前几帧的取点,来建立整个羽毛球运动的抛物线模型)
2)核心搜索算法(常见的预测算法有Kalman(卡尔曼)滤波、扩展卡尔曼滤波、粒子滤波)
Ⅰ、Kalman 滤波
Kalman滤波器是通过前一状态预测当前状态,并使用当前观测状态进行校正,从而保证输出状态平稳变化,可有效抵抗观测误差。因此在运动目标跟踪中也被广泛使用。
在视频处理的运动目标跟踪里,每个目标的状态可表示为(x,y,w,h),x和y表示目标位置,w和h表示目标宽高。一般地认为目标的宽高是不变的,而其运动速度是匀速,那么目标的状态向量就应该扩展为(x,y,w,h,dx,dy),其中dx和dy是目标当前时刻的速度。通过kalman滤波器来估计每个时刻目标状态的大致过程为:
对视频进行运动目标检测,通过简单匹配方法来给出目标的第一个和第二个状态,从第三个状态开始,就先使用kalman滤波器预测出当前状态,再用当前帧图像的检测结果作为观测值输入给kalman滤波器,得到的校正结果就被认为是目标在当前帧的真实状态。(其中,Zt为测量值,为预测值,ut为控制量,Kt为增益。)
Ⅱ、扩展卡尔曼滤波(EKF)和无迹卡尔曼滤波(UKF)
由于卡尔曼滤波的假设为线性问题,无法直接用在非线性问题上,EKF和UKF解决了这个问题(这个线性问题体现在用测量量来计算预测量的过程中)。EKF是通过构建线性函数g(x),与非线性函数相切,并对每一时刻所求得的g(x)做KF,如下图所示。
UKF与EKF去求解雅可比矩阵拟合线性方程的方法不同,通过对那个先验分布中的采集点,来线性化随机变量的非线性函数。与EKF所用的方法不同,UKF产生的高斯分布和实际高斯分布更加接近,其引起的近似误差也更小。
Ⅲ、粒子滤波
1、初始状态:基于粒子滤波的目标追踪方法是一种生成式跟踪方法,所以要有一个初始化的阶段。对于第一帧图像,人工标定出待检测的目标,对该目标区域提出特征;
2、搜索阶段:现在已经知道了目标的特征,然后就在目标的周围撒点(particle), 如:a)均匀的撒点;b)按高斯分布撒点,就是近的地方撒得多,远的地方撒的少。论文里使用的是后一种方法。每一个粒子都计算所在区域内的颜色直方图,如初始化提取特征一样,然后对所有的相似度进行归一化。文中相似性使用的是巴氏距离;
3、重采样:根据粒子权重对粒子进行筛选,筛选过程中,既要大量保留权重大的粒子,又要有一小部分权重小的粒子;
4、状态转移:将重采样后的粒子带入状态转移方程得到新的预测粒子;
5、测量及更新:对目标点特征化,并计算各个粒子和目标间的巴氏距离,更新粒子的权重;
6、决策阶段:每个粒子都获得一个和目标的相似度,相似度越高,目标在该范围出现的可能性越高,将保留的所有粒子通过相似度加权后的结果作为目标可能的位置。
3)Meanshift算法
MeanShift算法属于核密度估计法,它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据,直方图法通常把数据的值域分成若干相等的区间,数据按区间分成若干组,每组数据的个数与总参数个数的比率就是每个单元的概率值;核密度估计法的原理相似于直方图法,只是多了一个用于平滑数据的核函数。采用核函数估计法,在采样充分的情况下,能够渐进地收敛于任意的密度函数,即可以对服从任何分布的数据进行密度估计。
Meanshift算法步骤
1、通过对初始点(或者上一帧的目标点)为圆心,绘制一个半径为R的圆心,寻找特征和该点相似的点所构成的向量;
2、所有向量相加,可以获得一个向量叠加,这个向量指向特征点多的方向;
3、取步骤二的向量终点为初始点重复步骤一、二,直到得到的向量小于一定的阈值,也就是说明当前位置是特征点密度最密集的地方,停止迭代,认为该点为当前帧的目标点;
4)Camshift算法
Camshift算法是MeanShift算法的改进,称为连续自适应的MeanShift算法。Camshift 是由Meanshift 推导而来 Meanshift主要是用在单张影像上,但是独立一张影像分析对追踪而言并无意义,Camshift 就是利用MeanShift的方法,对影像串行进行分析。
1、首先在影像串行中选择目标区域。
2、计算此区域的颜色直方图(特征提取)。
3、用MeanShift算法来收敛欲追踪的区域。
4、通过目标点的位置和向量信息计算新的窗口大小,并标示之。
5、以此为参数重复步骤三、四。
Camshift 关键就在于当目标的大小发生改变的时候,此算法可以自适应调整目标区域继续跟踪。
3、小结
第一阶段的单目标追踪算法基本上都是传统方法,计算量小,在嵌入式等设备中落地较多,opencv中也预留了大量的接口。通过上面的两节的介绍,我们不难发现,目标检测算法的步骤分为两部分,一部分是对指定目标寻找可以跟踪的特征,常用的有颜色,轮廓,特征点,轨迹等,另一部分是对目标特征进行跟踪,如上文所提及的方法。所以目标检测方法的发展,也可总结为两个方面,一个是如何去获得更加具有区分性的可跟踪的稳定特征,另一个是如何建立帧与帧之间的数据关联,保证跟踪目标是正确的。
随着以概率为基础的卡尔曼滤波、粒子滤波或是以Meanshift为代表向量叠加方法在目标检测的运用,使得目标检测不再需要假设自身的一个状态为静止的,而是可以是运动的,更加符合复杂场景中的目标跟踪。
2. 目标跟踪检测算法(四)——多目标扩展
姓名:刘帆;学号:20021210609;学院:电子工程学院
https://blog.csdn.net/qq_34919792/article/details/89893665
【嵌牛导读】基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题,深度学习方法相比传统方法表现出极大的优势。与行人重识别问题紧密相关的是行人的多目标跟踪问题。
【嵌牛鼻子】深度多目标跟踪算法
【嵌牛提问】深度多目标跟踪算法有哪些?
【嵌牛正文】
第一阶段(概率统计最大化的追踪)
1)多假设多目标追踪算法(MHT,基于kalman在多目标上的拓展)
多假设跟踪算法(MHT)是非常经典的多目标跟踪算法,由Reid在对雷达信号的自动跟踪研究中提出,本质上是基于Kalman滤波跟踪算法在多目标跟踪问题中的扩展。
卡尔曼滤波实际上是一种贝叶斯推理的应用,通过历史关联的预测量和k时刻的预测量来计算后验概率:
关联假设的后验分布是历史累计概率密度的连乘,转化为对数形式,可以看出总体后验概率的对数是每一步观察似然和关联假设似然的求和。但是若同时出现多个轨迹的时候,则需要考虑可能存在的多个假设关联。
左图为k-3时刻三个检测观察和两条轨迹的可能匹配。对于这种匹配关系,可以继续向前预测两帧,如图右。得到一种三层的假设树结构,对于假设树根枝干的剪枝,得到k-3时刻的最终关联结果。随着可能性增加,假设组合会爆炸性增多,为此,只为了保留最大关联性,我们需要对其他的节点进行裁剪。下式为选择方程
实际上MHT不会单独使用,一般作为单目标追踪的扩展添加。
2)基于检测可信度的粒子滤波算法
这个算法分为两个步骤:
1、对每一帧的检测结果,利用贪心匹配算法与已有的对象轨迹进行关联。
其中tr表示一个轨迹,d是某一个检测,他们的匹配亲和度计算包含三个部分:在线更新的分类学习模型(d),用来判断检测结果是不是属于轨迹tr; 轨迹的每个粒子与检测的匹配度,采用中心距离的高斯密度函数求和(d-p)表示;与检测尺寸大小相关的阈值函数g(tr,d),表示检测与轨迹尺度的符合程度, 而α是预设的一个超参数。
计算出匹配亲和度矩阵之后,可以采用二部图匹配的Hungarian算法计算匹配结果。不过作者采用了近似的贪心匹配算法,即首先找到亲和度最大的那个匹配,然后删除这个亲和度,寻找下一个匹配,依次类推。贪心匹配算法复杂度是线性,大部分情况下,也能得到最优匹配结果。
2、利用关联结果,计算每个对象的粒子群权重,作为粒子滤波框架中的观察似然概率。
其中tr表示需要跟踪的对象轨迹,p是某个粒子。指示函数I(tr)表示第一步关联中,轨迹tr是不是关联到某个检测结果,当存在关联时,计算与关联的检测d 的高斯密度P{n}(p-d );C{tr}§是对这个粒子的分类概率;§是粒子通过检测算法得到的检测可信度,(tr)是一个加权函数,计算如下:
3)基于马尔科夫决策的多目标跟踪算法
作者把目标跟踪看作为状态转移的过程,转移的过程用马尔科夫决策过程(MDP)建模。一个马尔科夫决策过程包括下面四个元素:(S, A, T(.),R(.))。其中S表示状态集合,A表示动作集合,T表示状态转移集合,R表示奖励函数集合。一个决策是指根据状态s确定动作a, 即 π: SA。一个对象的跟踪过程包括如下决策过程:
从Active状态转移到Tracked或者Inactive状态:即判断新出现的对象是否是真。
从Tracked状态转移到Tracked或者Lost状态:即判断对象是否是持续跟踪或者暂时处于丢失状态。
从Lost状态转移到Lost或者Tracked或者Inactive状态:即判断丢失对象是否重新被跟踪,被终止,或者继续处于丢失状态。
作者设计了三个奖励函数来描述上述决策过程:
第一个是:
即判断新出现的对象是否为真,y(a)=1时表示转移到跟踪状态,反之转移到终止状态。这是一个二分类问题,采用2类SVM模型学习得到。这里用了5维特征向量:包括x-y坐标、宽、高和检测的分数。
第二个是:
这个函数用来判断跟踪对象下一时刻状态是否是出于继续跟踪,还是处于丢失,即跟踪失败。这里作者用了5个历史模板,每个模板和当前图像块做光流匹配,emedFB表示光流中心偏差, 表示平均重合率。 和 是阈值。
第三个是:
这个函数用来判断丢失对象是否重新跟踪,或者终止,或者保持丢失状态不变。这里当丢失状态连续保持超过 (=50)时,则转向终止,其他情况下通过计算M个检测匹配,来判断是否存在最优的匹配使上式(3-14)奖励最大,并大于0。这里涉及两个问题如何设计特征以及如何学习参数。这里作者构造了12维与模板匹配相关的统计值。而参数的学习采用强化学习过程,主要思想是在犯错时候更新二类分类器值。
第二阶段 深度学习应用
1)基于对称网络的多目标跟踪算法
关于Siamese网络在单目标跟踪深度学习中有了介绍,在这里不再介绍,可以向前参考。
2)基于最小多割图模型的多目标跟踪算法
上述算法中为了匹配两个检测采用LUV图像格式以及光流图像。Tang等人在文献中发现采用深度学习计算的类光流特征(DeepMatching),结合表示能力更强的模型也可以得到效果很好的多目标跟踪结果。
基于DeepMatching特征,可以构造下列5维特征:
其中MI,MU表示检测矩形框中匹配的点的交集大小以及并集大小,ξv和ξw表示检测信任度。利用这5维特征可以学习一个逻辑回归分类器。
同样,为了计算边的匹配代价,需要设计匹配特征。这里,作者采用结合姿态对齐的叠加Siamese网络计算匹配相似度,如图9,采用的网络模型StackNetPose具有最好的重识别性能。
综合StackNetPose网络匹配信任度、深度光流特征(deepMatching)和时空相关度,作者设计了新的匹配特征向量。类似于[2], 计算逻辑回归匹配概率。最终的跟踪结果取得了非常突出的进步。在MOT2016测试数据上的结果如下表:
3)通过时空域关注模型学习多目标跟踪算法
除了采用解决目标重识别问题的深度网络架构学习检测匹配特征,还可以根据多目标跟踪场景的特点,设计合适的深度网络模型来学习检测匹配特征。Chu等人对行人多目标跟踪问题中跟踪算法发生漂移进行统计分析,发现不同行人发生交互时,互相遮挡是跟踪算法产生漂移的重要原因[4]。如图10。
在这里插入图片描述
针对这个问题,文献[4]提出了基于空间时间关注模型(STAM)用于学习遮挡情况,并判别可能出现的干扰目标。如图11,空间关注模型用于生成遮挡发生时的特征权重,当候选检测特征加权之后,通过分类器进行选择得到估计的目标跟踪结果,时间关注模型加权历史样本和当前样本,从而得到加权的损失函数,用于在线更新目标模型。
该过程分三步,第一步是学习特征可见图:
第二步是根据特征可见图,计算空间关注图(Spatial Attention):
其中fatt是一个局部连接的卷积和打分操作。wtji是学习到的参数。
第三步根据空间注意图加权原特征图:
对生成的加权特征图进行卷积和全连接网络操作,生成二元分类器判别是否是目标自身。最后用得到分类打分选择最优的跟踪结果。
4)基于循环网络判别融合表观运动交互的多目标跟踪算法
上面介绍的算法采用的深度网络模型都是基于卷积网络结构,由于目标跟踪是通过历史轨迹信息来判断新的目标状态,因此,设计能够记忆历史信息并根据历史信息来学习匹配相似性度量的网络结构来增强多目标跟踪的性能也是比较可行的算法框架。
考虑从三个方面特征计算轨迹历史信息与检测的匹配:表观特征,运动特征,以及交互模式特征。这三个方面的特征融合以分层方式计算。
在底层的特征匹配计算中,三个特征都采用了长短期记忆模型(LSTM)。对于表观特征,首先采用VGG-16卷积网络生成500维的特征ϕtA,以这个特征作为LSTM的输入计算循环。
对于运动特征,取相对位移vit为基本输入特征,直接输入LSTM模型计算没时刻的输出ϕi,对于下一时刻的检测同样计算相对位移vjt+1,通过全连接网络计算特征ϕj,类似于表观特征计算500维特征ϕm,并利用二元匹配分类器进行网络的预训练。
对于交互特征,取以目标中心位置周围矩形领域内其他目标所占的相对位置映射图作为LSTM模型的输入特征,计算输出特征ϕi,对于t+1时刻的检测计算类似的相对位置映射图为特征,通过全连接网络计算特征ϕj,类似于运动模型,通过全连接网络计算500维特征ϕI,进行同样的分类训练。
当三个特征ϕA,ϕM,ϕI都计算之后拼接为完整的特征,输入到上层的LSTM网络,对输出的向量进行全连接计算,然后用于匹配分类,匹配正确为1,否则为0。对于最后的网络结构,还需要进行微调,以优化整体网络性能。最后的分类打分看作为相似度用于检测与轨迹目标的匹配计算。最终的跟踪框架采用在线的检测与轨迹匹配方法进行计算。
5)基于双线性长短期循环网络模型的多目标跟踪算法
在对LSTM中各个门函数的设计进行分析之后,Kim等人认为仅仅用基本的LSTM模型对于表观特征并不是最佳的方案,在文献[10]中,Kim等人设计了基于双线性LSTM的表观特征学习网络模型。
除了利用传统的LSTM进行匹配学习,或者类似[5]中的算法,拼接LSTM输出与输入特征,作者设计了基于乘法的双线性LSTM模型,利用LSTM的隐含层特征(记忆)信息与输入的乘积作为特征,进行匹配分类器的学习。
这里对于隐含层特征ht-1,必须先进行重新排列(reshape)操作,然后才能乘以输入的特征向量xt。
其中f表示非线性激活函数,mt是新的特征输入。而原始的检测图像采用ResNet50提取2048维的特征,并通过全连接降为256维。下表中对于不同网络结构、网络特征维度、以及不同LSTM历史长度时,表观特征的学习对跟踪性能的影响做了验证。
可以看出采用双线性LSTM(bilinear LSTM)的表观特征性能最好,此时的历史相关长度最佳为40,这个值远远超过文献[5]中的2-4帧历史长度。相对来说40帧历史信息影响更接近人类的直觉。
3. 几种人体运动检测算法的比较分析
引言人体运动分析是目前一个研究热点,在智能安全监控系统、体育运动分析、医疗诊断等领域具有广泛的应用前景。它主要涉及计算机视觉、模式识别、图像处理以及人工智能等领域,是跨学科的研究课题。其研究核心是从视频中检测和跟踪人体,获取人体运动数据,以此为基础重建人体的三维运动,进而描述和理解人体运动。其中人体运动目标检测的检测效果直接影响后期的目标识别、跟踪及行为理解等工作,因此运动人体检测技术是计算机视频图像处理中最基础、最关键的技术,对运动检测算法进一步研究具有深远意义。人体运动检测是指在输入视频图像中确定运动人体的位置、尺度大小和姿态的过程[1]。目前采用比较多、比较经典的人体运动检测方法有时间差分法、背景减除法、光流法等。笔者扼要阐述OGHMs法的理论依据,在现有算法的基础上,引入图形学的腐蚀运算,应用于最后获得的检测结果,实验证明腐蚀运算的引入使最终的运动检测效果更好。同时对其他几种常用的方法进行介绍和实际应用,根据得到的实验结果,对这几种方法以及OGHMs法进行分析和比较,并指出其优点和不足。所有的实验都是
4. 运动目标检测与跟踪技术有哪些算法
第一章介绍运动的分类、计算机视觉领域中运动分析模型、计算机视觉领域运动检测和目标跟踪技术研究现状、计算机视觉领域中运动分析技术的难点等内容;第二章介绍传统的运动检测和目标跟踪算法,包括背景差分法、帧间差分法、光流场评估算法等;第三章介绍具有周期性运动特征的低速目标运动检测和跟踪算法,并以CCD测量系统为例介绍该算法的应用;第四章介绍高速运动目标识别和跟踪算法,并以激光通信十信标光捕获和跟踪系统为例介绍该算法的应用;第五章介绍具有复杂背景的目标运动检测过程中采用的光流场算法,包括正规化相关的特性及其改进光流场评估算法,并介绍改进光流场算法的具体应用;第六章介绍互补投票法实现可信赖运动向量估计。
5. 德云系:扩展模块的目标跟踪算法有哪些
你好,分为了以下四种:
1. KCF:TrackerKCF 使用目标周围区域的循环矩阵采集正负样本,利用脊回归训练目标检测器,并成功的利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的Hadamad积,即元素的点乘,大大降低了运算量,提高了运算速度,使算法满足实时性要求.
2.MIL:TrackerMIL 以在线方式训练分类器将对象与背景分离;多实例学习避免鲁棒跟踪的漂移问题
3. OLB:TrackerBoosting 基于AdaBoost算法的在线实时对象跟踪.分类器在更新步骤中使用周围背景作为反例以避免漂移问题.
4.MedianFlow:TrackerMedianFlow 跟踪器适用于非常平滑和可预测的运动,物体在整个序列中可见.
5.TLD:TrackerTLD 将长期跟踪任务分解为跟踪,学习和检测.跟踪器在帧之间跟踪对象.探测器本地化所观察到的所有外观,并在必要时纠正跟踪器.学习估计检测器的错误并进行更新以避免再出现这些错误.追踪器能够处理快速运动,部分遮挡,物体缺失等情况.
6. 目标跟踪算法好处
目标跟踪算法好处是:
1、可以提高后续检测的准确性。
2、能够掌握目标的运动状态。
7. 运动目标跟踪检测论文怎么写呢
运动目标检测与跟踪算法研究 视觉是人类感知自身周围复杂环境最直接有效的手段之一, 而在现实生活中 大量有意义的视觉信息都包含在运动中,人眼对运动的物体和目标也更敏感,能 够快速的发现运动目标, 并对目标的运动轨迹进行预测和描绘。 随着计算机技术、 通信技术、图像处理技术的不断发展,计算机视觉己成为目前的热点研究问题之 一。 而运动目标检测与跟踪是计算机视觉研究的核心课题之一, 融合了图像处理、 模式识别、人工智能、自动控制、计算机等众多领域的先进技术,在军事制导、 视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实 用价值和广阔的发展前景。 1、国内外研究现状 1.1 运动目标检测 运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。 根据运动目标与摄像机之间的关系, 运动目标检测分为静态背景下的运动目标检 测和动态背景下的运动目标检测。 静态背景下的运动目标检测是指摄像机在整个 监视过程中不发生移动; 动态背景下的运动目标检测是指摄像机在监视过程中发 生了移动,如平动、旋转或多自由度运动等。 静态背景 静态背景下的运动目标检测方法主要有以下几种: (1)背景差分法 背景差分法是目前最常用的一种目标检测方法, 其基本思想就是首先获得一个 背景模型,然后将当前帧与背景模型相减,如果像素差值大于某一阈值,则判断 此像素属于运动目标,否则属于背景图像。利用当前图像与背景图像的差分来检 测运动区域,一般能够提供比较完整的特征数据,但对于动态场景的变化,如光 照和外来无关事件的干扰等特别敏感。 很多研究人员目前都致力于开发不同的背 景模型,以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、 阴影的去除等对跟踪结果的好坏至关重要。 背景差分法的实现简单,在固定背景下能够完整地精确、快速地分割出运动 对象。不足之处是易受环境光线变化的影响,需要加入背景图像更新机制,且只 对背景已知的运动对象检测比较有效, 不适用于摄像头运动或者背景灰度变化很 大的情况。 (2)帧间差分法 帧间差分法是在连续的图像序列中两个或三个相邻帧间, 采用基于像素的时 间差分并阈值化来提取图像中的运动区域。 帧间差分法对动态环境具有较强的自 适应性,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产 生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法,它是对图像序 列中每连续三帧图像进行对称差分,检测出目标的运动范围,同时利用上一帧分 割出来的模板对检测出来的目标运动范围进行修正, 从而能较好地检测出中间帧 运动目标的形状轮廓。 帧间差分法非常适合于动态变化的环境,因为它只对运动物体敏感。实际上 它只检测相对运动的物体,而且因两幅图像的时间间隔较短,差分图像受光线 变化影响小,检测有效而稳定。该算法简单、速度快,已得到广泛应用。虽然该 方法不能够完整地分割运动对象,只能检测出物体运动变化的区域,但所检测出 的物体运动信息仍可用于进一步的目标分割。 (3)光流法 光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动 场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布 的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流 是指空间中物体被观测面上的像素点运动产生的瞬时速度场, 包含了物体表面结 构和动态行为等重要信息。 基于光流法的运动目标检测采用了运动目标随时间变 化的光流特性,由于光流不仅包含了被观测物体的运动信息,还携带了物体运动 和景物三位结构的丰富信息。 在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可 用于动态场景的情况。 但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明 性及噪声等原因,使得光流场基本方程——灰度守恒的假设条件无法满足,不能 正确求出光流场,计算方也相当复杂,计算量巨大,不能满足实时的要求。 动态背景 动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动, 检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、 光流法以及全局运动估计法等。 2、运动目标跟踪 运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。 近年来 出现了大批运动目标跟踪方法,许多文献对这些方法进行了分类介绍,可将目标 跟踪方法分为四类:基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、 基于模型的跟踪,这种分类方法概括了目前大多数跟踪方法,下面用这种分类方 法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪 基于区域的跟踪方法基本思想是: 首先通过图像分割或预先人为确定提取包 含目标区域的模板,并设定一个相似性度量,然后在序列图像中搜索目标,把度 量取极值时对应的区域作为对应帧中的目标区域。 由于提取的目标模板包含了较 完整的目标信息,该方法在目标未被遮挡时,跟踪精度非常高,跟踪非常稳定, 但通常比较耗时,特别是当目标区域较大时,因此一般应用于跟踪较小的目标或 对比度较差的目标。该方法还可以和多种预测算法结合使用,如卡尔曼预测、粒 子预测等,以估计每帧图像中目标的位置。近年来,对基于区域的跟踪方法关注 较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重 遮挡时的情况。 (2)基于特征的跟踪 基于特征的跟踪方法基本思想是:首先提取目标的某个或某些局部特征,然 后利用某种匹配算法在图像序列中进行特征匹配,从而实现对目标的跟踪。该方 法的优点是即使目标部分被遮挡,只要还有一部分特征可以被看到,就可以完成 跟踪任务,另外,该方法还可与卡尔曼滤波器结合使用,实时性较好,因此常用 于复杂场景下对运动目标的实时、 鲁棒跟踪。 用于跟踪的特征很多, 如角点边缘、 形状、纹理、颜色等,如何从众多的特征中选取最具区分性、最稳定的特征是基 于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪 基于活动轮廓的跟踪方法基本思想是:利用封闭的曲线轮廓表达运动目标, 结合图像特征、曲线轮廓构造能量函数,通过求解极小化能量实现曲线轮廓的自 动连续更新,从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来,基 于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方 法,轮廓表达有减少复杂度的优点,而且在目标被部分遮挡的情况下也能连续的 进行跟踪,但是该方法的跟踪结果受初始化影响较大,对噪声也较为敏感。 (4)基于模型的跟踪 基于模型的跟踪方法基本思想是: 首先通过一定的先验知识对所跟踪目标建 立模型,然后通过匹配跟踪目标,并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型,即线图模型、二维轮 廓模型和三维立体模型口61,应用较多的是运动目标的三维立体模型,尤其是对 刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹,即使在 目标姿态变化和部分遮挡的情况下也能够可靠的跟踪, 但跟踪精度取决于模型的 精度,而在现实生活中要获得所有运动目标的精确模型是非常困难的。 目标检测算法,至今已提出了数千种各种类型的算法,而且每年都有上百篇相 关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研 究,现己提出的分割算法大都是针对具体问题的,并没有一种适合于所有情况的 通用算法。 目前, 比较经典的运动目标检测算法有: 双帧差分法、 三帧差分法(对 称差分法)、背景差法、光流法等方法,这些方法之间并不是完全独立,而是可 以相互交融的。 目标跟踪的主要目的就是要建立目标运动的时域模型, 其算法的优劣直接影响 着运动目标跟踪的稳定性和精确度, 虽然对运动目标跟踪理论的研究已经进行了 很多年,但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒 性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑 战。基于此目的,系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂 环境中运动目标快速、稳定的跟踪,人们提出了众多算法,但先前的许多算法都 是针对刚体目标,或是将形变较小的非刚体近似为刚体目标进行跟踪,因而这些 算法难以实现对形状变化较大的非刚体目标的正确跟踪。 根据跟踪算法所用的预 测技术来划分,目前主要的跟踪算法有:基于均值漂移的方法、基于遗传算法的 方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方 法等。
运动检测与目标跟踪算法模块 运动检测与目标跟踪算法模块 与目标跟踪 一、运动检测算法 1.算法效果 算法效果总体来说,对比度高的视频检测效果要优于对比度低的视频。 算法可以比较好地去除目标周围的浅影子,浅影的去除率在 80%以上。去影后目标的 完整性可以得到较好的保持,在 80%以上。在对比度比较高的环境中可以准确地识别较大 的滞留物或盗移物。 从对目标的检测率上来说,对小目标较难进行检测。一般目标小于 40 个像素就会被漏 掉。对于对比度不高的目标会检测不完整。总体上来说,算法在对比度较高的环境中漏检率 都较低,在 0.1%以下,在对比度不高或有小目标的场景下漏检率在 6%以下。 精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域, 以供高层 进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。 反映算法优缺点的详细效果如下所示: 去影子和完整性 效果好 公司内视频 左边的为去影前,右边的 为去影后的结果,可以看出在 完整 性和去影率上 都有所 突 出。 这两个视频的共周特点 城市交通 是,影子都是浅影子,视频噪 声不太明显。目标与背景的对 比度比较高。 效果差 这两个视频的特点是影子 都是深影子。虽然影子没有去 掉,但是物体的完整性是比较 高的。主要原因就是场景的对 路口,上午 十点 比度比较高。 滞留物检测和稳定性 效果好 会议室盗移 效果好的原因,一是盗移或 滞留目标与背景对比度较大,二 是目标本身尺寸较大。 另外盗移物或滞留物在保持 各自的状态期间不能受到光照变 化或其它明显运动目标的干扰, 要不然有可能会造成判断的不稳 定。 效果差 会议室 遗留 物 大部分时间内,滞留的判断 都是较稳定的,但是在后期出现 了不稳定。主要原因是目标太小 的原故。 因此在进行滞留物判断时, 大目标,对比度较高的环境有利 于判断的稳定性和准确性。 漏检率 效果好 城市交通 在对比度高的环境下, 目标相对都较大的情况下 (大于 40 个像素) 可以很 , 稳定的检测出目标。 在这种 条件下的漏检率通常都是 非常低的,在 0.1%以下。 效果差 行人-傍晚 和“行人”目录下 的 其 它 昏 暗 条件 下的视频 在对 比度较低的 情况 下,会造成检测结果不稳 定。漏检率较高。主要原因 是由于去影子造成的。 这种 对比度下的漏检率一般在 6%以下。 除了 对比度低是 造成 漏检的原因外, 过小的目标 也会造成漏检,一般是 40 个像素以下的目标都会被 忽略掉。 1.2 算法效率内存消耗(单位:b) .MD_ISRAM_data .MD_ISRAM_bss .MD_SDRAM_data 0x470 0x24 0x348 .MD_SDRAM_bss .MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率 一帧耗时 Max:57% Min:2.8% Avg:37.5% Max:23 Min:1.14 Avg:15 运动区域占 1/3 左右时 Max:45% Min:2.8% Avg:20% Max:18 Min:1.14 Avg:8 1.3 检测参数说明 检测参数说明 检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧, 可以通过参数来 自行调整。 目前目标与背景的差异是根据局部光照强度所决定的, 范围在 4 个像素值以上。 目前参 数设置要求目标大小要在 20 个像素以上才能被检测到,可以通过参数来自行调整。 目标阴影的去除能力是可以调整的, 目前的参数设置可以去除大部分的浅影子和较小的 光照变化。 1.4 适用环境推荐光照条件较好(具有一定的对比度)的室内环境或室外环境。不易用它去检测过小的目 标,比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标,可以为 后面高层应用提供良好的信息。 二、目标跟踪 2.1 稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合, 对相机的架设和视频的背景环境和运动目标 数量运动方式有一定要求: 背景要求: 由于运动跟踪是基于运动检测的结果进行的, 所以对背景的要求和运动检测一样, 背景要求: 运动目标相对于背景要有一定反差。 运动目标:由于运动检测中,对较小的目标可能过滤掉。所以运动目标的大小要符合运动检 运动目标: 测的要求。运动目标的速度不能太大,要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改,过小,可能把碎片当成原目标分 裂出来的小目标,过大,可能失去跟踪。当然可试着调节以适应不同场景)。该 算法对由于运动检测在地面上产生的碎片抗干扰性比较差, 运动目标和碎片相遇 时,容易发生融合又分离的现象,造成轨迹混乱。消失目标和新生目标很容易当 成同一目标处理,所以可能出现一个新目标继承新生目标的轨迹。 运动方式: 运动目标的最大数量由外部设定。 但运动跟踪对运动目标比较稀疏的场景效果比 运动方式: 较好。 算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。 算法没对 物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。 拍摄角度: 拍摄角度:拍摄视野比较大,且最好是俯视拍摄。
8. 目标跟踪(3)MultiTracker : 基于 OpenCV (C++/Python) 的多目标跟踪
在这篇文章中,我们将介绍如何使用通过 MultiTracker 类实现的 OpenCV 的多对象跟踪 API。我们将共享C++ 和 Python 代码。
大多数计算机视觉和机器学习的初学者都学习对象检测。如果您是初学者,您可能会想为什么我们需要对象跟踪。我们不能只检测每一帧中的对象吗?
让我们来探究一下跟踪是有用的几个原因。
首先,当在视频帧中检测到多个对象(例如人)时,跟踪有助于跨帧建立对象的身份。
其次,在某些情况下,对象检测可能会失败,但仍可能跟踪对象,因为跟踪考虑了对象在前一帧中的位置和外观。
第三,一些跟踪算法非常快,因为它们做的是局部搜索,而不是全局搜索。因此,我们可以通过每n帧进行目标检测,并在中间帧中跟踪目标,从而为我们的系统获得很高的帧率。
那么,为什么不在第一次检测后无限期地跟踪对象呢?跟踪算法有时可能会丢失它正在跟踪的对象。例如,当对象的运动太大时,跟踪算法可能跟不上。许多现实世界的应用程序同时使用检测和跟踪。
在本教程中,我们只关注跟踪部分。我们想要跟踪的对象将通过拖动它们周围的包围框来指定。
OpenCV 中的 MultiTracker 类提供了多目标跟踪的实现。它是一个简单的实现,因为它独立处理跟踪对象,而不对跟踪对象进行任何优化。
让我们逐步查看代码,了解如何使用 OpenCV 的多目标跟踪 API。
2.1 第 1 步:创建单一对象跟踪器
多目标跟踪器只是单目标跟踪器的集合。我们首先定义一个函数,该函数接受一个跟踪器类型作为输入,并创建一个跟踪器对象。OpenCV有8种不同的跟踪器类型:BOOSTING, MIL, KCF,TLD, MEDIANFLOW, GOTURN, MOSSE, CSRT。
如果您想使用 GOTURN 跟踪器,请务必阅读这篇文章并下载 caffe 模型。
在下面的代码中,给定跟踪器类的名称,我们返回跟踪器对象。这将在稍后用于多目标跟踪器。
Python
C++
2.2 第 2 步:读取视频的第一帧
多目标跟踪器需要两个输入
给定这些信息,跟踪器在所有后续帧中跟踪这些指定对象的位置。 在下面的代码中,我们首先使用 VideoCapture 类加载视频并读取第一帧。这将在稍后用于初始化 MultiTracker。
Python
C++
2.3 第 3 步:在第一帧中定位对象
接下来,我们需要在第一帧中定位我们想要跟踪的对象。该位置只是一个边界框。 OpenCV 提供了一个名为 selectROI 的函数,该函数会弹出一个 GUI 来选择边界框(也称为感兴趣区域 (ROI))。 在 C++ 版本中,selectROI 允许您获取多个边界框,但在 Python 版本中,它只返回一个边界框。所以,在 Python 版本中,我们需要一个循环来获取多个边界框。 对于每个对象,我们还选择一种随机颜色来显示边界框。 代码如下所示。
Python
C++
getRandomColors 函数相当简单
2.4 第 3 步:初始化 MultiTracker
到目前为止,我们已经读取了第一帧并获得了对象周围的边界框。这就是我们初始化多目标跟踪器所需的所有信息。
我们首先创建一个 MultiTracker 对象,并向其中添加与边界框一样多的单个对象跟踪器。在此示例中,我们使用 CSRT 单对象跟踪器,但您可以通过将下面的 trackerType 变量更改为本文开头提到的 8 个跟踪器之一来尝试其他跟踪器类型。 CSRT 跟踪器不是最快的,但在我们尝试的许多情况下它产生了最好的结果。
您还可以使用包裹在同一个 MultiTracker 中的不同跟踪器,但当然,这没什么意义。
MultiTracker 类只是这些单个对象跟踪器的包装器。正如我们从上一篇文章中知道的那样,单个对象跟踪器是使用第一帧初始化的,并且边界框指示我们想要跟踪的对象的位置。 MultiTracker 将此信息传递给它在内部包装的单个对象跟踪器。
Python
C++
2.5 第 4 步:更新 MultiTracker 并显示结果
最后,我们的 MultiTracker 已准备就绪,我们可以在新帧中跟踪多个对象。我们使用 MultiTracker 类的 update 方法来定位新框架中的对象。每个跟踪对象的每个边界框都使用不同的颜色绘制。
Python
C++
C++
Python