三层波打线算法_目标跟踪检测算法（四）——多目标扩展

① 神经网络浅谈

人工智能技术是当前炙手可热的话题，而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段，展现了深度学习的强大威力，后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看，以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达（NVIDIA）公司近年来的股价情况，该公司的主要产品是“图形处理器”（GPU），而GPU被证明能大大加快神经网络的训练速度，是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好，话不多说，下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系，是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞：

一个神经元通常具有多个树突，主要用来接受传入信息，而轴突只有一条，轴突尾端有许多轴突末梢，可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接，从而传递信号。

下图是一个经典的神经网络（Artificial Neural Network,ANN）：

乍一看跟传统互联网的拓扑图有点类似，这也是称其为网络的原因，不同的是节点之间通过有向线段连接，并且节点被分成三层。我们称图中的圆圈为神经元，左边三个神经元组成的一列为输入层，中间神经元列为隐藏层,右边神经元列为输出层，神经元之间的箭头为权重。

神经元是计算单元，相当于神经元细胞的细胞核，利用输入的数据进行计算，然后输出，一般由一个线性计算部分和一个非线性计算部分组成；输入层和输出层实现数据的输入输出，相当于细胞的树突和轴突末梢；隐藏层指既不是输入也不是输出的神经元层，一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元，而是每条连接线对应的权重。每条连接线对应一个权重，也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化，多次重复的学习能让回路变得更加粗壮，使得信号的传递速度加快，最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此，如果某种映射关系出现很多次，那么在训练过程中就相应调高其权重。

1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP：

符号化后的模型如下：

Sum函数计算各权重与输入乘积的线性组合，是神经元中的线性计算部分，而sgn是取符号函数，当输入大于0时，输出1，反之输出0，是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，权重的值都是预先设置的，因此不能学习。该模型虽然简单，并且作用有限，但已经建立了神经网络大厦的地基

1958年，计算科学家Rosenblatt提出了由两层神经元组成(一个输入层，一个输出层)的神经网络。他给它起了一个名字–“感知器”（Perceptron）

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程，在当时引起了轰动，掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年，人工智能领域的巨擘Minsky指出这点，并同时指出感知器对XOR（异或，即两个输入相同时输出0，不同时输出1）这样的简单逻辑都无法解决。所以，明斯基认为神经网络是没有价值的。

随后，神经网络的研究进入低谷，又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题，但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

下图为两层神经网络（输入层一般不算在内）：

上图中，输出层的输入是上一层的输出。

向量化后的公式为：

注意：

每个神经元节点默认都有偏置变量b，加上偏置变量后的计算公式为：

同时，两层神经网络不再使用sgn函数作为激励函数，而采用平滑的sigmoid函数：

σ(z)=1/(1+e^(-z) )

其图像如下：

理论证明：两层及以上的神经网络可以无限逼近真实的对应函数，从而模拟数据之间的真实关系，这是神经网络强大预测能力的根本。但两层神经网络的计算量太大，当时的计算机的计算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向传播（Backpropagation，BP）算法，解决了两层神经网络所需要的复杂计算量问题，带动了业界使用两层神经网络研究的热潮。

但好景不长，算法的改进仅使得神经网络风光了几年，然而计算能力不够，局部最优解，调参等一系列问题一直困扰研究人员。90年代中期，由Vapnik等人发明的SVM（Support Vector Machines，支持向量机）算法诞生，很快就在若干个方面体现出了对比神经网络的优势：无需调参；高效；全局最优解。

由于以上原因，SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷， AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络（不包括输入层），更多情况下指两层以上的神经网络。

2006年，Hinton提出使用预训练 ”（pre-training）和“微调”(fine-tuning)技术能优化神经网络训练，大幅度减少训练多层神经网络的时间

并且，他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”，以此为起点，“深度学习”纪元开始了：）

“深度学习”一方面指神经网络的比较“深”，也就是层数较多；另一方面也可以指神经网络能学到很多深层次的东西。研究发现，在权重参数不变的情况下，增加神经网络的层数，能增强神经网络的表达能力。

但深度学习究竟有多强大呢？没人知道。2012年，Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了近11个百分点，充分证明了多层神经网络识别效果的优越性。

同时，科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要，在同等情况下，GPU的速度要比CPU快50-200倍，这使得神经网络的训练时间大大减少，最终再一次掀起了神经网络研究的热潮，并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石，深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾，既有被捧上神坛的高潮，也有无人问津的低谷，中间经历了数次大起大落，我们姑且称之为“三起三落”吧，其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然，对于神经网络我们也要保持清醒的头脑。由上图，每次神经网络研究的兴盛期持续10年左右，从最近2012年算起，或许10年后的2022年，神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种，其模型训练的目的，就是使得参数尽可能的与真实的模型逼近。理论证明，两层及以上的神经网络可以无限逼近真实的映射函数。因此，给定足够的训练数据和训练时间，总能通过神经网络找到无限逼近真实关系的模型。

具体做法：首先给所有权重参数赋上随机值，然后使用这些随机生成的参数值，来预测训练数据中的样本。假设样本的预测目标为yp ，真实目标为y，定义值loss，计算公式如下：

loss = (yp -y) ^2

这个值称之为损失（loss），我们的目标就是使对所有训练数据的损失和尽可能的小，这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导，但由于参数不止一个，求导后计算导数等于0的运算量很大，所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量，由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y)，则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度，然后让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个时候，所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程：

在神经网络模型中，由于结构复杂，每次计算梯度的代价很大。因此还需要使用反向传播（Back Propagation）算法。反向传播算法利用了神经网络的结构进行计算，不一次计算所有参数的梯度，而是从后往前。首先计算输出层的梯度，然后是第二个参数矩阵的梯度，接着是中间层的梯度，再然后是第一个参数矩阵的梯度，最后是输入层的梯度。计算结束以后，所要的两个参数矩阵的梯度就都有了。当然，梯度下降只是其中一个优化算法，其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后，我们就确定了整个神经网络的权重，完成神经网络的训练。

在神经网络中一样的参数数量，可以用更深的层次去表达。

由上图，不算上偏置参数的话，共有三层神经元，33个权重参数。

由下图，保持权重参数不变，但增加了两层神经元。

在多层神经网络中，每一层的输入是前一层的输出，相当于在前一层的基础上学习，更深层次的神经网络意味着更深入的表示特征，以及更强的函数模拟能力。更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。

如上图，第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到“边缘”组成的“形状”的特征，第三个隐藏层学习到由“形状”组成的“图案”的特征，最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

前面提到，明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”（XOR）非线性问题，所以神经网络的研究没有前途，但当增加一层神经元后，异或问题得到了很好地解决，原因何在？原来从输入层到隐藏层，数据发生了空间变换，坐标系发生了改变，因为矩阵运算本质上就是一种空间变换。

如下图，红色和蓝色的分界线是最终的分类结果，可以看到，该分界线是一条非常平滑的曲线。

但是，改变坐标系后，分界线却表现为直线，如下图：

同时，非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器，提取特征是一个非常重要的前置工作。在正式训练之前，需要花费大量的时间在数据的清洗上，这样分类器才能清楚地知道数据的维度，要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中，由于巨量的线性分类器的堆叠（并行和串行）以及卷积神经网络的使用，它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略，这样我们在处理的时候，就不需要使用太多的技巧用于数据的清洗了。有趣的是，业内大佬常感叹，“你可能知道SVM等机器学习的所有细节，但是效果并不好，而神经网络更像是一个黑盒，很难知道它究竟在做什么，但工作效果却很好”。

人类对机器学习的环节干预越少，就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络入门教程，用户可以非常方便地在网页上更改神经网络的参数，并且能看到实时的学习效率和结果，非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下：

2) 深度学习领域大佬吴恩达不久前发布的《神经网络和深度学习》MOOC，现在可以在网易云课堂上免费观看了，并且还有中文字幕。

3) 《神经网络于深度学习》（Michael Nielsen着）、《白话深度学习与TensorFlow》也是不错的入门书籍。

② 平滑滤波的3×3算法原理

平滑滤波
低频增强的空间域滤波技术
平滑滤波是低频增强的空间域滤波技术。它的目的有两类：一类是模糊；另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行，就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关，邻域越大平滑的效果越好，但邻域过大，平滑会使边缘信息损失的越大，从而使输出的图像变得模糊，因此需合理选择邻域的大小。
中文名
平滑滤波
外文名
Smoothing
拼音
píng huá lǜ bō
注音
ㄆㄧㄥˊ ㄏㄨㄚˊㄌㄩˋ ㄅㄛ
滤波目的处理要求滤波原因滤波方法其他方式TA说
滤波目的
滤波的本义是指信号有各种频率的成分,滤掉不想要的成分,即为滤掉常说的噪声,留下想要的成分.这即是滤波的过程,也是目的.
一是抽出对象的特征作为图像识别的特征模式；另一个是为适应图像处理的要求，消除图像数字化时所混入的噪声。
处理要求
一是不能损坏图像的轮廓及边缘等重要信息；二是使图像清晰视觉效果好。
滤波原因
各类图像处理系统在图像的采集、获取、传送和转换(如成像、复制扫描、传输以及显示等)过程中，均处在复杂的环境中，光照、电磁多变，所有的图像均不同程度地被可见或不可见的噪声干扰。噪声源包括电子噪声、光子噪声、斑点噪声和量化噪声。如果信噪比低于一定的水平，噪声逐渐变成可见的颗粒形状，导致图像质量的下降。除了视觉上质量下降，噪声同样可能掩盖重要的图像细节，在对采集到的原始图像做进一步的分割处理时，我们发现有一些分布不规律的椒盐噪声，为此采取相应的对策就是对图像进行必要的滤波降噪处理。
滤波方法
图像的噪声滤波器有很多种，常用的有线性滤波器，非线性滤波器。采用线性滤波如邻域平滑滤波，对受到噪声污染而退化的图像复原，在很多情况下是有效的。但大多数线性滤波器具有低通特性，去除噪声的同时也使图像的边缘变模糊了。而另一种非线性滤波器如中值滤波，在一定程度上可以克服线性滤波器所带来的图像模糊问题，在滤除噪声的同时，较好地保留了图像的边缘信息。
邻域平滑滤波原理
邻域平均法[2]是一种利用Box模版对图像进行模版操作（卷积运算）的图像平滑方法，所谓Box模版是指模版中所有系数都取相同值的模版，常用的3×3和5×5模版如下：
邻域平均法的数学含义是：
（式4-1）
式中：x,y=0,1,…,N-1;S是以（x,y）为中心的邻域的集合，M是S内的点数。
邻域平均法的思想是通过一点和邻域内像素点求平均来去除突变的像素点，从而滤掉一定噪声，其优点是算法简单，计算速度快，其代价会造成图像在一定程度上的模糊。
中值滤波原理
中值滤波[2]就是用一个奇数点的移动窗口，将窗口的中心点的值用窗口内的各点中值代替。假设窗口内有五点，其值为80、90、200、110和120，那么此窗口内各点的中值及为110。
设有一个一维序列f1,f2,…,fn,取窗口长度（点数）为m（m为奇数）,对其进行中值滤波，就是从输入序列中相继抽出m个数fi-v,…,fi-1,fi,fi+1,…,fi+v(其中fi为窗口中心值,v=(m-1)/2),再将这m个点按其数值大小顺序排序，取其序号的中心点的那个数作为滤波输出。数学公式表示为：
Yi=Med{fi-v,…,fi-1,fi,fi+1,…,fi+v} i∈N v=(m-1)/2 （式4-2）
Yi称为序列fi-v,…,fi-1,fi,fi+1,…,fi+v的中值
例如，有一序列{0，3，4，0，7}，重新排序后为{0，0，3，4，7}则Med{0，0，3，4，7}=3。此列若用平滑滤波，窗口也取5，那么平滑滤波输出为（0+3+4+0+7）/5=2.8。
把一个点的特定长度或形状的邻域称作窗口。在一维情况下，中值滤波器是一个含有奇数个像素的滑动窗口。中值滤波很容易推广到二维，此时可以利用二维形式的窗口。
对于平面图像采用的二维中值滤波可以由下式表示：
（式4-3）
式中：A为窗口，{fij}为二维数据序列,即数字图像各点的灰度值。
对于本系统，由于采集到的是24位真彩色图像，每个像素点分别有R、G、B三个灰度分量，故要在窗口内分别找到这三个分量的中值，分别用这三个中值去代替窗口中心像素点的R、G、B三个灰度分量的值。

③ BP神经网络(误差反传网络)

虽然每个人工神经元很简单，但是只要把多个人工

神经元按一定方式连接起来就构成了一个能处理复杂信息的神经网络。采用BP算法的多层前馈网络是目前应用最广泛的神经网络，称之为BP神经网络。它的最大功能就是能映射复杂的非线性函数关系。

对于已知的模型空间和数据空间，我们知道某个模型和他对应的数据，但是无法写出它们之间的函数关系式，但是如果有大量的一一对应的模型和数据样本集合，利用BP神经网络可以模拟(映射)它们之间的函数关系。

一个三层BP网络如图8.11所示，分为输入层、隐层、输出层。它是最常用的BP网络。理论分析证明三层网络已经能够表达任意复杂的连续函数关系了。只有在映射不连续函数时(如锯齿波)才需要两个隐层^[8]。

图8.11中，X=(x₁，…，x_i，…，x_n)^T为输入向量，如加入x₀=-1，可以为隐层神经元引入阀值;隐层输出向量为:Y=(y₁，…，y_i，…，y_m)^T，如加入y₀=-1，可以为输出层神经元引入阀值;输出层输出向量为:O=(o₁，…，o_i，…，o_l)^T;输入层到隐层之间的权值矩阵用V表示，V=(V₁，…，V_j，…，V_l)^T，其中列向量V_j表示隐层第j个神经元的权值向量;隐层到输出层之间的权值矩阵用W表示，W=(W₁，…，W_k，…，W_l)^T，

其中列向量W_k表示输出层第k个神经元的权值向量。

图8.11 三层BP网络^[8]

BP算法的基本思想是:预先给定一一对应的输入输出样本集。学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层传入，经过各隐层逐层处理后，传向输出层。若输出层的实际输出与期望的输出(教师信号)不符，则转入误差的反向传播。将输出误差以某种形式通过隐层向输入层逐层反传，并将误差分摊给各层的所有神经元，获得各层的误差信号，用它们可以对各层的神经元的权值进行调整(关于如镇岁何修改权值参见韩立群着作御兆睁^[8])，循环不断地利用输入输出样本集进行权值调整，以使所有输入样本的输出误差都减小到满意的精度。这个过程就称为网络的学习训练过程。当网络训练完毕后，它相当于映射(表达)了输入输出样本之间的函数关系。

在地球物理勘探中，正演过程可以表示为如下函数:

d=f(m) (8.31)

它的反函数为

m=f^-1(d) (8.32)

如果能够获得这个反函数，那么就解决了反演问题。一般来说，难以写出这个反函数，但是我们可以用BP神经网络来映射这个反函数m=f^-1(d)。对于地球物理反问题，如果把观测数据当作输入数据，模型参数当作输出数据，事先在模型空间随机产生大量样本进行正演计算，获得对应的观测数据样本，利用它们对BP网络进行训练，则训练好的网络就相当于是地球物理数据方程的反函数。可以用它进行反演，输入观测数据，网络就会输出它所对应的模型。猜如

BP神经网络在能够进行反演之前需要进行学习训练。训练需要大量的样本，产生这些样本需要大量的正演计算，此外在学习训练过程也需要大量的时间。但是BP神经网络一旦训练完毕，在反演中的计算时间可以忽略。

要想使BP神经网络比较好地映射函数关系，需要有全面代表性的样本，但是由于模型空间的无限性，难以获得全面代表性的样本集合。用这样的样本训练出来的BP网络，只能反映样本所在的较小范围数据空间和较小范围模型空间的函数关系。对于超出它们的观测数据就无法正确反演。目前BP神经网络在一维反演有较多应用，在二维、三维反演应用较少，原因就是难以产生全面代表性的样本空间。

④ 目标跟踪检测算法（四）——多目标扩展

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛导读】基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题，深度学习方法相比传统方法表现出极大的优势。与行人重识别问题紧密相关的是行人的多目标跟踪问题。

【嵌牛鼻子】深度多目标跟踪算法

【嵌牛提问】深度多目标跟踪算法有哪些？

【嵌牛正文】

第一阶段（概率统计最大化的追踪）

1）多假设多目标追踪算法（MHT，基于kalman在多目标上的拓展）

多假设跟踪算法(MHT)是非常经典的多目标跟踪算法，由Reid在对雷达信号的自动跟踪研究中提出，本质上是基于Kalman滤波跟踪算法在多目标跟踪问题中的扩展。

卡尔曼滤波实际上是一种贝叶斯推理的应用，通过历史关联的预测量和k时刻的预测量来计算后验概率：

关联假设的后验分布是历史累计概率密度的连乘，转化为对数形式，可以看出总体后验概率的对数是每一步观察似然和关联假设似然的求和。但是若同时出现多个轨迹的时候，则需要考虑可能存在的多个假设关联。

左图为k-3时刻三个检测观察和两条轨迹的可能匹配。对于这种匹配关系，可以继续向前预测两帧，如图右。得到一种三层的假设树结构，对于假设树根枝干的剪枝，得到k-3时刻的最终关联结果。随着可能性增加，假设组合会爆炸性增多，为此，只为了保留最大关联性，我们需要对其他的节点进行裁剪。下式为选择方程

实际上MHT不会单独使用，一般作为单目标追踪的扩展添加。

2）基于检测可信度的粒子滤波算法

这个算法分为两个步骤：

1、对每一帧的检测结果，利用贪心匹配算法与已有的对象轨迹进行关联。

其中tr表示一个轨迹，d是某一个检测，他们的匹配亲和度计算包含三个部分：在线更新的分类学习模型(d)，用来判断检测结果是不是属于轨迹tr; 轨迹的每个粒子与检测的匹配度，采用中心距离的高斯密度函数求和(d-p)表示；与检测尺寸大小相关的阈值函数g(tr,d)，表示检测与轨迹尺度的符合程度, 而α是预设的一个超参数。

计算出匹配亲和度矩阵之后，可以采用二部图匹配的Hungarian算法计算匹配结果。不过作者采用了近似的贪心匹配算法，即首先找到亲和度最大的那个匹配，然后删除这个亲和度，寻找下一个匹配，依次类推。贪心匹配算法复杂度是线性，大部分情况下，也能得到最优匹配结果。

2、利用关联结果，计算每个对象的粒子群权重，作为粒子滤波框架中的观察似然概率。

其中tr表示需要跟踪的对象轨迹，p是某个粒子。指示函数I(tr)表示第一步关联中，轨迹tr是不是关联到某个检测结果，当存在关联时，计算与关联的检测d 的高斯密度P{n}(p-d )；C{tr}§是对这个粒子的分类概率；§是粒子通过检测算法得到的检测可信度，(tr)是一个加权函数，计算如下：

3）基于马尔科夫决策的多目标跟踪算法

作者把目标跟踪看作为状态转移的过程，转移的过程用马尔科夫决策过程(MDP)建模。一个马尔科夫决策过程包括下面四个元素：(S, A, T(.),R(.))。其中S表示状态集合，A表示动作集合，T表示状态转移集合，R表示奖励函数集合。一个决策是指根据状态s确定动作a, 即 π: SA。一个对象的跟踪过程包括如下决策过程：

从Active状态转移到Tracked或者Inactive状态：即判断新出现的对象是否是真。

从Tracked状态转移到Tracked或者Lost状态：即判断对象是否是持续跟踪或者暂时处于丢失状态。

从Lost状态转移到Lost或者Tracked或者Inactive状态：即判断丢失对象是否重新被跟踪，被终止，或者继续处于丢失状态。

作者设计了三个奖励函数来描述上述决策过程：

第一个是：

即判断新出现的对象是否为真，y(a)=1时表示转移到跟踪状态，反之转移到终止状态。这是一个二分类问题，采用2类SVM模型学习得到。这里用了5维特征向量：包括x-y坐标、宽、高和检测的分数。

第二个是：

这个函数用来判断跟踪对象下一时刻状态是否是出于继续跟踪，还是处于丢失，即跟踪失败。这里作者用了5个历史模板，每个模板和当前图像块做光流匹配，emedFB表示光流中心偏差，表示平均重合率。和是阈值。

第三个是：

这个函数用来判断丢失对象是否重新跟踪，或者终止，或者保持丢失状态不变。这里当丢失状态连续保持超过 (=50)时，则转向终止，其他情况下通过计算M个检测匹配，来判断是否存在最优的匹配使上式(3-14)奖励最大，并大于0。这里涉及两个问题如何设计特征以及如何学习参数。这里作者构造了12维与模板匹配相关的统计值。而参数的学习采用强化学习过程，主要思想是在犯错时候更新二类分类器值。

第二阶段深度学习应用

1）基于对称网络的多目标跟踪算法

关于Siamese网络在单目标跟踪深度学习中有了介绍，在这里不再介绍，可以向前参考。

2）基于最小多割图模型的多目标跟踪算法

上述算法中为了匹配两个检测采用LUV图像格式以及光流图像。Tang等人在文献中发现采用深度学习计算的类光流特征(DeepMatching)，结合表示能力更强的模型也可以得到效果很好的多目标跟踪结果。

基于DeepMatching特征，可以构造下列5维特征：

其中MI,MU表示检测矩形框中匹配的点的交集大小以及并集大小，ξv和ξw表示检测信任度。利用这5维特征可以学习一个逻辑回归分类器。

同样，为了计算边的匹配代价，需要设计匹配特征。这里，作者采用结合姿态对齐的叠加Siamese网络计算匹配相似度，如图9，采用的网络模型StackNetPose具有最好的重识别性能。

综合StackNetPose网络匹配信任度、深度光流特征(deepMatching)和时空相关度，作者设计了新的匹配特征向量。类似于[2], 计算逻辑回归匹配概率。最终的跟踪结果取得了非常突出的进步。在MOT2016测试数据上的结果如下表：

3）通过时空域关注模型学习多目标跟踪算法

除了采用解决目标重识别问题的深度网络架构学习检测匹配特征，还可以根据多目标跟踪场景的特点，设计合适的深度网络模型来学习检测匹配特征。Chu等人对行人多目标跟踪问题中跟踪算法发生漂移进行统计分析，发现不同行人发生交互时，互相遮挡是跟踪算法产生漂移的重要原因[4]。如图10。

在这里插入图片描述

针对这个问题，文献[4]提出了基于空间时间关注模型(STAM)用于学习遮挡情况，并判别可能出现的干扰目标。如图11，空间关注模型用于生成遮挡发生时的特征权重，当候选检测特征加权之后，通过分类器进行选择得到估计的目标跟踪结果，时间关注模型加权历史样本和当前样本，从而得到加权的损失函数，用于在线更新目标模型。

该过程分三步，第一步是学习特征可见图：

第二步是根据特征可见图，计算空间关注图(Spatial Attention):

其中fatt是一个局部连接的卷积和打分操作。wtji是学习到的参数。

第三步根据空间注意图加权原特征图：

对生成的加权特征图进行卷积和全连接网络操作，生成二元分类器判别是否是目标自身。最后用得到分类打分选择最优的跟踪结果。

4）基于循环网络判别融合表观运动交互的多目标跟踪算法

上面介绍的算法采用的深度网络模型都是基于卷积网络结构，由于目标跟踪是通过历史轨迹信息来判断新的目标状态，因此，设计能够记忆历史信息并根据历史信息来学习匹配相似性度量的网络结构来增强多目标跟踪的性能也是比较可行的算法框架。

考虑从三个方面特征计算轨迹历史信息与检测的匹配：表观特征，运动特征，以及交互模式特征。这三个方面的特征融合以分层方式计算。

在底层的特征匹配计算中，三个特征都采用了长短期记忆模型(LSTM)。对于表观特征，首先采用VGG-16卷积网络生成500维的特征ϕtA，以这个特征作为LSTM的输入计算循环。

对于运动特征，取相对位移vit为基本输入特征，直接输入LSTM模型计算没时刻的输出ϕi，对于下一时刻的检测同样计算相对位移vjt+1,通过全连接网络计算特征ϕj，类似于表观特征计算500维特征ϕm，并利用二元匹配分类器进行网络的预训练。

对于交互特征，取以目标中心位置周围矩形领域内其他目标所占的相对位置映射图作为LSTM模型的输入特征，计算输出特征ϕi，对于t+1时刻的检测计算类似的相对位置映射图为特征，通过全连接网络计算特征ϕj，类似于运动模型，通过全连接网络计算500维特征ϕI，进行同样的分类训练。

当三个特征ϕA，ϕM，ϕI都计算之后拼接为完整的特征，输入到上层的LSTM网络，对输出的向量进行全连接计算，然后用于匹配分类，匹配正确为1，否则为0。对于最后的网络结构，还需要进行微调，以优化整体网络性能。最后的分类打分看作为相似度用于检测与轨迹目标的匹配计算。最终的跟踪框架采用在线的检测与轨迹匹配方法进行计算。

5）基于双线性长短期循环网络模型的多目标跟踪算法

在对LSTM中各个门函数的设计进行分析之后，Kim等人认为仅仅用基本的LSTM模型对于表观特征并不是最佳的方案，在文献[10]中，Kim等人设计了基于双线性LSTM的表观特征学习网络模型。

除了利用传统的LSTM进行匹配学习，或者类似[5]中的算法，拼接LSTM输出与输入特征，作者设计了基于乘法的双线性LSTM模型，利用LSTM的隐含层特征(记忆)信息与输入的乘积作为特征，进行匹配分类器的学习。

这里对于隐含层特征ht-1,必须先进行重新排列(reshape)操作，然后才能乘以输入的特征向量xt。

其中f表示非线性激活函数，mt是新的特征输入。而原始的检测图像采用ResNet50提取2048维的特征，并通过全连接降为256维。下表中对于不同网络结构、网络特征维度、以及不同LSTM历史长度时，表观特征的学习对跟踪性能的影响做了验证。

可以看出采用双线性LSTM(bilinear LSTM)的表观特征性能最好，此时的历史相关长度最佳为40，这个值远远超过文献[5]中的2-4帧历史长度。相对来说40帧历史信息影响更接近人类的直觉。

⑤ 拥塞算法

基于包丢失检测的 Reno、NewReno 或者 cubic 为代表，其主要问题有 Buffer bloat 和长肥管道两种。和这些算法不同，bbr 算法会以时间窗口内的最大带宽 max_bw 和最小 RTT min_rtt，并以此计算发送速率和拥塞窗口

RTProp : round-trip propagation time BtlBW : bottleneck bandwidth，bbr 算法关于拥塞窗口的核心就是计算 BtlBW 和 RTprop，根据这两者值计算 BDP

bbr 算法输出 pacing_rate 和 cwnd 两个数据。pacing_rate 决定发包速率，cwnd 为窗口大小

TCP Tahoe 和 Reno

这两个算法是根据其第一次加入到4.3BSD的时间回溯命名的，两个名字对应自其第一次出现时BSD的代号，而代号分别取自太浩湖（Lake Tahoe）和其附近的城市里诺市

• Tahoe：如果收到三次重复确认——即第四次收到相同确认号的分段确认，并且分段对应包无负载分段和无改变接收窗口——的话，Tahoe算法则进入快速重传，将慢启动阈值改为当前拥塞窗口的一半，将拥塞窗口降为1个MSS，并重新进入慢启动阶段

• Reno：如果收到三次重复确认，Reno算法则进入快速重传，只将拥塞窗口减半来跳过慢启动阶段，将慢启动阈值设为当前新的拥塞窗口值，进入一个称为“快速恢复”的新设计阶段

Fast recovery

是Reno算法新引入的一个阶段，在将丢失的分段重传后，启动一个超时定时器，并等待该丢失分段包的分段确认后，再进入拥塞控制阶段。如果仍然超时，则回到慢启动阶段

TCP Vegas

至1990年代中期，TCP量度延迟和RTT都是以传输缓存中最后一个被传送的分段包为准。vegas通过度量传输缓存中每个传送分段包来代替只量度一个分段包，通过每次度量的平均值来增加拥塞窗口。该算法取名自内华达州最大的城市拉斯维加斯。不过由于一些资源公平性原因，该算法并没有在彼得森的实验室之外广泛部署。一些研究认为该算法和其他拥塞算法混合使用，可能会导致性能竞争不及其他算法。在各种TCP拥塞算法的比较研究中，Vegas被认为是最平滑的控制算法，其次为CUBIC

TCP New Reno

TCP New Reno是对TCP Reno中快速恢复阶段的重传进行改善的一种改进算法，其定义于RFC 6582，覆盖了原有在RFC 3782和RFC 2582的旧定义。

在Reno的快速恢复中，一旦出现3次重复确认，TCP发送方会重发重复确认对应序列号的分段并设置定时器等待该重发分段包的分段确认包，当该分段确认包收到后，就立即退出快速恢复阶段，进入拥塞控制阶段，但如果某个导致重复确认的分段包到遇到重复确认期间所发送的分段包存在多个丢失的话，则这些丢失只能等待超时重发，并且导致拥塞窗口多次进入拥塞控制阶段而多次下降。而New Reno的快速恢复中，一旦出现3次重复确认，TCP发送方先记下3次重复确认时已发送但未确认的分段的最大序列号，然后重发重复确认对应序列号的分段包。如果只有该重复确认的分段丢失，则接收方接收该重发分段包后，会立即返回最大序列号的分段确认包，从而完成重发；但如果重复确认期间的发送包有多个丢失，接收方在接收该重发分段后，会返回非最大序列号的分段确认包，从而发送方继续保持重发这些丢失的分段，直到最大序列号的分段确认包的返回，才退出快速恢复阶段。

New Reno在低错误率时运行效率和“选择确认”（Selective ACKnowledgement，SACK）相当，在高错误率仍优于Reno

TCP Hybla

TCP Hybla旨在消除由于高延迟地面线路或者卫星无线链路下导致的RTT过长而对TCP链接的影响。它通过对拥塞窗口动态分析来修改，来减少对RTT的性能依赖

TCP BIC 和 CUBIC

TCP BIC（Binary Increase Congestion control）旨在优化高速高延迟网络（即根据RFC 1072所定义的“长肥网络”（long fat network，LFN））的拥塞控制，其拥塞窗口算法使用二分搜索算法尝试找到能长时间保持拥塞窗口最大值的值。Linux内核在2.6.8至2.6.18使用该算法作为默认TCP拥塞算法。

CUBIC则是比BIC更温和和系统化的分支版本，其使用三次函数代替二分算法作为其拥塞窗口算法，并且使用函数拐点作为拥塞窗口的设置值。Linux内核在2.6.19后使用该算法作为默认TCP拥塞算法

TCP Westwood和Westwood+

TCP Westwood改良自New Reno，不同于以往其他拥塞控制算法使用丢失来测量，其通过对确认包测量来确定一个“合适的发送速度”，并以此调整拥塞窗口和慢启动阈值。其改良了慢启动阶段算法为“敏捷探测（Agile Probing）”，和设计了一种持续探测拥塞窗口的方法来控制进入“敏捷探测”，使链接尽可能地使用更多的带宽。Westwood+使用更长的带宽估计间隔和优化的滤波器来修正Westwood对ACK压缩场景对带宽估计过高的问题。通过以上改良，TCP Westwood系列算法在有线网络和无线网络的拥塞控制上获取平衡，尤其研究中针对于无线通信网络上

Compound TCP

复合TCP（Compound TCP）是微软自己实现的TCP拥塞控制算法，通过同时维护两个拥塞窗口，来实现在长肥网络有较好的性能而又不损失公平性。该算法在Windows Vista和Windows Server 2008开始广泛部署，并通过补丁的方式回溯支持到Windows XP和Windows Server 2003。在Linux上也有一个旧版本的移植实现

TCP PRR

TCP PRR（TCP Proportional Rate Rection ）是旨在恢复期间提高发送数据的准确性。该算法确保恢复后的拥塞窗口大小尽可能接近慢启动阈值。在Google进行的测试中，能将平均延迟降低3~10%，恢复的超时减少5%。PRR算法之后作为Linux内核3.2版本的默认拥塞算法

TCP BBR

TCP BBR（Bottleneck Bandwidth and Round-trip propagation time）是由Google设计，于2016年发布的拥塞算法。以往大部分拥塞算法是基于丢包来作为降低传输速率的信号，而BBR则基于模型主动探测。该算法使用网络最近出站数据分组当时的最大带宽和往返时间来创建网络的显式模型。数据包传输的每个累积或选择性确认用于生成记录在数据包传输过程和确认返回期间的时间内所传送数据量的采样率。该算法认为随着网络接口控制器逐渐进入千兆速度时，与缓冲膨胀相关的延迟相比丢包更应该被认为是识别拥塞的主要决定因素，所以基于延迟模型的拥塞控制算法（如BBR）会有更高的吞吐量和更低的延迟，可以用BBR来替代其他流行的拥塞算法，例如CUBIC

QUIC Quick UDP Internet Connections

QUIC旨在提供几乎等同于TCP连接的可靠性，但延迟大大减少。它主要通过两个理解HTTP流量的行为来实现这一点：

第一个变化是在连接创建期间大大减少开销。由于大多数HTTP连接都需要TLS，因此QUIC使协商密钥和支持的协议成为初始握手过程的一部分。当客户端打开连接时，服务器响应的数据包包括将来的数据包加密所需的数据。

QUIC使用UDP协议作为其基础，不包括丢失恢复。相反，每个QUIC流是单独控制的，并且在QUIC级别而不是UDP级别重传丢失的数据。这意味着如果在一个流中发生错误，协议栈仍然可以独立地继续为其他流提供服务

QUIC包括许多其他更普通的更改，这些更改也可以优化整体延迟和吞吐量

每个数据包是单独加密的，因此加密数据时不需要等待部分数据包。在TCP下通常不可能这样做，其中加密记录在字节流中，并且协议栈不知道该流中的更高层边界。这些可以由运行在更上层的协议进行协商，但QUIC旨在通过单个握手过程完成这些

QUIC的另一个目标是提高网络切换期间的性能，例如当移动设备的用户从WiFi热点切换到移动网络时发生的情况。当这发生在TCP上时，一个冗长的过程开始了：每个现有连接一个接一个地超时，然后根据需要重新创建。期间存在较高延迟，因为新连接需要等待旧连接超时后才会创建。为解决此问题，QUIC包含一个连接标识符，该标识符唯一地标识客户端与服务器之间的连接，而无论源IP地址是什么。这样只需发送一个包含此ID的数据包即可重新创建连接，因为即使用户的IP地址发生变化，原始连接ID仍然有效

QUIC在应用程序空间中实现，而不是在操作系统内核中实现。当数据在应用程序之间移动时，这通常会由于上下文切换而调用额外的开销。但是在QUIC下协议栈旨在由单个应用程序使用，每个应用程序使用QUIC在UDP上托管自己的连接

Chromium的网络堆栈同时打开QUIC和传统TCP连接，并在QUIC连接失败时以零延迟回退到TCP连接

导航:首页 > 源码编译 > 三层波打线算法

三层波打线算法

与三层波打线算法相关的资料