机械人是若何经由进程视觉实现目标跟踪的？_目的_特点

2024-11-15 16:44:39 AI快讯

机械人是若何经由进程视觉实现目标跟踪的？_目的_特点 AI快讯

单目标跟踪任务简介

目标跟踪是打算机视觉领域的一个主要问题，目前广泛运用在体育赛事转播、安防监控和无人机、无人车、机器人等领域。
下面是一些运用的例子。

车辆跟踪

足球比赛

田径比赛

视觉目标（单目标）跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪，得到运动目标的运动参数，如位置、速率、加速度和运动轨迹等，从而进行下一步的处理与剖析，实现对运动目标的行为理解，以完成更高一级的检测任务。

其详细任务即根据所跟踪的***序列给定初始帧（第一帧）的目标状态（位置、尺度），预测后续帧中该目标状态。
基本构造（框架）如下：

基本流程：输入初始帧并指定期望跟踪的目标，常日用矩形框标定（Input Frame），不才一帧中产生浩瀚候选框（Motion Model）并提取这些候选框的特色（Feature Extractor），不雅观测模型（Observation Model）对这些候选框评分。
末了在这些评分中找一个得分最高的候选框作为预测的目标（Prediction A），或者对多个预测值进行领悟（Ensemble）得到更优的预测目标。
至此算法完成了根据第一帧的信息对第二帧的预测，后续帧以此类推，同时根据指定规则更新模型（Model Updater）。

根据如上的框架，将目标跟踪划分为五项紧张的研究内容，流程图下图所示：

流程图

运动模型（Motion Model）：如何产生浩瀚的候选样本。
特色提取（Feature Extractor）：利用何种特色表示目标。
不雅观测模型（Observe Model）：如何对浩瀚候选样本评分。
模型更新（Model Updater）：如何更新不雅观测模型使其适应目标的变革。
集成方法（Ensemble）：如何领悟多个决策得到一个更有的决策构造。

下图的总结可以帮助更好的理解目标跟踪算法是如何完成跟踪任务的。

跟踪任务流程

目标跟踪算法分类

大多数的跟踪方法紧张集中对不雅观测模型的设计，根据不雅观测模型的不同可分为两类：天生式模型（Generative Model）和判别式模型（Discriminative Model）。

天生式模型：通过提取目标特色来构建表不雅观模型，然后在图像中搜索与模型最匹配的区域作为跟踪结果。
不论采取全局特色还是局部特色，天生式模型的实质是在目标表示的高维空间中，找到与目标模型最相邻的候选目标作为当前估计。
此类方法的毛病在于只关注目标信息，而忽略了背景信息，在目标外不雅观发生剧烈变革或者遮挡时候随意马虎涌现目标漂移（drift）或者目标丢失。

举例：跟踪器从当前帧知道了目标区域80%是赤色，20%是绿色，不才一帧中搜索算法回去找最符合这个颜色比例的区域。

天生式算法框架

判别式方法：将目标跟踪看做是一个二元分类问题，通过演习关于目标和背景的分类器将目标从背景等分离出来，从候选目标中确定目标，该方法可以显著的区分派景和目标，性能鲁棒，逐渐成为目标跟踪领域主流方法。
且目前大多数基于深度学习的目标跟踪算法也属于判别式方法。

举例：在演习时见告跟踪器，目标80%是赤色，20%是绿色，同时背景中有桔赤色，要格外把稳，这样分类器知道更多信息，效果也相对较好。

判别式算法框架

目标跟踪任务的困难和寻衅

虽然目标追踪的运用前景非常广泛，但还是有一些问题限定了它的运用，紧张问题例举如下：

形态变革 - 姿态变革是目标跟踪中常见的滋扰问题。
运动目标发生姿态变革时, 会导致它的特色以及外不雅观模型发生改变, 随意马虎导致跟踪失落败。
例如:体育比赛中的运动员、马路上的行人。
尺度变革 - 尺度的自适应也是目标跟踪中的关键问题。
当目标尺度缩小时, 由于跟踪框不能自适应跟踪, 会将很多背景信息包含在内, 导致目标模型的更新缺点:当目标尺度增大时, 由于跟踪框不能将目标完备包括在内, 跟踪框内目标信息不全, 也会导致目标模型的更新缺点。
因此, 实现尺度自适应跟踪是十分必要的。
遮挡与消逝 - 目标在运动过程中可能涌现被遮挡或者短暂的消逝情形。
当这种情形发生时, 跟踪框随意马虎将遮挡物以及背景信息包含在跟踪框内, 会导致后续帧中的跟踪目标漂移到遮挡物上面。
若目标被完备遮挡时, 由于找不到目标的对应模型, 会导致跟踪失落败。
图像模糊 - 光照强度变革, 目标快速运动, 低分辨率等情形会导致目标模糊, 尤其是在运动目标与背景相似的情形下更为明显。
因此, 选择有效的特色对目标和背景进行区分非常必要。

下图是上述问题的一些实例。

目标跟踪任务中的困难与寻衅

如上图所示，目标跟踪任务中的困难和寻衅包括：

1.形变；

2.光照变革；

3.相似滋扰；

4.运动模糊；

5.背景滋扰；

6.遮挡；

7.超出画面；

8.尺度变革；

9.平面外宣扬；

10.平面内旋转；

11.背景相似

目标跟踪的数据库

严谨的数据集是驱动算法的关键，前几年目标跟踪方向的数据库资源相对匮乏，这也是目标跟踪的发展相对掉队于目标检测的主要缘故原由之一。
下面简要先容了两个威信的目标跟踪方向的数据库。

OTB50数据集

OTB可以说是做单目标跟踪必跑的数据库了，2013年的OTB50包含50个人工标注的***序列。
由于在此之前目标跟踪方向没有比较公认的数据库，所有的单跟踪算法没有一个统一的衡量，以是这个数据库的意义非常重大，直接促进了单目标跟踪算法的发展。
后来又扩展为OTB100发送到TPAMI，有100个序列，难度更大更加威信。
如果想要理解近年来比较厉害的跟踪算法，可以参考吴毅老师的论文（附后）。

VOT数据库

VOT Challenge是目标跟踪领域的赛事，类似于图形识别领域中的ImageNet寻衅赛。
这些赛事常日都是标准数据集的来源，以是VOT数据集是一个常用的目标跟踪数据集，所有序列支持免费***。
VOT竞赛已经举办了9届，每年竞赛都会涌现很多新的算法和新奇的思路，2022年的VOT竞赛也即将开启，由于每年的评测序列都会更新，且标注的精确度逐年提高，VOT竞赛也被视为视觉跟踪领域最难的竞赛，以是结果相对更可靠。

OTB和VOT差异：OTB包括25%的灰度序列，而VOT都是彩色序列，这也是造成很多颜色特色算法性能差异的缘故原由。
两个库的评价指标不尽相同，详细请参考论文和竞赛官网。

目标跟踪经典算法

前几年最热门的天生式跟踪方法是稀疏编码（Sparse Coding）, 而比来判别式跟踪方法逐渐霸占了主流地位，以干系滤波（CF：Correlation Filter）和深度学习（DL：Deep Learning）为代表的判别式方法取得了令人满意的效果。
本节按年份顺序对经典算法进行一个大略地梳理，个中各个算法的年份以论文揭橥的年份或者参加benchmark的年份为依据，帮助理解单目标跟踪算法的演化和发展趋势。
针对付不同的跟踪任务的寻衅各个算法所提出的办理思想值得我们学习体会，跟踪算法的发展趋势可见一斑。

LK Tracker 1981

LK Tracker该当是最早的目标跟踪事情，它利用了光流的观点，如下图所示，不同颜色表示光流不同的方向，颜色的深浅表示运动的速率。
光流的打算非常大略也非常快，但是它的鲁棒性不好，基本上只能对平移且外不雅观不变的物体进行跟踪。

光流法

2002 Mean Shift

Mean Shift采取均值漂移作为搜索策略，这是一种无参概率估计方法，该方法利用图像特色直方图布局空间平滑的概率密度函数，通过沿着概率密度函数的梯度方向迭代，搜索函数局部最大值。
在当时成为了常用的目标跟踪方法，大略易实现，但鲁棒性较低。

MeanShift算法

2010 MOSSE

MOSSE（Minimum Output Sum of Squared Error）利用干系滤波来做目标跟踪（不是第一个，但由于思路清晰、算法完全称为干系滤波跟踪算法的鼻祖），其速率能够达到600多帧每秒，但是效果一样平常，紧张是由于它只利用了大略的原始像素特色。

大致流程：

1、再入初始帧的groundtruth（包括中央点和矩形框的高宽）

2、对当前目标框进行随机仿射变换天生128个样本，每个样本经由高斯函数打算得出相应值，终极结合公式得出滤波器模版（图13中的FILTER）。

3、根据模版打算得出第二帧的相应图，个中相应值最大的点为第二帧目标的中央点，并以此画出目标框（图13中的OUTPUT）。

4、根据第二帧的目标区域更新滤波器模版

5、重复3-4步

MOSSE算法

2012 CSK

CSK的作者针对MOSSE做出了一些改进，作者认为循环移位能仿照当前正样本的所有的转换版本（除边界以外），因此采取循环矩阵进行密集采样（比拟MOSSE的随机仿射采样），并通过核函数将低维线性空间映射到高维空间，提高了干系滤波器的鲁棒性。

循环矩阵是一种分外的矩阵，它的一维形式便是由一个n维向量每次向右循环移动一个元素，直到天生一个n×n的矩阵，详细效果如下图所示。

循环矩阵示意图

2014 KCF

CSK的特色输入是单通道的灰度像素，而KCF利用的是HOG多通道特色，核函数利用了高斯核函数。

方向梯度特色效果图

可以说CSK和KCF的结合才是完全的核化干系滤波器的演化趋势，既有循环矩阵及傅立叶对角化简化打算，又有对单通道特种运用的拓展，可以适应更多精良的特色描述。

2014 DSST

DSST作者将跟踪分为两个部分——位置变革和尺度变革。
在跟踪过程中，作者定义了两个滤波器分别用于确定新目标的位置和尺度评估，提高了算法的鲁棒性。

2015 MDNet

MDNet设计了一个轻量级的小型网络学习卷积特色表示目标。
作者提出了一个多域的网络框架。

在离线演习时，特色提取网络是共享的，同时针对每个***序列构建一个新的检测分支进行演习。
这样特色提取网络可以学习到通用性更强的与域无关的特色。

在跟踪时，保留并固定特色提取网络，针对跟踪序列构建一个新的分支检测部分，用第一帧样本在线演习检测部分之后再利用跟踪结果天生正负样本来微调检测分支。

此外，MDNet在演习中负样本的天生用到了难例挖掘技能，随着演习的进行增大样本的分类难度，从而使得网络的判别能力越来越强。

如下图所示，负样本越来越难分。

难例挖掘

2015 SRDCF

SRDCF的作者考虑到若仅利用纯挚的干系滤波会导致边界效应，也便是干系滤波采取循环移位采样导致当目标移位到边缘时会被分割开，此时得到的样本中就没有完全的目标图像从而失落去效果。

边界效应

于是，作者的思路是既然边界效应发生在边界附近，那就忽略所有移位样本的边界部分像素，或者说限定让边界附近滤波器系数靠近0，详细做法是加入空间正则化，惩罚边界区域的滤波器系数，效果如下图。

SRDCE空间正则化

2015 HCF

HCF的紧张贡献是把干系滤波中的HOG特色换成了深度特色，它利用的是VGG的3、4、5三个层来提取特色，针对每层CNN演习一个过滤器，并且按照从深到浅的顺序利用干系滤波，然后利用深层得到的结果来勾引浅层从而减少搜索空间。

HCF算法提取深度特色

上图是利用卷积可视化得到的，如图中所示，在conv3中的特色能够比较清晰的看到目标的轮廓，但是在conv5中已经很丢脸到细节所在，但是，在conv5当中能够看到的是，本层特色包含了较多的语义信息，左半部分的高亮区域便是目标位置的所在的大概区域范围，以是在高层特色当中，能够很随意马虎的找到目标所在的大概区域范围，然后逐步利用较低层次的特色对目标进行精确定位。

2016 Staple

Staple提出了一种互补的办法。
考虑到HOG特色对形变和运动模糊比较敏感，但是对颜色变革能够达到很好的跟踪效果，color特色对颜色比较敏感，但是对形变和运动模糊能够有很好的跟踪效果，因此作者认为若能将两者互补就能够办理跟踪过程当中碰着的一些紧张问题。
于是，Staple利用HOG-KCF与color-KCF结合算法对目标进行跟踪。

此算法的创新思路大略直白，但效果很惊艳。

2016 TCNN

TCNN利用一个树形的构造来处理CNN特色。
作者利用可靠性来分配预测目标的权重，采取的更新策略是每10帧删除最前的节点，同时创建一个新的CNN节点，选择能够使新节点的可靠性最高的节点作为其父节点。
这样一贯保持一个active set，里面是10个最新更新的CNN模型，用这个active set来做跟踪。
但由于要更新网络构造，速率较慢。

TCNN树形构造更新示例

2016 siamFC

SiamFC方法的核心思想很大略，便是将跟踪过程方案为一个相似性学习问题。
即学习一个函数 f(z, x) 来比较样本图像 z 和搜索图像 x 的相似性，如果两个图像相似度越高，则得分越高。
为了找到不才一帧图像中目标的位置，可以通过测试所有目标可能涌现的位置，将相似度最大的位置作为目标的预测位置。

在深度学习中处理相似度问题最范例的是采取Siamese架构，SiamFC的网络构造如下图：

SiamFC网络构造

2017 CFNet

CFNet采取孪生网络的架构，演习样本（这里指用来匹配的模板）和测试样本（搜索的图像区域）通过一个相同的网络，然后只将演习样本做干系滤波操作，形成一个对变革有鲁棒性的模板。
为了抑制边界效应，作者施加了余弦窗并在之后又对演习样本进行了裁剪。

2018 UPDT

UPDT算法的紧张思想是差异对待深度特色和浅层特色，深层特色能通过数据增强来提升效果，同时深层特色主打的是鲁棒性而不是精度；相反，浅层特色经数据增强后反而降落了效果，但同时它能够很好地担保精度。
因此，作者得出了深度模型和浅层模型先分别独立演习，末了再领悟的方案。

2018 SiamRPN

SiamRPN在SiamFC的根本上利用了Faster RCNN中的RPN，办理了之前深度学习跟踪算法没有domain specific（可理解为类间不区分）以及还需额外的尺度检测与在线微调的问题。
RPN回归网络的引入，一方面提高了精度，另一方面回归过程代替多尺度检测，使得速率有所提升。

SiamRPN网络构造

2019 SiamRCNN

SiamRCNN创造重检测很随意马虎受到滋扰物的影响从而产生模型漂移，从难例挖掘和运动轨迹动态方案两个角度入手，设计了一个利用第一帧和前一帧为模板的孪生网络检测构造，在短时跟踪评价上效果惊人，在永劫跟踪评价上也有非常显著的进步。

个中轨迹动态方案算法(TDPA)紧张思想是通过重新检测前一帧中所有的目标候选框，并将这些候选框随韶光分组到短目标轨迹中，同时跟踪所有潜在的目标，包括滋扰目标。
然后根据***中所有目标工具和滋扰工具的完全历史轨迹选择当前最佳工具。

2020 RPT框架

RPT算法框架由目标状态估计网络与在线分类网络两部分组成：

目标状态估计网络将跟踪目标状态表示为特色点集，以提升对目标位姿变革、几何构造变革的建模能力。
在视觉目标跟踪任务中，为了方便真值标注与特色提取，目标状态常日用矩形框进行表示。
矩形框一方面是对目标区域的一种粗略表示，包含多余的背景；另一方面不具备对目标位姿变革、几何构造变革的建模能力，进而限定了回归精度。
因此，将跟踪目标表示为一系列特色点，通过监督学习目标区域内的语义关键点与极值点，实现更风雅的目标状态估计。

PRT目标状态估计网络

在线分类网络由轻量的两层全卷积神经网络构成，使得RPT框架具备对抗周边相似滋扰物的强鲁棒性。

RPT在线分类网络

目标跟踪的研究趋势

本节浅析近几年来目标跟踪领域各种算法主流的研究趋势和发展方向。

a) 信息提取

深度特色

在现实场景中，物体是在三维的运动场中移动的。
而***或图像序列都是二维的信息，这实在是一些难题的根本缘故原由之一。
一个比较极度的例子便是理发店门前常常会涌现的旋转柱，如果纯挚地从二维角度来看，柱子是向上运动的，可在实际的运动场中柱子是横向运动的，不雅观测和实际的运动方向是完备垂直的。

旋转柱效果图

因此，为了能够更好地跟踪目标，我们须要提取尽可能好的特色，此外最好能从***或图像序列中学到更多丰富的信息（尤其是含语义的）。

时域和空间域结合

由于CNN能够在学习的过程中能够产生对样本中各个区域有区分的关注度，因此可以不考虑边界效应。
对边界效应的处理紧张是在干系滤波类等须要循环移位的算法中涌现。