单目深度估计是指从单幅图像中获取场景深度信息。
该任务包括预测相机光源中央与图像中每个像素对应的三维点之间的间隔,这在三维建模、机器人技能和自动驾驶汽车等下贱运用中具有直接意义。
由于单目深度估计实质是一个病态问题求解过程,因此极具寻衅性,得到了全天下研究者们的广泛关注。

国际顶级期刊《模式识别》刊发我校人工智能学院研究生一作论文_编码器_深度 智能助手

为了得到更高的性能,现有的研究是通过利用Transformer大模型编码器去提取图像多尺度特色,这使得演习过程占用大量的打算资源,模型更加繁芜和参数量一样平常为数百兆字节。
针对这一问题,论文提出了一种新颖的大略编码器-解码器架构,利用一个基于卷积把稳力的编码器来预测多尺度特色图,并通过基于隐式神经表示的轻量深度估计解码器有效领悟。
提出了多维卷积把稳模块,进一步细化编码器提取的多尺度信息,在此根本上提出了一种双把稳力Transformer模块增强全局信息的提取精度以实现精确的像素分类。
论文首次在少量的参数下实现与基于Transformer大型模型编码器险些相同的深度估计精度。
该论文的算法框架如下所示。

下图展示了论文算法和前沿算法定性的比拟实验结果。

论文技能成果能够在算力受限条件下得到高精度的场景深度信息,预期在机器人导航、视觉SLAM和自动驾驶领域具有广泛的运用前景,能为机器人自主导航定位供应理论和技能支撑。

论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320323006805