1. 研究目的与意义
随着科技的进步以及计算机视觉的发展,图像深度估计作为计算机视觉中的重要领域极受关注,挖掘二维图像中的深度信息,可以帮助计算机理解场景的三维结构,在虚拟现实、汽车自动驾驶、人脸的检测和识别等众多领域都有广泛的应用。
使用深度传感器测量深度精度高,测量耗时短,但设备昂贵难以普及,部分设备如红外线设备受环境影响较大,考虑到工业设备、人工成本、实际应用的问题,如何低设备成本、高准确率的从图像中恢复场景的深度信息就十分重要。深度学习的飞速发展使单目图像测量深度成为可能,利用单目图像研究深度价格低廉,实现方便,不受设备限制,已逐渐成为当前计算机视觉领域的研究热点之一。
2. 研究内容和预期目标
(1)研究内容:
本次毕业设计的研究主要基于深度学习进行单目图像的深度信息恢复,达到对给定输入图像能够准确预测对应实际场景深度信息的效果。
(2)拟解决的关键问题:
3. 国内外研究现状
在深度学习尚未应用在图像深度估计时,单目图像深度估计方法大多利用图像中的视觉线索恢复场景深度,或是基于硬件设备使图片含有几何结构,通过几何计算获取深度值,但这些方法要求高,适用面低,准确率低。直到2014年,eigen等人首次将神经网络应用于深度估计,采用两个并行的神经网络分别从全局和局部角度进行深度估计,然后将粗略估计结果与局部优化结果相结合,得到最终深度图像,比传统方法提高了35%左右。自此,基于深度学习的单目图像深度估计开始百花齐放。
基于深度学习的单目图像深度分为有监督学习和无监督学习两种。有监督学习中,2015年,eigen等人改进了之前的网络结构,提出多尺度的网络结构。2016年,laina等人提出一种全卷积神经网络,深度估计任务被视为一种回归问题,得到了分辨率更高的深度图像。2017年,cao等人利用分类的方法解决深度估计问题,他们将连续的深度值转化为不同范围类别的深度,并结合条件随机场来改善深度估计的性能。之后的研究中,moukari等人提出一种空间金字塔结构,通过融合多种尺度的特征信息,有效提高深度估计的准确率,获得了效果更好的深度图像,并且在评价指标上该方法都优于同时期的其他方法。
在无监督学习中,garg等人利用立体图像对的重构误差进行深度图的预测,其中主要利用了图像间的对齐损失来预测单幅图像的深度信息。godard等人改进了上述方法,通过卷积神经网络同时预测输出左右两张视差图,之后又使用左右视差一致性来提升网络预测输出性能,提高了深度估计质量。图的一致性损失提高最后输出结果的质量。zhou等人提出了一种基于单目相机的图像序列进行深度估计的方法,该方法利用的是视频序列中连续帧之间的不同视角几何信息作为参考,通过反向传播实现网络的无监督方式训练。casser等在此基础上,在学习过程中引入一个几何结构,为每个动态物体的运动进行独立建模,然后进行深度估计,这一方法在获取诸如汽车、行人等动态物体的深度时优势明显。
4. 计划与进度安排
1、2022-11-16至2022-11-24:指导老师下达任务书,对本次毕业设计的进度安排、和最终效果提出要求。
2、2022-11-25至2022-12-31:收集文献资料,做好基础的数据准备及技术准备工作,构思整体框架。
3、2022-01-01至2022-06-28:在导师的指导下,完成基础模型搭建,并通过导师检验。
5. 参考文献
[1]李智宏. 基于深度学习的单目图像深度估计问题研究[d].山西大学,2021.
[2]付新竹. 基于深度学习的单目图像深度信息恢复[d].中国矿业大学,2021.
[3]李阳,陈秀万,王媛,刘茂林.基于深度学习的单目图像深度估计的研究进展[j].激光与光电子学进展,2019,56(19):9-25.
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。