基于深度学习的航拍图像目标检测

Posted by Jinming Qiao on May 2, 2020

基于深度学习的航拍图像目标检测


论文名称:《基于深度学习的航拍图像目标检测》

指导教师:秦志光

论文作者:许金逗

毕业院校:电子科技大学


文章内容概要

  1. 介绍了航拍图像目标检测的研究背景及意义,说明目标检测技术由传统的机器学习转向深度研究现状
  2. 阐述航拍图像传统数据集主要区别给目标检测带来的难点与相关可行模型研究现状
  3. 介绍深度学习主流模型,简要说明深度神经网络的理论知识,介绍二阶模型R-CNN思维·结构与后续改进
  4. 介绍一阶模型YOLO模型结构与发展,根据航拍图像的特点,选择研究模型
  5. 对网络模型的改进 ,介绍 模型改进部分与相关参数调整,简述训练程与实现过程

神经网络结构与算法

  • 机器学习包括很多模型算法,比如决策树,聚类K邻近算法 ,K-Means, SVM,以及神经网络
  • 神经元与感知器
    1. 神经元即神经细胞,是神经系统的基本组成和功能单元,信息从轴突进行传递到神经元的树突,在神经元之间实现传递
    2. 感知器模型,在MP 模型的基础上,把输入信号设置为神经元节点,在第二层的输出单元中进行计算
    3. 多层神经网络即深度学习,通过预训练找到接近最优解的权值,之后对网络进行微调优化,大幅度减少了训练多层神经网络的时间
  • 梯度下降
    • 感知器能够自主对样本进行学习,所以不需要设定参数,而是通过训练不停地减小预测结果和真实值的差距,从而更新参数,得到接近最优解的拟合函数,实现分类任务
  • 反向传播算法
    1. 前向传播,样本数据传入输入层,经过隐藏层处理,传递到输出层。
    2. 反向传播,计算预测值与真实值的误差,然后把误差反向传播到前面的层。根据损失函数,通过梯度下降的方式,调整各层之间的参数值,使得目标函数值减小。
    3. 通过不断输入新的样本数据,重复上述步骤,不断更新网络的权重,达到指定条件时停止,得到学习后的网络模型。

基于深度学习的多尺度目标检测

  • 提高目标检测网络精确度的方法
    • 残差网络,包含 8个神经网络层, 5个卷积层和3个全连接层,先是卷积层然后激活函数奠定了基础,通过层逐渐学习 获得更复杂的语义特征
  • 多尺度特征融合
    • 图像金字塔表示了图像的多种尺度,自底向上图片尺度逐渐减小,形似金字塔,最早用于机器视觉和图像压缩领域,是特征检测中的基础理论和技术。最常见的两种金字塔是高斯金字塔 ( Gaussian pyramid)和拉普拉斯金字塔(Laplacian pyramid)
    • 高斯金字塔:用于缩小图像即下采样(subsampled);拉普拉斯金字塔用于放大图像即上采样(upsampled)来重建图像
  • 基于Darknet-53的目标检测网络模型
    • YOLO网络模型在速度与精确平衡方面具有较好的表现。原因在于相较第一代模型,它结合上述 FPN特征金字塔网络、残差网络等方法

网络模型的微调及结果分析

  • 聚类先验框
    • 如果一个图像中只有物体,进行box回归时,只需要一个回归时,但实际的目标检测任务 中,通常需要对一副图像的多个类别进行回归
  • 损失函数的调整
    • 一阶方法的精确度低于二阶方法,造成这个问题的原因在于传统的两阶目标检测模型中,第一阶段接收输入图像并输出区域建议结果,即可能存在物体的位置,这一步去除了一些易分负样本,第二阶段涉及对每个建议所属的类别进行分类

实验结果图

  • 实验结果图