计算机视觉学习路径
成文时间:2020-09-20 00:00:00
1. 什么是计算机视觉
-
计算机视觉(Computer Vision, CV)
-
机器视觉(Machine Vision, MV)
-
相同领域间的异同
-
计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景,例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容
-
图像处理与图像分析的研究对象主要是二维图像,实现图像的转化,尤其针对像素级的操作,例如提高图像对比度,边缘提取,去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的具体内容无关,图像处理很多情况下指数字图像处理
-
机器视觉主要是指工业领域的视觉研究,例如自主机器人的视觉,用于检测和测量的视觉。这表明在这一领域通过软件硬件,图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作
-
模式识别使用各种方法从信号中提取信息,主要运用统计学的理论。此领域的一个主要方向便是从图像数据中提取信息
-
-
相同领域关系图
-
计算机视觉一般路径
- 图像获取 -> 预处理 -> 特征提取 -> 检测/分割 -> 高级处理
-
图像处理一般路径
- 图像与视频I/O模块 -> 图像处理基础 -> 图像卷积操作相关 -> 二值图像分析与处理 -> 视频分析与对象跟踪 -> 特征提取与对象检测 -> 深度神经网络DNN模块
2. 基于py的计算机视觉学习路径
- python基础与统计相关知识
- numpy库是科学计算的基本库,重在数值计算,是用于多维数组处理的库
- scipy基于numpy,提供了做科学计算的工具集,是更高层次的库
- TensorFlow中使用的为tensor结构,可以通过指定工具包进行显示转换
- 图像处理与基础变换
- opencv库内部相关模块
- 机器学习基础
- sklearn相关教程学习
AI技术之间的包含关系
-
关系图
-
各部分定义
- 人工智能:研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,模拟、延伸和扩展人的智能
- 机器学习:用算法解析数据,不断学习,对世界中发生的事做出判断和预测的一项技术,用大量数据和算法“训练”机器,让机器学会如何执行任务
- 神经网络:人学习知识是通过神经元的连接,通过模仿人脑机理发明了人工神经元,多层神经元的连接,就形成了神经网络
- 深度学习:用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术,试图模仿大脑的神经元之间传递,处理信息的模式
深度学习图像处理步骤
- 计算机视觉基础
- 图像预处理
- 图像显示与存储原理、图像增强的目标,对比度增强、形态学处理
- 空间域处理,卷积、平滑,边缘检测,锐化、频率域处理,傅里叶变换,小波变换
- 图像特征及描述
- 颜色特征:量化颜色直方图,聚类颜色直方图
- 几何特征:Edge,Corner,Blob
- 关键点特征:SIFT,SURF,ORB
- 其他特征:LBP,Gabor
- 图像预处理
- 深度学习理论基础
- BP神经网络详解
- 神经元、前馈网络、梯度下降、误差反向传播
- 深度学习基础
- BP神经网络详解
- 深度学习在计算机视觉中的应用
- 图像分类->卷积神经网络CNN
- 图像检测->区域卷积神经网络R-CNN
- 图像分割->全卷积神经网络FCN
- 图像描述->迭代神经网络RNN
- 图像生成->生成对抗网络GAN
神经网络的进化
- CNN
- AlexNet->VGG-GoogLeNet->ResNet->ResNeXt
- R-CNN
- R-CNN->SPP-Net->Fast/Faster R-CNN
- YOLO->SSD->R-FCN
- FCN
- FCN->SegNet/DeconvNet->DeepLab
- RNN
- Vanilla RNN->LSTM->GRU
- GAN
- GAN->CGAN->DCGAN->wGAN
图像预处理的意义
- 突出对人或者机器分析有意义的信息
- 一直无用信息,提高图像的使用价值
图像处理分类
- 空间域运算
- 点运算、形态学运算、邻域运算
- 频率域运算
- 傅里叶变换、小波变换