简介

Fast R-CNN借鉴了 SPPNet 的 spatial pyramid pooling layer ，并简化为只有一个固定范围的 RoI pooling layer。并进一步升级，将网络之间统一训练（分类+边框回归），不仅大大提高了训练与测试的速度，而且小幅地提高了mAP。

原理

改进的地方：

提出一个RoI pooling(region of interest即候选区)，然后整合整个模型，把CNN、SPP变换层、分类器、bbox回归几个模块一起训练。

阅读全文 »

简介

SPPNet是出自2015发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》，这篇论文解决之前深度神经网络的一个大难题，即输入数据的维度一定要固定。在ILSVRC2014，SPPNet取得目标检测第二，图像分类第三的成绩。

阅读全文 »

简介

R-CNN作为经典目标检测算法，由Ross Girshick在CVPR 2014提出，获得了当时VOC2007，VOC2010等目标检测任务最优的成绩。

原理

完整R-CNN结构

不使用滑动窗口方法(候选框多，费时间）。

阅读全文 »

简介

ResNet（Residual Neural Network）由微软研究院的Kaiming He等四名华人提出，通过使用ResNet Unit成功训练出了152层的神经网络，并在ILSVRC2015比赛中取得冠军，在top5上的错误率为3.57%，同时参数量比VGGNet低，效果非常突出。ResNet的结构可以极快的加速神经网络的训练，模型的准确率也有比较大的提升。同时ResNet的推广性非常好，甚至可以直接用到InceptionNet网络中。
下图是ResNet34层模型的结构简图。

阅读全文 »

深度学习(七)——Batch Normalization+Pytorch实现

发表于 2022-01-13 分类于深度学习

简介

Batch Normalization是如今深度学习常见的方法，来加速深层网络训练的收敛，并且有正则化的作用，甚至可以不使用Dropout或者减小神经元被drop的概率。

原理

深度神经网络训练的问题

阅读全文 »

深度学习(六)——GoogleNet+Pytorch实现

发表于 2022-01-11 分类于深度学习

简介

inception（也称GoogLeNet）是2014年Christian Szegedy提出的一种全新的深度学习结构，在这之前的AlexNet、VGG等结构都是通过增大网络的深度（层数）来获得更好的训练效果，但层数的增加会带来很多负作用，比如overfit、梯度消失、梯度爆炸等。inception的提出则从另一种角度来提升训练结果：能更高效的利用计算资源，在相同的计算量下能提取到更多的特征，从而提升训练结果。

阅读全文 »

深度学习(五)——ZFNet+Pytorch实现

发表于 2022-01-09 分类于深度学习

简介

AlexNet的提出使得大型卷积网络开始变得流行起来，但是人们对于CNN网络究竟为什么能表现这么好，以及怎么样能变得更好尚不清楚，因此为了解决上述两个问题，ZFNet提出了一种可视化技术，用于理解网络中间的特征层和最后的分类器层，并且找到改进神经网络的结构的方法。ZFNet是Matthew D.Zeiler 和 Rob Fergus 在2013年撰写的论文Visualizing and Understanding Convolutional Networks中提出的，是当年ILSVRC的冠军。ZFNet使用反卷积（deconv）和可视化特征图来达到可视化AlexNet的目的，并指出不足，最后修改网络结构，提升分类结果。

阅读全文 »

深度学习(四)——VGG+Pytorch实现

发表于 2022-01-09 分类于深度学习

简介

VGG是牛津大学的Visual Geometry Group的组提出的。该网络是在ILSVRC 2014上的相关工作（定位任务第一，分类任务第二），主要工作是证明了增加网络的深度能够在一定程度上影响网络的最终性能（对比了多个不同深度网络的性能）。

从上表可以发现，VGG只使用了两个网络就能获得非常好的效果。

阅读全文 »

深度学习(三)——AlexNet+Pytorch实现

发表于 2022-01-07 分类于深度学习

简介

在2010年的ImageNet LSVRC-2010上，AlexNet在给包含有1000种类别的共120万张高分辨率图片的分类任务中，在测试集上的top-1和top-5错误率为37.5%和17.0%（top-5 错误率：即对一张图像预测5个类别，只要有一个和人工标注类别相同就算对，否则算错。同理top-1对一张图像只预测1个类别），在ImageNet LSVRC-2012的比赛中，取得了top-5错误率为15.3%的成绩，而第二名的成绩为26.2%，可见AlexNet在当时有多强大。

阅读全文 »

深度学习(二)——经典网络LeNet+Pytorch实现

发表于 2021-12-30 分类于深度学习

LeNet神经网络介绍

LeNet神经网络由深度学习三巨头之一的Yan LeCun提出，他同时也是卷积神经网络 (CNN，Convolutional Neural Networks)之父。LeNet主要用来进行手写字符的识别与分类，并在美国的银行中投入了使用。LeNet的实现确立了CNN的结构，现在神经网络中的许多内容在LeNet的网络结构中都能看到，例如卷积层，Pooling层，ReLU层。虽然LeNet早在20世纪90年代就已经提出了，但由于当时缺乏大规模的训练数据，计算机硬件的性能也较低，因此LeNet神经网络在处理复杂问题时效果并不理想。虽然LeNet网络结构比较简单，但是刚好适合神经网络的入门学习。

阅读全文 »

cbw

目标检测(三)——Fast R-CNN

简介

原理

目标检测(二)——SPPNet

简介

目标检测(一)——R-CNN

简介

原理

完整R-CNN结构

深度学习(八)——ResNet+Pytorch实现

简介

深度学习(七)——Batch Normalization+Pytorch实现

简介

原理

深度神经网络训练的问题

深度学习(六)——GoogleNet+Pytorch实现

简介

深度学习(五)——ZFNet+Pytorch实现

简介

深度学习(四)——VGG+Pytorch实现

简介

深度学习(三)——AlexNet+Pytorch实现

简介

深度学习(二)——经典网络LeNet+Pytorch实现

LeNet神经网络介绍