简单之美 | 卷积神经网络介绍

卷积神经网络（Convolutional Neural Networks，CNN）是由纽约大学的 Yann Lecun 于 1998 年提出的，其本质是一个多层感知机，它是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（Deep Learning）的代表算法之一。卷积神经网络是一种特殊的多层神经网络，像其它的神经网络一样，卷积神经网络也使用一种反向传播算法来进行训练，不同之处在于网络的结构。
卷积神经网络（CNN）具有一些传统技术所没有的优点：

良好的容错能力、并行处理能力和自学习能力，可处理环境信息复杂，背景知识不清楚，推理规则不明确情况下的问题；
它允许样本有较大的缺损、畸变，运行速度快，自适应性能好，具有较高的分辨率；
它是通过结构重组和减少权值将特征抽取功能融合进多层感知器，省略识别前复杂的图像特征抽取过程。

CNN 基本特征

下面，我们根据网上大家分享的有关卷积神经网络（CNN）的内容，梳理总结 CNN 所具有的一些特征，如下所示：

具有多层层次网络结构

卷积神经网络（CNN）被认为是第一个真正成功的、采用多层层次结构网络的、具有鲁棒性的深度学习方法，它通过挖掘数据在空间上的相关性，来减少网络中的可训练参数的数量，从而改进了前向传播网络的反向传播算法效率。
在 CNN 中，图像中的小块区域（也叫做“局部感知区域”）被当做层次结构中的底层的输入数据，信息通过前向传播经过网络中的各个层，在每一层中都由过滤器构成，以便能够获得观测数据的一些显著特征。因为局部感知区域能够获得一些基础的特征，比如图像中的边界和角落等，这种方法能够提供一定程度对位移、拉伸和旋转的相对不变性。
CNN 中层次之间的紧密联系和空间信息，使得其特别适用于图像的处理和理解，并且能够自动的从图像抽取出丰富的相关特性。

不需要对样本进行复杂预处理

卷积神经网络（CNN）的分类模型，与传统模型的不同点在于其可以直接将一幅二维图像输入模型中，并在输出端给出分类结果。好处显而易见，不需复杂的预处理，将特征抽取、模式分类完全放入一个黑匣子中，通过不断的优化来获得网络所需参数，在输出层给出我们需要的分类结果。CNN的特征提取层参数是通过训练数据学习得到的，所以其避免了人工特征提取，而是从训练数据中进行学习。

局部连接，具有很强的泛化能力

卷积神经网络（CNN）的泛化能力要显著优于其它方法，已经被广泛应用于模式分类、物体检测、物体识别等方面。利用卷积神经网络建立模式分类器，将卷积神经网络作为通用的模式分类器，直接用于灰度图像。
卷积神经网络（CNN）通过结合局部感知区域、共享权重、空间或者时间上的降采样来充分利用数据本身包含的局部性等特征，优化网络结构，并且能够保证一定程度上的位移和变形的不变性。所以，CNN可以用来识别位移、缩放及其它形式扭曲不变性的二维或三维图像。
卷积神经网络（CNN）是一种深度的监督学习下的机器学习模型，具有极强的适应性，善于挖掘数据局部特征，提取全局训练特征和分类，它的权值共享结构网络使之更类似于生物神经网络，在模式识别各个领域都取得了很好的成果。

共享权值，减少了网络参数

卷积神经网络（CNN）的权值共享特性，可以减少需要求解的参数数量。在卷积层中每个神经元连接数据窗的权重是固定的，每个神经元只关注一个特性。使用多种滤波器（卷积核）去卷积图像，就会得到多种特征映射（Feature Map），同一特征映射的神经元共享权值，减少了网络参数，这也是卷积网络相对于全连接网络的一大优势。
另一方面，权值共享同时降低了网络的复杂性，且多维输入信号（语音、图像）可以直接输入网络的特点避免了特征提取和分类过程中数据重排的过程。
隐藏层的参数个数和隐藏层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关。隐藏层的神经元个数，与原图像（也就是输入的大小，即神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关。

CNN 网络结构

卷积神经网络（CNN）一般是由卷积层、池化层和全连接层交叉堆叠而成的前馈神经网络。卷积神经网络有三个结构上的特性：局部连接、权重共享以及池化，这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性，和前馈神经网络相比，卷积神经网络的参数更少。

卷积运算

卷积神经网络使用了一种高效的计算操作——卷积，在信号处理或图像处理中，经常使用一维或二维卷积，因为图像为一个二维结构，所以需要将一维卷积进行扩展。
输入信息为 X，滤波器为 W，对应二维卷积定义为：

Y = W * X

例如，下图是一个二维卷积运算的例子：
CNN-2d-Example
左侧矩阵可以是一个输入图片，二维卷积运算符 * 右侧的是一个卷积核，等号右侧的是经过卷积计算后得到的结果，被称为特征映射（Feature Map），它表示使用卷积运算为输入图片提取特征。上图结果特征映射矩阵右上角的 -1，是通过如下计算得到的：

1x(-1)+1x0+1x0+(-3)x0+0x0+1x0+1x0+(-1)x0+0x1 = -1

其他特征映射矩阵元素，类似地，根据输入矩阵中与卷积核窗口 3×3 相同的输入子矩阵，基于滑动步长 1 进行滑动，然后与卷积核做卷积运算便可以得到。
下面，再给出一个多通道的卷积运算的例子，下图中有2个输入通道，如下图所示：
CNN-Multi-Channel-Example
上面进行卷积运算时，2 个输入通道对应 2 个卷积核，不同输入通道的矩阵需要与它对应的卷积核做卷积运算，最后输出的结果需要把 2 个通道卷积计算结果进行加和，得到输出特征映射矩阵的一个元素。例如，上面结果元素 56 的计算过程为：

(1×1+2×2+4×3+5×4)+(0×0+1×1+3×2+4×3) = 56

其它结果矩阵元素的计算方式也类似。

特征映射

特征映射（Feature Map）为一幅图像（或其他特征映射）在经过卷积提取后得到的特征，每个特征映射可以作为一类抽取的图像特征。为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。
在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，输入层的深度 D=1；如果是彩色图像，分别有 RGB 三个颜色通道的特征映射，输入层的深度 D=3。

卷积层

卷积层有两个很重要的性质：
第一个性质是，局部连接。在卷积层（假设是第L层）中的每一个神经元都只和下一层（第 L−1 层）中某个局部窗口内的神经元相连，构成一个局部连接网络。作为参数的卷积核对于第 L 层的所有的神经元都是相同的。
第二个性质是，权值共享。权值共享可以理解为一个卷积核只捕捉输入数据中的一种特定的局部特征，所以如果要提取多种特征就需要使用多个不同的卷积核。
如下图所示，（a）是全连接神经网络中的全连接层，全连接层权重矩阵的参数非常多，训练效率会比较低。而（b）是卷积神经网络中的卷积层，卷积层中相同颜色的连接上，权重是相同的，这样得到的权重矩阵的参数数量大大减少。
CNN-Conv-Layer

池化层

池化层的作用是进行特征选择，降低特征数量，从而减少参数数量。
卷积层虽然可以显著减少网络中连接的数量，但特征映射组中的神经元个数并没有显著减少。如果后面接一个分类器，分类器的输入维数依然很高，很容易出现过拟合。为了解决这个问题，可以在卷积层之后加上一个池化层，从而降低特征维数，避免过拟合。
池化（Pooling）是指对每个区域进行下采样（Down Sampling）得到一个值，作为这个区域的概括。常用的池化函数有：
（1）最大池化函数（Max Pooling）：选择一个区域内所有神经元的最大活性值作为这个区域的表示；
（2）平均池化函数（Mean Pooling）：一般是取区域内所有神经元活性值的平均值。
下面是一个池化层中最大池化过程的示例，如图所示：
CNN-Max-Pooling
通过上图示例可以看出，池化层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。
典型的池化层是将每个特征映射划分为 2×2 大小的不重叠区域，然后使用最大池化的方式进行下采样。池化层也可以看作一个特殊的卷积层，卷积核大小为 KxK，步长为 S，卷积核为 max 函数或 mean 函数。过大的采样区域会急剧减少神经元的数量，也会造成过多的信息损失。

CNN结构

一个典型的卷积网络是由卷积层、池化层（Pooling Layer，又称为汇聚层，或者子采样层）、全连接层交叉堆叠而成，目前常用的卷积网络结构如下图所示：
CNN-Structure
一个卷积块为连续 M 个卷积层和b个池化层（M通常设置为 2~5，b 为 0 或 1）。一个卷积网络中可以堆叠 N 个连续的卷积块，然后在后面接着 K 个全连接层（N 的取值区间比较大，比如 1∼100 或者更大，K 一般为 0~2）。
下面看一个典型的卷积神经网络模型 LeNet-5，它是第一个最基础的 CNN 神经网络，是一个主要用来识别手写字体的网络模型，我们经常能看到很多 DL 框架以 MNIST 数据集来进行训练和测试。LeNet-5 的模型架构如下图所示：
CNN-LeNet-5
如果包含输入层，LeNet-5 网络一共有 8 层（包含输入层），其中 INPUT 是输入层，C1、C3 为卷积层，S2、S4 为池化层，F6 位全连接层，OUTPUT 是输出层。

常见的经典 CNN 模型

卷积神经网络模型也在不断的发展和改进，常见的主要有 LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet、ZFNet。目前，经典的 CNN 模型设计的改进思路，基本上在网络深度以及增加更多的卷积计算的方向发展，并且经过实践确实在效果上有了一定的提升。

参考文献/链接

Gradient-Based Learning Applied To Document Recognition
Imagenet Classification With Deep Convolutional Neural Networks
Very Deep Convolutional Neural Networks For Large-scale Image Recognition
Visualizing and Understanding Convolutional Neural Networks
《Dive Into Deep Learning》
《神经网络与深度学习》
https://blog.csdn.net/jiaoyangwm/article/details/80011656
https://www.jianshu.com/p/1ea2949c0056
https://blog.csdn.net/qq_35976351/article/details/79690551
https://www.jianshu.com/p/93990a641066

本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布，欢迎转载、使用、重新发布，但务必保留文章署名时延军（包含链接：http://shiyanjun.cn），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。

发表评论取消回复

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

发表评论 取消回复

发表评论取消回复