本篇博客我们来分析一下卷积在神经网络中为何如此受用,然后对如何整合这些卷积,如何通过一个标注过的训练集训练卷积神经网络做个简单概况,和只用全连接层相比,卷积层的两个主要优势在于参数共享和稀疏连接。
假设有一张32x32x3维度的图片,这是上一篇博客的示例,假设用了6个大小为5x5的过滤器,输出维度为28x28x6。32x32x3 = 3072, 28x28x6 = 4704.
我们构建一个神经网络,其中一层含有3072个单元,下一层含有4074个单元,两层中的每个神经元彼此相连,然后计算权重矩阵,它等于4074 x 3072约等于1400万,所以要训练的参数很多。虽然以现在的技术,我们可以用1400多万个参数来训练网络,因为这张32x32x3的图片非常小,训练这么多参数没有问题。如果这是一张1000x1000的图片,权重矩阵会变得非常大。
我们看看这个卷积层的参数数量,每个过滤器都是5x5,一个过滤器有25个参数,再加上偏差参数,那么每个过滤器就有26个参数,一共有6个过滤器,所以参数共计156个,参数数量还是很少。
卷积网络映射这么少参数有两个原因:
一是参数共享 。观察发现,特征检测如垂直边缘检测如果适用于图片的某个区域,那么它也可能适用于图片的其他区域。也就是说,如果你用一个3x3的过滤器检测垂直边缘,那么图片的左上角区域,以及旁边的各个区域(左边矩阵中蓝色方框标记的部分 )都可以使用这个3x3的过滤器。每个特征检测器以及输出都可以在输入图片的不同区域中使用同样的参数,以便提取垂直边缘或其他特征。它不仅适用于边缘特征这样的低阶特征,同样适用于高阶特征,例如提取脸上的眼睛,猫或者其他特征对象 。即使减少参数个数,这9个参数同样能计算出16个输出。
直观感觉是, 一个特征检测器,如垂直边缘检测器用于检测图片左上角区域的特征,这个特征很可能也适用于图片的右下角区域。因此计算图片左上角和右下角区域时,你不需要添加其他特征检测器。假如有一个这样的数据集 ,其左上角和右下角可能有不同分布,也有可能稍有不同,但很相似,整张图片共享特征检测器,提取效果也很好。
第二个方法是使用稀疏连接,我来解释下。这个0是通过3x3的卷积计算得到的,它只依赖于这个3x3的输入的单元格,右边这个输出单元(元素0)仅与36个输入特征中9个相连接,而其他像素值都不会对输出产生任何影响,这就是稀疏连接 的概念。
再举个栗子,这个输出(右边矩阵中红色标记的元素30)仅仅依赖于这9个特征(左边矩阵红色方框标记 的区域),看上去只有这9个输入特征与输出相连接,其他像素对输出没有任何影响 。
神经网络可以通过 这两种机制 减少参数,以便我们用更小的训练集来训练它,从而预防过度拟合。
你们可能听说过,卷积神经网络善于捕捉平移不变。
通过观察可以发现,向右移动两个像素,图片中的猫依然清晰可见,因为神经网络的卷积结构使得即使移动几个像素,这张图片依然具有非常相似的特征,应该属于同样的 输出标记。实际上,我们用同一个过滤器生成各层中,图片的所有像素值,希望网络通过自动学习变得更加健壮,以便更好地取得所期望的平移不变属性。
这就是卷积或卷积网络在计算机视觉任务中表现良好的原因。
最后,我们把这些层整合起来,看看如何训练这些网络。比如我们要构建一个猫咪检测器,我们有下面这个标记训练集,x表示一张图片,yhat是二进制标记或者某个重要标记,我们选定了一个卷积神经网络,输入图片,增加卷积层和池化层,然后添加全连接层,最后输出一个softmax,即yhat。卷积层和全连接层有不同的参数 w和偏差b,我们可以用任何参数集合 来定义代价函数。一个类似于我们之前讲过的那种代价函数,并随机初始化其参数 w和b,代价函数J等于神经网络对整个训练集的预测的损失总和再除以m。即:
所以训练神经网络,你要做的就是使用梯度下降法,或其他算法,例如Momentum梯度下降法,含RMSProp或者其他因子的梯度下降来优化神经网络中所有参数 ,以减少代价函数J的值。通过上述操作你可以构建一个高效的猫咪检测器或者其他检测器。
卷积神经网络(一)到卷积神经网络 (十)系列
到目前为止我们已经学习了卷积神经网络的所有基本构造模型,以及如何在高效图片识别系统中整合这些模型 。通过编程练习,会更加具体了解这些概念,试着整合这些构造模型,并用它们解决自己的问题。
后期,我们将继续深入学习卷积神经网络,我曾提到卷积神经网络中有很多超参数,后面的博客中,我打算具体展示一些最有效的卷积神经网络示例,你也可以尝试去判断哪些网络架构类型效率更高。人们通常的做法是将别人发现和发表在研究报告上的架构应用于自己的应用程序。
此外,我们也会深入分析卷积神经网络如此高效的原因,同时讲解一些新的计算机视觉应用程序,例如,对象检测 和神经风格迁移以及如何利用这些算法创造新的艺术品形式 。
Reference
吴恩达深度学习第四门课:卷积神经网络