FCN
技术思想及原理分析
FCN(Fully Convolution Network),顾名思义,即全卷积网络,做为使用深度学习做图像分割的先例,其象征意义更大于实际意义。FCN的主要特点是整个网络全部是由卷积网络构成的,不包括全连接。另外FCN采用的结构是以编解码网络为主干的瓶颈结构,加上了各层级之间的跳跃链接来获取局部细节信息。但由于模型设计简单,下采样部分和上采用部分并不对等,其分割效果并不理想。现自编码是先把输入数据进行压缩成特征精髓,然后再对压缩过后的特征精髓进行解压缩还原,这是不是和我们的文件压缩和解压缩非常相似,其实二者原理是一样的,只不过文件压缩是无损压缩,而自编码模型对输入数据进行的是有损压缩,可以理解为自编码模型在压缩过程中,丢掉了部分不重要的特征,然后留下的是主要特征。在解压缩的时候,通过网络的学习,再去还原丢掉的那部分不重要的特征信息。由于神经网络是一个函数模拟器,网络是会学到一些特征,但是和丢掉的那部分特征又不完全一样,这就造成了网络输出的数据和输入数据很相似,但又不是完全一样的数据。
应用场景及商业价值
分割类模型的应用场景比较广泛,目前常见的应用范围涉及医疗影像分割、交通道路分割、GIS地理单位分割等领域。FCN是较早使用编解码瓶颈结构加跳跃连接来实现像素级分割的神经网络模型,虽然效果并不理想,但是对后来这一类模型的发展提供了可参考的价值,在后面的很多分割模型当中都可以看到FCN的影子。下图是FCN在不同的跳跃连接和步长下的分割效果,很明显,跳跃连接更多的分割也更精准一些。
UNet系列
技术思想及原理分析
UNet可以看作是对FCN的一种优化,前面子啊介绍FCN的时候说了,在FCN之后的很多基于神经网络的分割模型都可以看到FCN的影子,而UNet就是其中一个。UNet和FCN比起来,首先在模型结构上做到了完全对称,下采样部分的参数结构和上采用部分的参数结构几乎保持一致。另外在每个对应的下采样和上采样之间都使用了跳跃连接来增强细节信息的捕捉。在FCN中的add被改成了concatenate,让通道上的特征信息更加丰富。
应用场景及商业价值
由于UNet的分割效果更好,基于UNet的实际分割应用也更加广泛,UNet开始被设计出来的时候,就是为了做医学影像分割的。左图是UNet对眼球毛细血管的分割效果图,可以看出UNet对图像细节的分割效果是非常好的。
除了UNet之外,在UNet家族中还有UNet++,UNet3+,U²Net等等,其效果都要比原始的UNet更强。左图有N²Net的分割效果。可以看出U²Net的分割效果也是非常出色的。
DeepLab系列
技术思想及原理分析
DeepLab在图像分割领域中是另一个系列,目前已经有DeepLab v1、DeepLab v2、DeepLab v3和DeepLab v3+等版本,和之前的UNet系列比起来,主要差别是在对输入图像的处理和网络的结构上。DeepLab主要使用了图像金字塔、空洞卷积、SPP空间金字塔池化、可分离卷积等方法来提高分割的效果。其v1版本的网络比较简单,是在vgg16的基础上改动得到的,测试时使用全连接条件随机场(Fully Connected CRF)来提高分割精度。DeepLab通过空洞卷积获得图像特征金字塔来提取不同细节层次的信息,然后综合信息上采样还原图像,在上采样过程中,同样使用了跳跃连接来增强细节信息。
应用场景及商业价值
DeepLab的应用同UNet一样,都适合分割场景任务。
MaskRcnn
技术思想及原理分析
MaskRcnn是大神何凯明之作,集检测、分类、分割为一体的大模型。看名字就知道和Rcnn系列有一定联系,其实MaskRcnn就是在Rcnn的基础上增加了一个类似UNet的分割模型,Rcnn本来是做检测和分类的,MaskRcnn就是其基础上增加了一个分割功能。虽然MaskRcnn功能全面,但是不一定适合所有的场景,比如有的时候,你可能只需要做分割,仅此而已,这时候选择什么模型就需要认真思考了,不然参数过于冗余的模型会降低效率,而多余的功能对当前的任务可能并没有必要。
应用场景及商业价值
MaskRcnn融合了检测、分类、分割三种功能,其使用场景更多一些。比如一些需要对不同类别的实体进行分割分类的任务。