数字图像处理——图像分割

Posted on 2019-05-20 Edited on 2023-10-23 In 数字图像处理

搞计算机视觉的都知道图像分割的重要性，是物体，语义识别的基础。segmentation也是一个很热门的方向，除了二维上的图像分割，还有三维的物体分割。今天来学习一些图像分割的基础。

实际上图像分割与边提取算法很相关，因为我们要分割一副图，实际上就是利用边界来分割。因此边提取，锐化，滤波等等是图像处理的基础，而图像分割，目标检测等等，都会用到先前的知识来做基础或者预处理。

下面的是图像分割的一个例子：

图像分割的难点在噪声情况下的robustness以及多种特征的组合。一般来说图像分割是几乎所有计算机视觉应用的第一步。

图像分割就像是分类，它的标准有两条：1，同一个分割区域要尽量相似，2，不同的分割区域需要尽量的不连续，相差较远。对于灰度图的不连续性，我们倾向于去找图片中的点，直线，与边界。下面介绍如何在图中探测点，直线，以及边界。

Point Detection

实际上，说到这里，我们应该注意到某种程度上，图像分割的目标与边检测是有很大相似性的。而对于点的检测，我们直到点是没有方向的，因此可以想到使用没有方向的边界探测，就能很容易找到点，当然也很容易想到了Laplacian算子。对于点检测，可以使用下面的式子： \[ g(x, y)=\left\{\begin{array}{ll}{1} & {\text { if }|R(x, y)|>T} \\ {0} & {\text { otherwise } }\end{array}\right. \] 上式中\(T\)是一个阈值，而\(R(x,y)\)是经过拉普拉斯滤波后得到的值。

Line Detection

直线的探测与边探测不同的地方在于我们想要探测的是直线，而不是随意形状的边。直线的探测与点探测相比就会更加复杂，因为它是有方向的。下面是水平垂直以及45°方向的sobel滤波器：

那么，对于任意方向的直线如何探测呢？有个想法是，对于直线探测比较复杂，但是点的探测是很简单的。有没有什么方法，将直线的探测转换成点的探测？对于直线，我们直到它的参数表达式为： \[ y^{\prime}=m x^{\prime}+c \] 因此，任何一条直线，对应一对参数，也就是参数域的一个点。因此，对于直线的探测，可以转化成参数域上点的探测。这个想法延伸出来的算法叫做Hough Transform。使用Hough Transform的边探测算法如下：

先建立一个二维的矩阵，横纵分布代表\((m,c)\)，步长需要自己确定
初始化这个矩阵为0
对于图像中某个像素，对二维矩阵中每一对参数进行计算，看点是否在对应的直线上，如果在，矩阵这个位置的值+1。
根据阈值判断矩阵中符合要求的参数点，来得到对应的直线

当然，具体的实现细节有更多需要注意的地方，比如对于图像中像素，我们首先可能需要利用sobel算子进行Edge detect，等等，对于可能是直线的像素探测出来。否则对于一张空白的图片，每个像素也没必要计算。初次之外对于\(m,c\)等，我们可以使用极坐标下的\(\rho,\theta\)等等来替换，这里有一个Hough Transform的补充材料，有需要可以仔细阅读一下：Hough Transform。

Edge Detection

边探测，实际上之前已经提到了不少，因此这里就简单说明一下。边探测算法很多，有从一节梯度推到的sobel算子等，还有二阶的拉普拉斯算子，还有更常用的之前说的Canny边探测算法。而一般来说边探测算法都需要用到高斯滤波，平均滤波等低通滤波器来进行噪声平滑，因为梯度边探测以及拉普拉斯算子对于噪声都非常敏感，如下图：

这个不难理解，因为噪声变化也总是比较突兀，而梯度以及拉普拉斯在频域都是高通滤波器，对这样的噪声是非常敏感的。因此需要使用高斯滤波来进行平滑：

下面是几个边探测的效果图：

加上平均滤波（或者高斯滤波），使得我们想要的边更加明显：

此外，通过上面的算法检测到的边，还是直线，总会出现断掉的情况，因为噪声等等原因，这些是无法避免的。如果想要让它们连接起来，需要进行别的处理，可选的有局部的以及全局的连接方法。

补充（thresholding based segmentation）

上述说明的，是一些通过边，直线等探测算法，实现图像的分割，这里补充一点基于阈值的图像分割，将灰度图转换成二值图，从而根据简单的黑白来分割。根据阈值分割的，一般有3种做法。

一般来说我们想要得到的分割结果如下：

阈值选择不好就会出现下面的情况：

Basic Global Thresholding

最基本的全局阈值算法是最简单的阈值，使用的是全局阈值，也就是我们根据观察图片的直方图，如果需要被分割的两个部分在直方图上有明显的表现趋势，阈值的选择就会简单很多，如下图,第三种情况，我们无法直接看出最优的阈值应该在哪里：

对于全局阈值的算法确定如下：

首先确定一个阈值初始值，然后计算根据这个阈值得到的两个类各自的灰度均值\(m_1,m_2\)，在对这两个均值求平均得到下一个阈值，不断迭代直到当前阈值与上一个阈值的变化量小于一定量，我们认为收敛了。这个算法有点类似于k-means聚类。下面是一个例子：

Otsu’s Optimum Global Thresholding

最基本的得到的往往不是最佳的。实际上上述说的算法很依赖于初始值，不一定会找到最优的点。而Otsu提出的最佳全局阈值算法通过最大化不同类的方差，来找到更好的全局阈值。首先，我们做下面的定义：

对直方图进行归一化，使得： \[p_{i}=\frac{n_{i} }{M N}, \sum_{i=0}^{L-1} p_{i}=1, p_{i} \geq 0\]
阈值变量为\(k\)，那么\([0,k]\)为第一类，而\([k+1,L-1]\)为第二类，而\(L-1\)表示灰度最大值。
定义类间方差如下： \[\sigma_{B}^{2}=P_{1}(k)\left[m_{1}(k)-m_{G}\right]^{2}+P_{2}(k)\left[m_{2}(k)-m_{G}\right]^{2}\]式中\(P_{1}(k)=\sum_{i=0}^{k} p_{i}\)，为第一类出现的概率，\(P_{2}(k)=1-P_{1}(k)\)为第二类出现的概率，而\(m_1(k),m_2(k)\)分别是第一类第二类的灰度均值，\(m_G\)是全局均值。最佳的阈值为：\[ k^{*}=\underset{0 \leq k \leq L-1}{\arg \max } \sigma_{B}^{2}(k).\]

在matlab中，graythresh计算Otsu最佳阈值。下面是算法效果的展示，可以看到对比第一种方法，它能应对更多的情况：

Variable Thresholding——Moving Average

有时候，直接用一个阈值来决定是不可行的。因为光照，阴影等原因，对局部应该选取不同的阈值，这里就使用变化均值，对不同局部区域来做不同的阈值。算法是这样的：

加入我们有一个5*5的图片，如下，那么把它重新组织成一个数组的形式：

对数组中每个位置，进行局部平均，来求得局部阈值，这里选择每4个位置做一个平均：

将得到的数组，重新组织成matrix的形式，这样得到了“阈值图”\(m(x,y)\)，根据阈值图，对原图中每个位置的灰度值做下面的处理： \[g(x, y)=\left\{\begin{array}{l}{1, \text { if } f(x, y)>K \cdot m(x, y)} \\ {0, \text { otherwise } }\end{array}\right.\]得到二值图的分割结果。

这个组织用什么样的顺序应该需要视情况而定，上述描述中是横着走\(z\)字形状，如果应对别的形状的光照阴影这样是行不通的。也有斜着组织的，能应对更多的case。总之，下面是使用移动平均值算法的效果：

原图：