此主要讨论图像处理与分析。虽然计算机视觉部分的有些内容比如特 征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以 及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些 也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己 所用,或者从中得到灵感,这就够了。

8. Edge Detection
边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度
算子,尤其是 Sobel 算子,以及经典的 Canny 边缘检测。到现在,Canny 边缘检 测及其思想仍在广泛使用。关于 Canny
算法的具体细节可以在 Sonka 的书以及 canny 自己的论文中找到,网上也可以搜到。最快最直接的方法就是看 OpenCV
的源代码,非常好懂。在边缘检测方面,Berkeley 的大牛 J Malik 和他的学生 在 2004 年的 PAMI
提出的方法效果非常好,当然也比较复杂。在复杂度要求不高 的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable
Filter 在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,
包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避 的一个问题,这方面研究多深都不为过。
[1980] theory of edge detection
[1983 Canny Thesis] find edge
[1986 PAMI] A Computational Approach to Edge Detection
[1990 PAMI] Scale-space and edge detection using anisotropic diffusion
[1991 PAMI] The design and use of steerable filters
[1995 PR] Multiresolution edge detection techniques
[1996 TIP] Optimal edge detection in two-dimensional images
[1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation
[2003 PAMI] Statistical edge detection_ learning and evaluating edge cues
[2004 IEEE] Edge Detection Revisited
[2004 PAMI] Design of steerable filters for feature detection using canny-like criteria
[2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues
[2011 IVC] Edge and line oriented contour detection State of the art

翻译

学习使用局部亮度,颜色和纹理提示来检测自然图像边界——http://tongtianta.site/paper/56224

作者:David R. Martin, Member, IEEE, Charless C. Fowlkes, and Jitendra Malik, Member, IEEE

摘要 -这项工作的目的是使用局部图像测量来准确地检测和定位自然场景中的边界。 我们制定功能以响应与自然边界相关的亮度,颜色和纹理特征变化。 为了以最佳方式组合来自这些功能的信息,我们使用人类标记图像作为地面实况来训练分类器。 该分类器的输出提供每个图像位置和方向上的边界的后验概率。 我们提供了精确的召回曲线,显示出所得的检测器明显优于现有方法。 我们的两个主要结果是:1)可以使用简单的线性模型充分执行提示组合; 2)需要适当的显式纹理处理才能检测自然图像中的边界。

索引词-纹理,监督学习,提示组合,自然图像,地面真相分割数据集,边界检测,边界定位。

1 引言

考虑图1所示的图像和人类标记的边界。我们如何自动找到这些边界?

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图1:示例图像和带有人类标记的线段边界。 每个图像显示多个(4-8)人体分割。 像素越暗,更多的人标记边界。 第3节讨论了如何收集地面数据的详细信息。

我们将边界检测的问题与传统上称为边缘检测的问题区分开。边界是图像平面中的轮廓,表示像素所有权从一个对象或一个表面到另一个对象或表面的变化。相反,边缘通常被定义为某些低级图像特征(例如亮度或颜色)的突然变化。因此,边缘检测是一种通常用于边界检测目标的低级技术。另一种方法是识别场景中的对象,并使用该高级信息来推断边界位置。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图2:本地图像特征。在每一行中,第一面板显示一个图像补丁。以下面板显示了沿着贴片水平直径的特征轮廓。特征是原始图像强度,定向能量OE,亮度梯度BG,颜色梯度CG,原始纹理梯度TG,d和局部纹理梯度TG。每个配置文件中的垂直线标记了补丁中心。选择每个功能的比例是为了最大化训练图像集的性能-OE,CG和TG占图像对角线的2%(5.7像素),BG占图像对角线的1%(3像素)。挑战在于将这些功能结合起来以检测和定位边界。

在本文中,我们关注于局部图像补丁中可用的信息,如图2第一栏中所示。尽管这些补丁缺乏全局背景,但对于人类观察者来说很清楚哪些包含边界,哪些不包含边界。我们的目标是使用从此类图像补丁中提取的特征来估计边界穿过中心点的后验概率。基于这种局部信息的边界模型可能是对自然图像进行操作的任何感知组织算法所不可或缺的,无论是基于将像素分组为区域[1],[2]还是将边缘片段分组为轮廓[3],[4 ]。本文故意不知道如何在执行高级视觉任务(例如识别)的系统中使用局部边界模型。

局部边界检测的最常见方法是寻找图像亮度的不连续性。例如,Canny检测器[5]将边界建模为亮度阶跃边缘。图2第二栏中的亮度分布图表明,这对于纹理普遍存在的自然图像中的边界而言是一个不足的模型。Canny探测器在存在高对比度边缘但不存在边界的纹理区域内疯狂发射。另外,当平均图像亮度仅有细微变化时,无法检测到纹理区域之间的边界。

通过检查像素周围多个方向上的梯度来提供部分解决方案。例如,基于空间平均第二矩矩阵的本征谱的边界检测器可以将简单边缘与可能在纹理内部发生的多个入射边缘区分开。尽管此方法将在有限的纹理类别中抑制误报,但还将抑制与纹理区域相邻的角和轮廓。

简单的亮度边缘模型存在的重大问题促使研究人员开发更复杂的检测器,以寻找由纹理变化所定义的边界,例如[6],[7]。尽管它们在合成Brodatz马赛克提供的纯纹理纹理边界上效果很好,但它们在简单的亮度边界附近存在问题。在跨越边界的局部窗口上计算出的纹理描述符具有与包含在任何一个相邻区域中的窗口不同的统计信息。这不可避免地导致沿着轮廓的双重检测边界或薄的类似晕轮的区域(例如,参见[6],[8],[9]中的图像)。就像亮度边缘模型不能检测纹理边界一样,纯纹理模型也不能有效检测亮度边缘。

显然,自然图像的边界可以通过亮度,颜色和纹理等多个线索的联合变化来标记。心理物理学的证据[10]表明,人类结合使用多种线索来改善对边界的检测和定位。为了解决提示组合的难题,在计算视觉方面的工作还很有限。例如,[2]的作者将纹理度的度量与图像中的每个点相关联,以抑制纹理区域中的轮廓处理,反之亦然。但是,他们的解决方案充满了临时设计决策和手工选择的参数。

在本文中,我们通过将任务定为监督学习问题,提供了一种更原则的提示组合方法。已经由多个人类受试者手动分割的大量自然图像数据集[11]为每个像素在边界上或边界上提供了地面真相标签。然后,任务是对以某组局部图像特征为边界的像素进行建模的概率。这种学习和评估边界探测器的定量方法在本质上与Konishi等人的工作类似。 [12]他们使用了英国乡村风光的Sowerby数据集。我们的工作以对纹理的显式处理而著称,可在各种自然图像集合上实现卓越性能。

通过对纹理进行建模并以统计学上最佳的方式组合各种局部提示,我们证明了在边界检测领域的技术水平有了显着改善。 图3显示了我们的探测器与Canny探测器(基于Konishi等人[12]使用的第二矩矩阵的探测器)以及人类对象相比的性能。 本文的其余部分将介绍如何实现这一改进。 在第2节中,我们描述了用作算法输入的局部亮度,颜色和纹理特征。 在第3节中,我们介绍了我们的训练和测试方法以及提供基本事实数据的12,000个人类细分的数据集。 我们在第4节中应用此方法来独立优化每个局部功能,并在第5节中应用此方法进行提示组合。 第6节介绍了我们的方法与现有边界检测方法的定量比较。 我们在第7节中总结。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图3:两个十年的边界检测。与传统的边界检测方法相比,我们的边界检测器的性能与人类对象的性能相比。显示了五个边界检测器中每个检测器的精确召回曲线:1)高斯导数(GD),2)具有磁滞阈值的高斯导数(GD + H),Canny检测器,3)基于二阶矩矩阵(2MM)的检测器),4)结合了亮度和纹理(BG + TG)的灰度检测器,以及5)结合了亮度,颜色和纹理(BG + CG + TG)的颜色检测器。每个检测器均由其精确调用曲线表示,该曲线可在检测器的阈值变化时测量精度与噪声之间的平衡。标题中显示的是每条曲线的F度量,其值从零到一。 F度量是精确召回曲线的摘要统计量。图中用“ +”标记的点表示与其他人类相比,每个地面真实人类分割的精确度和召回率。人类受试者的F值中位数为0.80。实线显示F = 0.80曲线,代表此任务人类绩效的前沿。

2图像功能

我们的边界检测方法是在一系列方向和比例范围内,在几个特征通道中查看每个像素的局部不连续性。我们将考虑两个亮度特征(定向的能量和亮度梯度),一个颜色特征(颜色梯度)和一个纹理特征(纹理梯度)。这些功能均具有免费参数,我们将针对训练数据进行校准。

2.1定向能源

在自然图像中,亮度边缘不仅仅是简单的步骤。诸如镜面反射,相互照明和阴影之类的现象会导致合成强度分布,其中包括台阶,峰和屋顶。定向能量(OE)方法[13]可用于检测和定位这些复合边缘[14]。 OE定义为:
Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

其中Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHPImage Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP是方向Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP和规模Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的正交的偶数和奇数对称滤波器。我们的偶对称滤波器是高斯二阶导数,而相应的奇对称滤波器是其希尔伯特变换。Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP对方向Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的轮廓具有最大的响应。滤镜沿着假定的边界方向
以3:1的比例伸长。

2.2基于渐变的功能

我们在分析中包括定向能量特征,因为它是检测图像中亮度边缘的标准方法。对于更复杂的功能,我们引入了一种基于梯度的范例,该范例可用于检测颜色和纹理以及亮度的局部变化。在图像中Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的位置上,绘制
一个半径为r 的圆,并将其沿直径沿方向Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP划分。梯度函数Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP比较两个所得的半个圆盘的内容。光盘两半之间的较大差异表示图像沿光盘直径不连续。

我们如何描述和比较每个提示的两个半盘区域? 解决该问题的成功方法通常基于在整个邻域中平均的像素值的经验分布来使用颜色和纹理特征。 感知颜色空间中的颜色分布已成功地用作QBIC [15]和Blobworld [8]图像检索系统中的区域描述符。 另外,Ruzon和Tomasi [16] [17]的指南针运算符使用颜色直方图比较来查找彩色图像中的角和边缘。 对于纹理分析,已经出现了一个新的共识,即图像应首先与调整至各种方向和空间频率的一堆滤镜进行卷积[18],[19]。 滤波器响应的经验分布已被证明是纹理合成[20]和纹理识别[21]的强大功能。

对于亮度和颜色梯度功能,我们将每个盘半部分中像素亮度和色度分布的内核密度估计值进行bin。 通过以确保每个bin至少两个样本的速率将每个高斯内核采样到2Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP来完成合并。 对于纹理梯度,我们在每个光盘半部中计算矢量量化滤波器输出的直方图。 在所有这三种情况下,半盘区域均由直方图描述,我们将其与X直方图差异算子进行比较[22]:

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP
因此,亮度,颜色和纹理渐变特征分别编码亮度,色度和滤镜响应的局部分布中的变化。

每次梯度计算都共享在每个像素的八个方向和三个半八度音阶上计算直方图差异的步骤。在以下各节中,我们详细讨论了表示和比较颜色,亮度和纹理的可能设计选择。

2.2.1亮度和颜色渐变

有两种常见的方法来表征像素集的颜色分布之间的差异。第一种是基于使用直方图的密度估计。

  1.天真的实现将涉及很多冗余计算。附录A提供了用于计算梯度特征的有效算法。

QBIC和Blobworld都使用完全三维彩色直方图作为区域特征,并使用相似性度量(例如L范数,X差或某种二次形式)比较直方图。Blobworld对直方图进行平滑处理以防止相似颜色混叠,而QBIC则显式地对bin之间的感知距离建模。第二种常见方法是通过使用Mallows [23]或Earth Mover's distance(EMD)[24]来比较颜色分布,从而避免了量化伪像。另外,EMD明确考虑了色彩空间中各点之间的“地面距离”。对于生活在感知颜色空间中的数据(附近的点在感知上看起来相似)而言,这是理想的属性。但是,一旦这种空间中的颜色分开得比某种程度的分离远,它们就会对观察者显得“等距”。鲁宗(Ruzon)和托马西(Tomasi)使用衰减的EMD来模拟这种感知滚降,但EMD的计算量仍然很大。对于一维数据,可以使用排序进行有效的计算。然而,在更高的维度上,必须明确解决分配问题,从而导致计算复杂性的显着增加。

  2. QBIC中使用的二次形式距离函数是Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP,其中g和h是要比较的直方图,A是给出两个bin i和j之间相似度Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的矩阵。QBIC的作者指出,这项措施在他们的任务上是优越的。我们不会考虑
此直方图相似度函数,因为它计算量大,难以定义A,并且在精神上与地球行者的距离相似。

我们想要一种相对于人类感知准确地对颜色分布建模的方法,同时保留计算上的可行性。我们的方法基于使用高斯核对CIELAB中颜色分布的核密度估计进行装仓,并将直方图与X差异进行比较。2直方图差异未利用仓位中心之间的感知距离。因此,如果不进行平滑处理,则在感觉上相似的颜色会产生不成比例的较大的X差异。由于CIELAB空间中点之间的距离在局部邻域中在感知上是有意义的,因此对核密度估计进行装仓,其核带宽为Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP匹配此邻域的规模意味着在感知上相似的颜色将具有相似的直方图贡献。超出这个范围(色差在感知上不相称)时,X将把它们视为同样不同。我们认为,CIELAB中的核密度估计值与X直方图差异的这种组合与人类色彩感知的结构非常匹配。

对于亮度梯度,我们计算L * 值的直方图。由于像素值在2D空间(a *和b *)中,因此颜色梯度对密度估计提出了其他挑战。当使用2D内核和2D直方图时,通常会同时减少内核样本数和bin数,以保持合理的计算成本。但是,这损害了密度估计的质量。

而不是计算联合梯度Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP,我们计算a *和b *的边际颜色梯度,并将全色梯度作为相应边际梯度的和:Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP。这是由于a *和b *通道对应于感知正交的红绿色和黄蓝色的事实引起的在人类视觉系统中发现
对手(参见Palmer [25])。第4节介绍了Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHPImage Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的比较。

2.2.2纹理渐变

以类似于亮度和颜色梯度算子的方式,我们制定了一个方向算子,该算子测量尺度r 的纹理在图像位置(x, y)上沿方向Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP 的变化程度。我们在以点为中心并沿直径分为两部分的磁盘的两半中计算纹理差异。Rubner和Tomasi [6]一直沿这些方向进行纹理处理。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图4:计算Textons。 (a)滤波器组:用于计算纹理的13个元素的滤波器组。 (b)通用纺织机:从200幅训练图像计算出的通用纺织机示例,按L1规范排序用于显示。 (c)图像和(d)Texton贴图:图像及其关联的Texton贴图。使用包含小型过滤器的单刻度过滤器组,Texton的质量最好。每个像素对滤波器组产生13个元素的响应,并且这些响应与k均值聚类。在此示例中,使用k = 64的200张图像将产生64个通用纺织。教科书可以识别各种对比度级别的基本结构,例如台阶,条和角。如果将(c)中显示的图像中的每个像素分配给最近的texton,并且为每个texton分配了颜色,我们将获得(d)中显示的texton贴图。细长滤镜的纵横比为3:1,较长的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP设置为图像对角线的0.7%(约2个像素)。

图4a显示了我们用于纹理处理的滤波器组。它包含六对细长的定向滤光片以及一个中心环绕滤光片。定向滤波器为偶数/奇数正交对,与我们用于计算定向能量的滤波器相同。偶数对称滤波器是高斯二阶导数,奇数对称滤波器是其希尔伯特变换。中心环绕滤波器是高斯滤波器的区别。偶数和奇数滤波器响应不会像在计算定向能量时那样进行组合。相反,每个过滤器都会产生一个单独的功能。对于每个像素,我们将以像素为中心的13个滤波器响应的向量相关联。注意,与[2]不同,我们没有对用于纹理处理的滤波器响应进行对比度归一化。我们的实验表明,这种类型的归一化不能提高性能,因为它似乎比信号更能放大噪声。

每个光盘的一半包含一组过滤器响应向量,我们可以将它们可视化为特征空间中点云,其维数等于过滤器的数量。可以使用这两个点云的经验分布作为纹理描述符,然后比较这些描述符以获得纹理梯度的值。

关于这种方法的细节,出现了许多问题。过滤器组是否应包含多个刻度,刻度应该是多少?我们应该如何比较滤波器响应的分布?我们应该使用地球移动器的距离还是应该估计分布?如果是后者,我们是否应该估计边缘分布或联合分布以及固定或自适应分类?我们应该如何比较分布-一些L-norm或X的差异? Puzicha等人 [21]在这个框架中评估了各种各样的纹理描述符,并研究了许多这些问题。我们选择[2]中开发的方法,该方法是基于纹理基元的思想的。

纹理基元方法使用自适应bin估计滤波器响应的联合分布。滤波器响应向量使用k均值聚类。每个聚类在联合滤波器响应空间中定义一个Voronoi单元,聚类中心定义纹理图元。这些纹理基元(纹理)是滤镜的简单线性组合。图4b显示了针对训练集中的200张图像计算出的k=64的示例性文本。识别出纹理基元之后,将每个像素分配给最近的纹理基元。然后可以通过比较两个半圆盘上的纹理标签的直方图来计算纹理差异。图图4c和图4d示出了图像和相关联的纹理基元图,其中每个像素已经被标记有最近的纹理基元。仍然存在一些问题,即,要使用哪些图像来计算纹理,k的选择,用于计算直方图的过程以及直方图比较度量。

对于计算纹理,我们可以使用大量的图像集合来发现一组通用的纹理。或者,可以通过在每个测试图像中分别对过滤器响应进行聚类来计算特定于图像的纹理。文本的最佳数量k取决于在通用图像和特定于图像之间的选择,以及纹理渐变算子的比例r 和图像大小。探索这两个问题的实验将在第4节中介绍。

为了计算纹理基元直方图,我们使用不进行平滑的硬合并。 通过考虑像素到每个bin中心的距离,可以在纹理基元框架中进行软合并。 但是,这种类型的软装箱在计算上是昂贵的,并且在我们的实验中,它还没有证明值得。 硬合并似乎不是问题,因为相邻像素由于滤镜的空间范围而具有相关的滤镜响应。 因此,数据已经有些平滑,并且光盘中的像素可能会覆盖较少的箱,从而确保每个箱中有更多样本。

最后,对于该任务,X差异并不是直方图差异的唯一可行度量。两者都是Puzicha等。 [22]和Levina [26]评估了各种比较纹理分布的方法,包括L范数,X差以及Mallows或Earth Mover距离。但是,最佳差异度量取决于任务(匹配或区分)和所使用的图像(Brodatz色块或自然图像)。我们的实验表明,对于自然图像中的局部边界检测,X差异略高于L1范数,并且明显优于Mallows距离。

2.3本地化

我们试图学习的边界存在的基本功能在由人类标记的图像边界的位置周围已经达到最高峰。相比之下,图2显示,到目前为止我们讨论的功能都没有这种结构。根据它们在某些支持下收集信息的事实,它们会产生平滑的,空间扩展的输出。由于每个像素都是独立分类的,因此空间上扩展的特征对于分类器是有问题的,因为边界上像素和附近的边界上像素都将具有较大的渐变值。

纹理梯度由于其大的支撑而特别易于产生这种效果。另外,TG在亮度边缘附近产生多次检测。沿着这样的边缘存在的纹理带通常在边缘的每一侧产生比在边缘上更大的TG响应。这个双峰问题在纹理边缘检测和分割工作[6],[8],[9]中无处不在,它会产生沿区域边界的边缘和条状区域的双重检测。我们知道没有直接解决这种现象的工作。非最大值抑制通常用于缩小扩展响应,但多次检测需要更通用的解决方案。我们利用纹理梯度响应的对称性质来精确定位边缘并消除重复检测。

为了使边界的空间结构可用于分类器,我们对原始特征信号进行了变换,以便以同时平滑多个检测的方式强调局部最大值。给定在垂直于边缘方向的空间坐标x上定义的特征Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP,请考虑派生的特征Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP,其中Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP是距离Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的最接近最大值的一阶近似值。我们使用平滑和稳定的版本:

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP选择以优化功能的性能。通过合并Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP本地化术语,Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的峰将比原始Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP窄。Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP是消除双峰的基础梯度信号的平滑估计。
为了可靠地估计方向导数和平滑信号,我们将圆柱抛物线拟合在以每个像素为中心的半径为r的2D圆形窗口上。抛物圆柱体的轴被约束为平行于像平面放置并编码边缘位置和方向;高度编码边缘强度;抛物线的曲率
编码定位不确定性。我们将圆形拟合窗口内的数据点投影到与图像平面和边缘方向都正交的平面上,以便对一维函数执行拟合。最小二乘抛物线拟合ax+bx+c直接提供信号导数,如Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHPImage Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP以及
Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP。因此,定位函数变为Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP,其中c和a经过半波整流。当c和a相乘在一起时,需要进行这种整流以避免信号中无意义的符号变化。
 
  3.窗口抛物线拟合称为二阶Savitsky-Golay滤波或LOESS平滑。我们还考虑了高斯导数滤波器Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP来估计具有相似结果的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图2的最后两列显示了将此转换应用于纹理渐变的结果。 效果是减少噪声,紧密定位边界并合并两次检测。 我们发现定位过程并不能改善亮度和颜色梯度特征,因此我们的最终特征集由Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP组成,每个Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的方向分别为八个方向和三个半八度音阶。

3评估方法

我们的系统最终会将上一节的提示组合到单个函数P(x, y,Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP)中,该函数给出每个像素(x, y)和方向Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的边界的后验概率。为了优化该系统的参数并将其与其他系统进行比较,我们需要一种方法来判断边界检测器的质量。我们将边界检测公式化为区分边界像素和边界的分类问题,并使用来自伯克利细分数据集[11]的人类标记边界作为基础事实,应用精确召回框架。

分割数据集包含1,000个图像中每个图像的5-10个分割。对受试者的说明很简短:

您将获得一张摄影图像。将图像划分为一定数量的片段,这些片段代表场景中的“事物”或“事物的一部分”。段数取决于您,因为它取决于图像。2到30之间的值可能比较合适。重要的是所有部分都具有近似相等的重要性。

图1展示了不同人类受试者之间的高度一致性。有关数据集构造的其他详细信息,请参见[11]。另外,可以从Internet [27]下载数据集以及用于运行边界检测和分割基准的代码。我们使用200张图像和相关的细分作为训练数据,接下来的100张图像和相关的细分作为测试数据集。

我们的评估指标-精确度召回曲线-是一条参数曲线,可以捕获随着检测器阈值变化而在准确性和噪声之间进行权衡的情况。 准确度是检测出的是真实阳性而不是假阳性的分数,而召回率是检测到而不是漏掉的真实阳性的分数。 用概率术语来说,精度是检测器信号有效的概率,召回率是检测到地面真实数据的概率。

精确召回曲线是信息检索社区中的一种标准评估技术[28],首先由Abdou和Pratt [29]用于评估边缘检测器。Bowyer等人采用了类似的方法。 [30]用接收器工作特性(ROC)曲线评估边界检测器。 ROC曲线的轴是沉降物和召回物。召回率或命中率与上述相同。辐射或误报率是将真正的阴性标记为错误的阳性的概率。

尽管ROC和PR曲线定性显示了未命中和假阳性之间的相同权衡,但ROC曲线不适用于量化边界检测。 对于边界检测器而言,降落不是有意义的数量,因为它取决于像素的大小。 如果我们将图像分辨率提高n倍,则像素数将增加为n2。 由于边界是一维的(或至少具有小于2的分形维数),因此,真正的负数的数量将增长为n2,而真正的正数的数量将增长至与n一样慢。 因此,后果将下降多达1 = n。 精度不存在此问题,因为它是通过正数而不是真实负数进行归一化的。

存在评估定量框架中边界检测器的其他方法,例如Konishi等人使用的Chernoff信息。 [12]。尽管信息理论方法可以导致一种有用的方法来相对于彼此对算法进行排名,但它并不能产生直观的性能指标。

当我们考虑使用边界图的应用程序(例如,立体或对象识别)时,精度和召回措施在边界检测的上下文中特别有意义。根据需要多少真实信号才能成功实现R(调用),以及可以容忍多少噪声P(精度),来表征更高级别的处理是合理的。特定的应用程序可以定义相对成本Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP在这些量之间,可以将注意力集中在精确调用曲线上的特定点上。 F度量[28],定义为

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP
捕获此折衷作为P和R的加权谐波平均值。沿着曲线的最大F测度的位置为给定的应用提供了最佳检测器阈值,我们在实验中将其设置为0.5。

精确度和召回率是很吸引人的指标,但是要计算它们,我们必须确定正确检测出哪些真实阳性结果,以及哪些检测结果是错误的。精确调用曲线上的每个点都是根据特定阈值处的检测器输出计算得出的。另外,我们有二进制边界图作为来自人类受试者的地面真相。目前,让我们考虑如何在给定单个人类边界图的情况下计算单个阈值机器边界图的精度和召回率。一个人可以简单地对应于重合的边界像素,并声明所有不匹配的像素为假阳性或遗漏。但是,这种方法不会容忍任何定位错误,因此会过度惩罚生成可用的算法,尽管会稍微定位错误。从图1可以清楚地看到,将机器边界像素分配给地面真实边界必须容忍定位误差,因为即使地面真实数据也包含边界定位误差。

[31]的方法是在上述刚性对应过程中添加少量斜率,以允许较小的定位误差,但以允许多次检测为代价。但是,机器和人类边界像素的显式对应是可靠地计算命中率,未命中率和误报率的唯一方法,这是我们计算精度和召回率所需的。尤其重要的是,显式计算对应关系以惩罚多个检测。单一检测是Canny [5]提出的边界检测的三个目标之一,另外两个是较高的检测率和良好的定位性。

附录B中详细介绍了对应关系计算,该附录B为我们提供了一种计算单个人员分割的精度和召回率的方法,同时允许控制数量的定位误差。但是,分割数据集为每个图像提供了多个人工分割,因此基本事实由5到10个人工分割的集合定义。由于数据集本身存在定位误差,仅合并人类的边界图是无效的。正确组合人类边界图的方法可能需要附加的对应关系,甚至需要估计人类检测和定位误差过程的模型以及隐藏的真实信号。

幸运的是,我们可以通过以下方式解决这些问题。首先,我们依次将机器边界图与每个人图对应。只有那些与人的边界不匹配的机器边界像素才被视为误报。命中率只是对不同人员的平均值,因此要实现完美的召回率,机器边界图必须说明所有人员数据。我们的意图是,这种估计精度和召回率的方法尽可能与直观地对输出进行评分的直觉相匹配。特别地,该方法鼓励了边界检测器的所有三个理想属性-检测,定位,单次检测,并且在结果中可见。

总而言之,我们有一种描述边界检测器质量的方法,该方法可生成形式为P(x, y, Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP)或P(x, y)的软边界图。对于后者,我们将最大值超过Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP?给定软边界图像P(x, y),我们生成一个精确调用曲线。通过首先对P进行阈值运算以生成二进制边界图,然后将该机器边界图与地面真值分割数据集中的每个人边界图进行匹配,可以独立地计算曲线上的每个点。精确调用曲线是性能的丰富描述。当需要一个单独的绩效指标或足够的绩效指标时,可以将精度和召回率与F指标结合起来。F量度曲线通常是单峰的,因此最大F量度可能会报告为检测器性能的摘要。现在我们来应用这个评估方法,以优化我们的边界探测器,并将我们的方法与标准方法进行比较。

4 提示优化

在将亮度,颜色和纹理提示组合到单个检测器中之前,我们首先分别优化每个提示。通过对每个提示的参数进行高精度的坐标上升并以召回率作为目标,我们可以针对地面真实数据集优化每个提示,以使任何单个参数的变化都不会提高性能。出于空间考虑,我们不会提供完整的实验集,而只会提供那些有趣的观察结果。

四个线索(定向能量(OE),亮度梯度(BG),颜色梯度(CG)和纹理梯度(TG))中的每一个都有一个比例参数。对于OE,规模为Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP是正交滤波器对的带宽。对于其他标尺,r 是圆盘的半径。我们为每个提示确定了最佳的一个八度音程范围。以图像对角线的百分比为单位,OE,CG和TG的范围为1.4%至2.8%,BG的范围为0.75%至1.5%。这些量表是最佳的,与我们是否使用第2.3节的本地化程序无关。中间规模总是表现最佳,除非原始OE规模最大。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图5:(a)原始OE,(b)原始BG,(c)原始CG,(d)原始TG,(e)局部OE,(f)局部BG,(g)局部CG,(h)局部TG。原始要素和局部要素的性能(分别为顶部和底部)。精度轴和调用轴在第3节中定义。朝顶部(噪声较低)和向右(信号恢复更多)的曲线更好。每条曲线均由Pb设置参数,并通过其最大F值进行评分,其值和位置在图例中显示。该图中的每个面板均显示四条曲线:一条曲线用于特征的三个半倍频程间隔的比例尺,以及一条曲线,用于三个比例尺的组合。这三个比例尺标记为从最小到最大为0,1,2,并且比例尺的组合用“ *”表示。 OE,BG,CG和TG的起始比例分别为图像对角线的1.4%,0.75%,1.4%和1.4%。除了图10之外,我们使用逻辑回归模型对Pb进行建模。在此图中,我们看到本地化过程对OE几乎没有帮助,对BG和CG则不必要,对TG非常有用。从图2可以明显看出,TG的性能提高是由于消除了双重检测以及良好的定位性。此外,TG是唯一受益于组合比例尺的功能。请注意,使用精确调用方法针对训练集对每个要素的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP和比例参数进行了优化。

图5显示了在使用和不使用定位的情况下,每个提示在最佳比例下的精确调用(PR)曲线。此外,每个图都显示了三个比例尺组合的PR曲线。每条曲线均由P(x, y)函数生成,该函数是通过将逻辑模型拟合到训练数据集而获得的。我们在测试集上评估P函数,以生成从中生成曲线的P(x, y)图像。Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP每个提示的定位功能分别优化为TG的0.01和其他所有提示的0.1。该图显示,BG和CG不需要本地化,但对OE和TG都有帮助。定位功能具有两个潜在的好处。它使信号的峰值变窄,并且合并了多个检测。从图2中,我们可以看到OE的规模很大,因此本地化有效地缩小了宽响应范围。TG经历了多次检测和广泛的响应,这两种定位方法均可改善。图6显示了我们对用于BG和CG的密度估计计算中的内核大小的优化。对于这些功能,我们比较两个半盘中像素值的分布,无论这些值是亮度(L *)还是颜色(a * b *)。首先考虑在a *和b *的边际分布上计算出的颜色梯度CG。光盘半径范围为4到8个像素,内核对于获得分布的低方差估计至关重要。在图中,我们改变了高斯内核的sigma占域直径的1.25%到40%。另外,箱的数量相反地变化,以保持每个箱的样本数量恒定,并且在每个箱最少两个以上。内核被限制在2Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP上,并在23点处进行了采样。每个图上的主要PR曲线表明,BG的最佳参数是Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=0.2(带有12个仓位)和CG的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=0.1(带有25个仓位)。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图6:(a)亮度梯度。 (b)颜色渐变。用于BG和CG内核密度估计的内核带宽。 BG和CG都通过比较光盘每半部分中1976 CIE L * a * b *像素值的分布进行操作。我们用直方图估计L *,a *和b *的一维分布,但是由于光盘尺寸较小,因此需要进行平滑处理。每条曲线都标有Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP和bin计数。 L *,a *和b *的可访问范围被缩放为[0,1]。内核被裁剪为2倍,并在23个点采样。调整仓数,以便每个仓不少于两个样本。最佳值为BG(12格)的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP = 0.2和CG(25格)的Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP = 0.1。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图7. CG的边际估计与联合估计。 (a)CG中间比例尺:显示颜色渐变的中间比例尺;(b)CG组合比例尺:显示三个比例尺的组合。我们倾向于估计像素颜色分布是为了估计a *和b *的2D联合分布。然而,二维核密度估计被证明在计算上是昂贵的。由于1975 CIE L * a * b *颜色空间中的a *和b *轴旨在模拟人类视觉皮层中发现的蓝黄色,绿色-红色对立,因此人们可能希望关节颜色分布几乎没有感知a *和b *的边际分布中不存在的信息。标记为“ AB”的曲线表示使用联合直方图(CG)计算出的颜色梯度;标记为“ A + B”的曲线显示了计算为(CG + CG)的颜色梯度。对于这两个实验,每个维度中的bin数量为25,因此CGab计算需要25倍更多的bin和25倍的计算时间。提示质量实际上是相同的,因此,我们采用边际CG方法。

图6中的实验使用了颜色渐变CG的分离版本,而不是联合版本CG。图7显示了这两种计算颜色梯度的方法之间的比较。无论使用单个刻度尺的CG还是多个刻度尺,CG和CG之间的差异都是最小的。由于核和直方图的额外维度,联合方法的计算量要昂贵得多。为了进行比较,每个维度中的分箱数量保持恒定为25,因此计算成本相差25x 倍,CG需要数十分钟的时间。如果计算费用保持恒定,则边缘法会更好,因为密度估算可以提供更高的分辨率。在所有情况下,最好使用边缘方法来计算颜色梯度。

纹理梯度提示还具有除r 和Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP之外的其他一些参数。进行调优,涉及到纹理的表示和比较。TG的目的是量化两个圆盘半部中滤波器响应分布的差异。如第2.2.2节所述,有许多设计选择。对于滤波器,我们使用与定向能量相同的偶数和奇数对称滤波器(二阶导数高斯及其希尔伯特变换)在六个方向上与中心环绕的DOG一起使用。我们对多尺度滤波器组进行了实验,但与Levina [26]达成了一致,以最小尺度的单尺度滤波器组为佳。图4a显示了我们用于纹理估计的滤波器组。至于分布估计问题,我们遵循Malik等人的纹理基元方法。文献[2]通过将滤波器响应与k均值聚类来估计自适应箱的联合分布,并使用X度量比较直方图。我们验证了L, L,Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP ,或规范都没有更好的表现。此外,我们确定在边缘原始滤波器输出上计算出的Mallows距离表现不佳。关节分布上的Mallows距离在计算上是不可行的,需要解决大型分配问题。

在确定比较文本直方图与X差异的方法之后,我们必须在图像特定和通用文本之间进行选择,以及文本数量(k均值的k参数)之间进行选择。对于特定于图像纹理基元,我们分别重新计算每个测试图像的自适应texton bin。对于通用纺织布,我们从200个训练图像中计算出一组标准纺织布。每种方法的计算成本大约相等,因为每个图像的k均值问题很小,并且在特定于图像的情况下可以使用较少的纹理。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图8.(a)图像特定TG0,(b)通用TG0,(c)图像特定TG2,(d)通用TG2,(e)图像特定与通用。图像特定与通用纺织我们可以基于每个图像或通用地基于规范图像集来计算纹理。 (a)和(c)显示了针对8-128个图像特定纹理的TG的小比例尺和大比例尺的性能; (b)和(d)显示了相同的TG量表对于16-256个通用纺织机的性能; (e)显示了针对特定TG相对于通用Texton的中TG比例以及组合的TG比例的性能。通用纹理的最佳数目是图像特定纹理的数目的两倍。另外,较小的TG规模需要较少的纺织。在TG盘区域中,缩放比例大致呈线性,因此可以缩放文本的数量,以保持采样数/ bin不变。结果对最佳数的二分之一以内不敏感。从(e)中,我们看到在特定于图像的文本和通用文本之间的选择不是关键的。在我们的实验中,我们使用k = {12,24,48}的特定于图像的纹理。对于我们来说,选择并不重要,尽管对于其他应用程序(例如对象识别),人们可能更喜欢通用纺织材料提供的纹理度量,可以在图像之间进行比较。

图8显示了涵盖两个纹理基元问题的实验。可以看到,在图像特定和通用纹理之间进行选择对于性能并不重要。为了方便起见,我们使用特定于图像的纹理,尽管通用纹理可能更吸引人,因为它们可用于以与图像无关的方式表征纹理。与图像无关的纹理描述对于图像检索和对象识别应用程序将很有用。该图还显示了两个优化的纹理基元数量缩放规则。首先,用于通用纺织机的最佳纺织机数量大约是针对特定图像的纺织机所需数量的两倍。其次,最佳的纹理基元数量与光盘的面积成线性比例。希望采用前一种缩放比例,以避免在特定于图像的情况下过度拟合。后一个缩放规则使每个纹理基元 bin的样本数保持恒定,这减少了较小TG缩放的过度拟合。

令人惊讶的是,使用特定于图像的图像和通用图像的纹理基元可以得到可比的结果,因为特定于图像的图像在训练和测试图像之间会有所不同。由于纹理梯度仅取决于对每个半圆盘中分布的良好估计,因此各个纹理的标识并不重要。k均值在每个图像的基础上给出的自适应合并似乎可以稳健地估计滤波器响应的分布,并且在各种自然图像中表现良好。

5 CUE组合

在优化每个提示的性能之后,我们面临将提示合并为单个检测器的问题。我们将提示组合的任务作为有监督的学习方法来处理,在这里我们将从地面真实数据中学习组合规则。以前有一些关于学习边界模型的工作。威尔等人。 [7]学习合成Brodatz马赛克的纹理边缘模型。Meila和Shi [32]提出了一个从标记示例中学习细分的框架。最引人注目的是Konishi等人的著作 [12],其中边缘检测器是在人标签图像上训练的。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图9.提示组合。在独立优化每个提示的参数之后,我们寻求有效地组合提示。 (a)OE与BG:表明无论是否包含CG,使用BG作为亮度提示而不是OE总是更好。请注意,尽管未显示该曲线,但同时使用OE和BG却无济于事。 (b)多尺度TG:虽然我们在图5中看到,使用多尺度TG可以从中受益,但是当包含BG时,收益会大大降低。这是因为BG包含区分精细纹理的能力。 (c)灰度模型:我们选择的非彩色模型只是将单个BG比例和一个TG组合在一起。 (d)颜色模型:我们选择的颜色模型还仅包括BG,CG和TG功能的单个比例。

图9显示了使用逻辑回归的第一组提示组合实验。第一项任务是确定任何提示是否对其他提示都是多余的。到现在为止,我们已经提出了四个提示,其中两个OE和BG可以检测亮度的不连续性。图9a显示,无论单独与纹理渐变一起使用还是与纹理和颜色渐变一起使用,BG都是比OE更好的提示。另外,由于我们无法通过结合使用OE和BG来获得任何收益(未显示),因此可以安全地从提示列表中删除OE。

我们可以选择以多个比例来计算每个提示。图5显示,只有纹理梯度在不同尺度上包含重要的独立信息。使用多个TG秤的好处在TG与其他提示结合在一起。图9b显示了结合BG和CG使用多个TG刻度的效果。在BG和BG + CG情况下,多个TG量表仅少量改善性能。无花果。图9c和9d显示了将多个BG和CG比例添加到模型的效果。无论哪种情况,多尺度都不会提高整体性能。在某些情况下(参见图9d),性能可能会降低,因为额外的比例可能会引入比信号更多的噪声。

为了使最终系统尽可能简单,我们将仅保留每个要素的中间比例。 然而,令人惊讶的是,多尺度线索是无益的。 部分原因可能是细分数据集本身包含的缩放范围有限,因为对象不太可能产生超过约30个细分的细分。 图2和3提出了另外的解释。 在图5h和9b中,我们看到TG的多个刻度具有独立的信息,但是使用BG时,多个TG刻度的好处消失了。 亮度梯度在小范围内运行,并且能够进行低阶纹理判别。 无论如何,在最小尺度下,仍然没有足够的信息用于高阶纹理分析,因此BG是一个很好的小尺度纹理特征。 纹理渐变标识更复杂,更大比例的纹理。

在此之前,所有结果都是通过逻辑模型生成的。我们将通过比较各种各样的分类器来证明逻辑模型是一个不错的选择,每个分类器都是在人类分割数据集上训练的。通过更强大的模型,我们希望发现一些有趣的跨线索和跨尺度门控效果。例如,当TG低时,人们可能会拒绝BG的简单边界检测,因为亮度边缘很可能对应于纹理区域内部的边缘。此外,各种提示的最佳混合功能很可能是非线性的,每个提示都被视为某一类边界的专家。这些是我们使用的分类器:

密度估算。我们通过使用k均值的矢量量化提供的自适应bin进行密度估计。每个k均值质心提供其Voronoi细胞的密度估计值,作为该细胞中边界样本的分数。我们使用k = 128个bin并平均10次运行的估计值以减少方差。

分类树。该域通过自上而下的轴平行拆分进行分层划分。拆分单元格时,会沿一个维度将其拆分为两半。贪婪地分裂细胞,以使每个步骤获得的信息最大化。这种启发式方法的作用是拆分节点,以使两个类尽可能地分离。仅当两个类别都至少存在400个点时,才通过拆分像元来对密度估计的误差施加5%的约束。

逻辑回归。这是我们分类器中最简单的分类器,也是视觉皮层中神经元最容易实现的分类器。初始化是随机的,并且通过使用大约五个Newton-Raphson迭代来最大化似然性,收敛是快速而可靠的。我们还考虑了两个变体:特征的二次组合,以及使用Schapire和Singer [33]使用AdaBoost的置信度概括进行增强。对于此问题,不超过10轮的增强。

专家的分层混合。 Jordan和Jacobs的HME模型[34]是一种混合模型,其中叶子的专家和组成门控网络的内部节点都是逻辑函数。我们考虑的小型二叉树的深度为三(八位专家)。该模型以贪婪,自上而下的方式初始化,并且适合EM。对数似然收敛需要进行200次迭代。

支持向量机。我们使用SVM软件包libsvm [35]使用高斯内核进行软边距分类。最佳参数为v=0.2和Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=0.2。在SVM的此参数化中,v 提供支持向量的预期分数,这也是对数据中类重叠程度的估计。在我们的问题中,高度的类重叠也说明了需要相对较大的内核。

我们使用了200张图像进行训练和算法开发。100张测试图像仅用于生成本文的最终结果。[11]的作者表明,不同主题对单个图像的分割是高度一致的,因此我们认为所有图像都是人类标记的边界有效。为了进行训练,如果图像位置(x, y, Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP)在Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP像素和任何人类标记边界的  Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=30范围内,我们将图像位置声明为边界上。其余标记为边界外。

此分类任务的特点是尺寸相对较小,数据量大(对于我们的240 x 160像素图像,有1亿个样本),分类可分离性差以及分类比为10:1。均匀采样的最大可行数据量将分配给每个分类器。从用于密度估计和逻辑回归的50M样本到用于SVM和HME的20K样本不等。请注意,在任何低级特征空间中,高度的类重叠都是不可避免的,因为人类主体同时利用全局约束和高级别信息来解决局部模棱两可的边界。

训练和评估模型所需的CPU时间变化了几个数量级。对于训练,逻辑回归和分类树在1GHz奔腾IV上需要几分钟,而密度估计,HME和SVM模型(即使数据大大减少)也需要数小时。为了进行评估,逻辑回归树和分类树分别再次是最快的,在数据点数上采用恒定时间和时间对数。对于这些,评估时间主要由计算图像特征所需的几分钟决定。密度估计模型评估在用于的k值和行程数之间呈线性关系,向要求每个像素进行运算的运算增加了1,280的常数,其中f是特征数。由于我们限制八名专家,HME的常数系数最多比物流慢15倍。 SVM模型过慢。由于25%的训练数据成为支持向量,因此SVM需要几个小时才能评估单个图像。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图10.分类器的选择。到目前为止,所有结果均已使用逻辑回归模型显示。 (a)每个提示一个音阶,(b)每个提示三个音阶。此模型之所以吸引人,是因为它紧凑,健壮,稳定,可解释,并且可以快速训练和评估。但是,它的线性决策边界排除了任何潜在有趣的跨线索门控效果。在此图中,我们显示了在(a)BG,CG和TG的每一个比例,以及(b)每个特征的所有三个比例(总共9个特征)上应用各种更强大的模型的结果。由于特征数量的增加,无法在(b)中应用分类树模型。在两种情况下,分类器的选择都没有太大的区别。在这两种情况下,逻辑回归均表现良好。添加多个音阶不会提高性能。物流仍然是首选模型。

图10a显示了仅使用BG,CG和TG中间等级的七个分类器的性能。PR曲线都在最大F测度点处近似相交,因此,所有分类器在F测度下都是等效的。分类树和SVM在高召回率和低精度条件下可以略微实现更高的性能,但在低召回率和高精度区域中表现较差。总体而言,所有分类器的性能大致相同,但其他问题也会影响模型的选择,例如代表性的紧凑性,稳定性,偏差,方差,培训成本和评估成本。

非参数模型能够获得最高的性能,因为它们能够利用大量的训练数据来提供对后验的无偏估计,但代价是不透明和模型表示量大。普通物流稳定且易于训练,并生成紧凑而直观的模型。此外,该图显示物流的偏见并不会损害绩效。当获得足够的训练数据和时间时,逻辑系统上的所有变体(二次逻辑,增强逻辑和HME)都会带来较小的性能提升。但是,为了适应HME,需要进行许多EM迭代,因此我们需要对训练数据进行大量子采样,以将训练时间保持在合理的范围内。

支持向量机令人失望。训练时间在样本数量上是超线性的,因此必须对训练数据进行大量的二次采样。大类重叠生成的模型具有25%的训练样本作为支持向量,因此生成的模型不透明,很大且评估速度极慢。此外,我们发现SVM的参数是脆弱的。和?。即使在最佳设置下,训练有时也会产生无意义的模型。最佳设置的微小变化将产生不可行的问题。我们得出结论,SVM不适用于没有可分离训练数据的问题。

图10b示出了当针对三个特征中的每一个都包括所有三个标度时,除了分类树之外的每个分类器的性能。结果与以前一样,不同模型之间几乎没有区别。在性能,模型复杂性和计算成本的平衡考虑下,我们偏爱逻辑模型及其变体。

6 总结

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图11.(a)高斯导数。 (b)GD +迟滞。 (c)第二矩矩阵。为经典边缘运算符选择Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP。高斯导数(GD)算子(a)不带磁滞,(b)带有磁滞,以及(c)二阶矩矩阵(2MM)算子,如图12所示。从这些实验中,我们选择GD的最佳比例Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP = 1而不考虑滞后,对于2MM选择Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP = 0.5。

在使用BG和TG各自使用单一比例的灰度边界模型以及添加了CG单一比例的颜色模型之后,我们寻求将这些模型与经典模型和现有技术进行比较。我们作为基准展示的模型是MATLAB对Canny [5]边缘检测器的实现。我们考虑具有和没有磁滞的检测器。据我们所知,尚无任何工作证明自然图像的滞后阈值的好处。我们将没有迟滞的Canny检测器称为“ GD”,因为它只是具有非最大值抑制的高斯导数滤波器。带有磁滞的运算符称为“ GD + H”。GD和GD + H检测器每个都有一个参数进行调整,即Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP的高斯导数滤波器。图图11a和11b示出了对于各种Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP选择的PR曲线。对于这两种情况,Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=1像素都是一个不错的选择。请注意,检测器阈值不是我们需要拟合的参数,因为它是PR曲线的参数。

我们还考虑了从空间平均第二矩矩阵(2MM)得出的检测器。早就知道,第二矩矩阵的本征谱提供了信息丰富的局部图像描述符。例如,两个特征值都大时可以指示角或交点。这是Plessey或HarrisStephens [36]角检测器和Forstner角检测器[37]的基础。一个大和一个小特征值可能表示一个简单的边界。Konishi等人使用的Nitzberg边缘检测器[38]。 [12]是基于特征值之间的差异。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图12:优化第二矩矩阵模型对于此模型,两个特征是局部平均的第二矩矩阵的较小和较大特征值。 (a)Log10(样本计数):显示来自200个训练图像的样本直方图以及100个样本/ bin轮廓。 (b)经验后验:显示边界的经验后验概率。 (c)拟合后验:使用逻辑回归显示拟合后验。我们没有发现更复杂的后验模型具有优越性。 (b)和(c)都绘制了拟合逻辑的线性决策边界。对于较大的特征值,拟合逻辑的系数为-0.27,对于较小的特征值,系数为0.58,偏移为-1。

我们使用完整的本征谱作为特征向量,对2MM检测器采用与对自己的检测器相同的训练/测试方法。从200张训练图像中,我们获得像素的边界上和边界上的标记,并使用2MM的两个特征值作为特征来训练逻辑模型。图12示出了以这种方式训练的模型。图12a示出了训练数据在特征空间中的分布。图12b显示了经验后验,图12c显示了逻辑模型的拟合后验。为了对2MM输出执行非最大值抑制,我们从前导特征向量计算了操作员响应的方向。

2MM检测器还具有两个比例参数。内部尺度是估计图像导数的尺度。我们将内部比例设置为最小值,并使用典型的3 x 3 [-1,0,1]滤波器估算导数。图11c示出了对外部尺度参数的优化,该外部尺度参数是对导数进行空间平均的尺度。仅需要适量的模糊(Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP=0.5 像素)。请注意,需要一定的模糊处理,否则第二个特征值将消失。由于像素分辨率的原因,不太可能进行平滑处理。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图13:检测器比较 本文提出的边界检测器的性能,既可以独立使用,也可以组合使用。

在图13中,我们对BG,CG和TG检测器进行了比较,并给出了两种组合:用于灰度图像的BG + TG和用于彩色图像的BG + CG + TG。显然,每个功能都包含大量独立信息。图3显示了两个高斯导数运算符(GD和GD + H),第二矩矩阵运算符(2MM),我们的灰度BG + TG运算符和我们的颜色BG + CG + TG运算符之间的比较。首先,请注意尽管只有在非常低的召回率下,差异才明显,但滞后确实会给普通GD操作员带来一些改善。2MM操作员确实比Canny检测器有了显着改进,但召回率较低。2MM运算符的主要好处是,它不会在两个特征值都较大的地方触发,请注意模型中系数的相反符号。结果,它不会触发像素在多个方向上的能量重合的位置,例如在角落或内部某些纹理。因此,2MM减少了来自高对比度纹理的误报数量。

  4. BG + TG运算符的逻辑系数对于BG为0.50,对于TG为0.52,偏移为-2.81。对于BG,颜色模型的系数为0.31,对于CG为0.53,对于TG为0.44,偏移为-3.08。将特征标准化为具有单位方差。BG的特征标准偏差为0.13,CG的特征标准偏差为0.077,TG的特征标准偏差为0.063。

基于BG和TG的运算符的性能明显优于传统的和先进的边界检测器。改善性能的主要原因是对纹理的稳健处理。 GM和2MM都不能检测纹理边界。由于2MM抑制纹理区域内的误报的相同原因,它还抑制纹理区域之间的边缘。

图3还显示了分割数据集中人类受试者的表现。每个绘制的点都将单个人类分割的精确度和召回率与同一图像的其他人类分割相比较。人类F值中位数为0.80。图右上角的实线显示了0.80的iso-F量度线,代表了人类绩效的F量度边界。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图14:在各种距离公差下的检测器比较。 (a)GD +迟滞,(b)第二矩矩阵,(c)BG + TG,以及(d)BG + CG + TG显示了每个检测器的精确召回曲线,因为匹配容差在Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP像素之间变化。每个检测器的曲线不相交,因此无论阈值如何,F量度都能很好地表示性能。 (e)显示了F测度和四个检测器的距离容差之间的关系,以及人类的平均表现。人的曲线比机器的曲线平坦,表明人的定位很好。可以缩小人机性能之间的差距,但不能通过更好的局部边界模型来弥补。中级线索和高级对象特定知识都可能需要接近人类受试者的表现。

图3中的每条曲线都使用固定的距离公差Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP图像对角线(2.88像素)的1%。图14显示了每个检测器的F量度如何随此公差的变化而变化。数字像素网格强制离散化此参数,该图显示了d =1 的结果。图14a,14b,14c和14d显示了每个检测器的PR曲线。由于这些曲线不相交而是大致平行,因此F度量可有效捕获差异。图14e示出了对于每个检测器和对于人类受试者,F量度如何根据d变化。如果检测器的定位好于1个像素,则检测器的曲线将是平坦的。相反,所有的机器曲线都显示出比人类受试者更大的定位误差。毫无疑问,有关局部边界检测的其他工作将缩小机器性能与人员性能之间的差距,但是,大的收获最终将需要更高级别的算法。初步工作[39]表明,观看图2中所示局部斑块的人类受试者的表现与我们最好的探测器相当。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图15:本文介绍的梯度检测器的边界图像。第2、3和4行显示了三个线索的非最大值抑制后的实值边界概率(P)图像。第5行中的逻辑函数已成功集成了三个BG,CG和TG通道中的补充信息。第6行中显示的人体分割区域中的边界较暗,其中更多的对象标记了边界。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图16:三个灰度检测器的边界图像。与图15进行比较。第2、3和4行显示了高斯导数(GD),第二矩矩阵(2MM)和我们的亮度+纹理检测器(BG + TG)的Pb图像。再次显示了人类分割,以进行比较。 BG + TG检测器的优势在于:1)在不牺牲定位的情况下进行大规模操作; 2)抑制纹理区域内部的边缘。

我们在图5和图6中给出定性结果。 15、16和17。第一个图显示了我们探测器的各种版本以及人类的边界。第二幅图显示了GD + H,2MM和BG + TG检测器与人类边界之间的比较。第三幅图显示了几个有趣边界的特写视图。这些图中的每个机器检测器图像都显示了非极大值抑制之后以及在取最大的θ之后的软边界图。在图15中,我们看到了三个通道中包含的补充信息,以及逻辑模型的有效组合。例如,当颜色出现在(b,c,i)中时,会使用颜色来改善检测器的输出。图16显示了BG + TG检测器如何从纹理中消除误报,同时又保留了良好的边界定位。这种效果在图16e中尤为突出。

图17e更详细地显示了图16e中男人的肩膀。此图像说明了几个有趣的问题。条纹衬衫袖子是一个困难的纹理边界,因为与区域的宽度相比,条纹的比例较大。但是,边界已成功检测到TG具有良好的定位性,并且没有基于亮度的方法(例如GM)标记的误报。2MM检测器在处理这种纹理时也遇到了很大的困难,因为它不是各向同性的,因此eigengap(本征缺口)在纹理内部仍然很大。请注意,没有检测器发现男人肩膀的上边缘。没有关于该边界的光度学证据,但人类受试者对它的标记却出乎意料。显然,如果没有对象级别的信息,我们就无法找到这样的边界。

图图17e和17g显示了与GM和2MM检测器相比,我们的检测器中误报的减少。图17c显示了沿着船底的另一个困难的纹理边界,其中纹理是各向异性的,并且其方向倾斜于对象边界。

图图17b,17d和17f显示了我们探测器中的不同特征通道如何协作以找到复合边界。特别是在图17b中,我们可以看到所有三个通道(BG,CG和TG)都已经找到了耳朵的边界。BG的规模较小,因此具有良好的定位能力,但在耳内也有更多的误报。CG对肤色有很强的反应,但较大的支撑会牺牲耳垂周围的局部性。纹理梯度在耳朵周围,耳朵与脸部之间以及眼睛周围具有强烈的响应,但是局部化仅在几个像素点之外。通过组合三个响应,可以增强在任一通道中发现的重要边界,而可以增强在多个通道中发现的边界。这种增强效果不仅可以增强响应能力,还可以有益于本地化,例如在耳廓周围的BG响应TG反应更好地对齐。最终结果非常类似于人类标记的边界。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图17:特写边界和无边界示例。这些例子取自图1和2所示的图像。参见图15和16。选择它们是为了说明不同功能的优点以及这些各种本地检测器的缺点。简而言之,它们显示(a)困难的纹理边界和虚幻的轮廓,(b)有用的CG信号和适合TG的比例,(c)TG发现的困难的纹理边界(船的底部),(d)示例BC,CG和TG有效地合作,(e)和(f)更困难的纹理边界(来自图15和16中的图像(b)和(i))可以被我们的探测器定位,但在GM和2MM中完全丢失了(g)纹理区域的内部(来自图(g)中的墙),显示出我们的探测器在自然纹理内部的假阳性响应减少。

7 结论

我们定义了一套适用于构建局部边界模型的新颖的亮度,颜色和纹理提示,以及一种基准测试边界检测算法的方法。通过在自然图像中使用大量带有人类标签的边界的数据集,我们制定了用于局部边界检测的提示组合任务作为监督学习问题。这种方法对每个图像位置和方向上边界的真实后验概率进行建模,这对于高级算法特别有用。选择用于基于局部线索对边界的后验概率建模的分类器并不重要-一个简单的线性模型就足够强大了。基于对100个自然图像的定量评估,我们的检测器性能优于现有方法,表明对纹理的正确处理对于检测自然图像中的边界至关重要。

附录A
计算梯度特征

梯度计算中计算量最大的部分是半盘特征直方图的计算。在每个像素处,我们必须在几个方向和多个比例的半圆形邻域上计算两个直方图。正确地构造,此计算可以高效完成。

最优化的加速是通过优化循环定向来实现的。假设我们希望在n个均匀间隔的方向上计算梯度,可以将光盘分成饼图切片。如果我们计算直方图,则是通过旋转光盘时减去最后一个切片并添加下一个切片,即可得出方向i中n个相邻饼图切片的总和。还要注意,可以通过预先计算切片成员资格掩码来优化计算饼图直方图的初始步骤。

对于纹理渐变,这些优化就足够了。但是,BG和CG要求的软装箱建议提速的其他机会。对于每个内核样本,每个像素为直方图贡献一个点。简单地预先计算内核偏移量和值是有效的,尽管如果内核样本数量很大,这种方法很慢。如果内核样本多于bin,则应该预先计算每个像素的总直方图贡献。

其他循环可能会允许其他优化机会。以与我们按方向将圆盘分割成饼片的方式相同,可以将圆盘另外分割成与多个刻度相对应的同心环。由于我们的半八度音阶使光盘的面积增量为每刻度2倍,因此我们的计算以较大的音阶为主导。较小的比例增量可能会激发此优化。

当我们在扫描线上扫过光盘时,仍然有很多冗余计算。饼图直方图在相邻像素之间变化缓慢,尤其是在方向数量不多时。可以通过计算切片更新掩码来增量计算它们。对于大半径时,此优化实现了一个数量级的加速。

附录B
对应的边界图

在本节中,我们介绍用于计算阈值机器边界图和人类标记边界图之间的对应关系的算法。我们将对应问题转换为最小成本的两方分配问题,其中机器边界像素和人类边界像素之间的权重与它们在图像平面中的相对距离成比例。然后可以将匹配某个阈值d的所有边界像素声明为非匹配。

最好的密集分配算法[40],[41]在O(n)和O(n)之间的某个地方具有典型的运行时复杂度。这对于我们的目的而言太慢了,因此,我们必须制定一个稀疏的分配问题。我们使用Goldberg的CSA软件包,该软件包实现了最小费用稀疏分配的最著名算法[42],[43]。CSA代码似乎以图形的大小在时间上线性运行。剩下的就是构造一个符合某些实际算法问题的稀疏版本的分配问题。为了使问题稀疏,我们在图表中仅包含权重为的w<=d那些边,因为具有w>dmax的边仅能为该机器的误报虚空地分配缺失的人为边界。在此稀疏化步骤之后,可以将任何孤立的节点从分配问题中删除,并立即计为未命中或误报。

最小成本分配问题要求人们指定分配的程度,以将搜索限制在非平凡的解中。由于我们无法知道先验程度,因此我们必须请求完美匹配,即涉及所有节点的匹配。但是,稀疏化步骤几乎肯定会除去完美匹配所需的边缘。通过在比赛两边添加离群节点,可以轻松解决此问题。入射到异常值节点上的所有边缘的权重均高于图中的任何实际边缘,从而确保仅在必要时才使用它们,以将真正的最小成本部分匹配扩展到有效的完美匹配。

给定一个稀疏分配问题,左侧为n节点,右侧n为节点,我们在左侧添加了n离群节点,在右侧添加了n离群节点。这个平方问题具有足够的节点来确保完美匹配,但是我们无法负担密集的离群值连接。但是,我们可以利用以下事实:所有异常连接具有相同的重量。在给定分配解决方案的情况下,使用的异常值边缘可以互换,并且未使用的异常值连接不会影响解决方案。因此,密集的异常连接包含大量冗余并且过于保守。通过吸引随机图中存在的高度连通性,我们可以通过在每个节点中包含恒定数量的异常值连接来使图的大小在节点数中保持线性。我们发现d=6 连通性已足够,因此,每个真实节点都有d个随机离群连接,而每个异常节点都有d个随机离群连接。

剩下一个小细节,因为图形仍然不能保证完美匹配的存在。作为安全网,我们覆盖了高成本的完美匹配,该匹配以并行方式将每个真实节点匹配到一个离群节点。我们在随机离群值连接之前添加这些连接,并随机添加离群值连接而不进行替换。此图中的最小成本完美匹配可提供机器和人为边界图之间像素的最佳对应关系,最大定位公差为d。图18描绘了图形构造过程。

Image Processing and Analysis_8_Edge Detection:Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues ——2004-LMLPHP

图18:用于比较边界图的二部图。我们通过相应的边界像素比较两个边界图。该图显示了用于计算对应关系的二部图的构造。顶部面板包含图形中五种类型的边缘的图示。底部面板包含图形的邻接矩阵。在修剪孤立像素后,两个边界图S1和S2为图形贡献了n1 = 3,664和n2 = 4,124个节点。在将异常节点添加到两侧之后,我们得到一个平方n * n分配问题,其中n = n1 + n2 = 7,788。二部图的邻接矩阵具有块结构。每个块都包含顶部面板中的相应边。左上方的块A包含像素之间的稀疏局部连接-图形中唯一的“真实”边缘。块B和C包含随机离群值连接,而块D包含随机离群值到离群值连接。 E边缘位于B和C块的对角线上,提供了安全网高成本的完美匹配。整个矩阵有64,470个非零值,密度为0.1%。

所提出的算法的主要缺点在于结的区域,在结的区域中,可以在边界上以不同方向出现的边界像素之间进行分配。可以很容易地将方向性惩罚合并到二部图的边缘权重中,但是我们已经证实,这种增强对合计精度和召回率值没有明显的影响,因为相对于简单边缘而言,结点缺乏。通过使用比赛中边缘权重的值,还可以以一种柔和的方式计算命中率,未命中率和误报率。然而,考虑到我们使用了大量的图像,简单的二进制计数就足够了,更不用说缺乏令人信服的成本函数了。

致谢

作者要感谢伯克利计算机视觉小组,特别是任小峰。他们还感谢Mike Jordan和Peter Bartlett对分类器的建议和讨论,Kobus Barnard关于颜色的讨论,以及Andrew Goldberg对于CSA代码和使用它的建议。最后,他们感谢匿名审稿人的深思熟虑的评论和建议,使稿件有了很大的改进。Jitendra Malik得到了加州大学伯克利分校米勒研究教授的支持。这项工作得到了美国海军研究办公室拨款N00014-01-1-0890(MURI)的支持。

参考文献

[1] Z. Tu, S. Zhu, and H. Shum, “Image Segmentation by Data Driven Markov Chain Monte Carlo,” Proc. Int’l Conf. Computer Vision, vol. 2, pp. 131-138 July 2001.
[2] J. Malik, S. Belongie, T. Leung, and J. Shi, “Contour and Texture Analysis for Image Segmentation,” Int’l J. Computer Vision, vol. 43, no. 1, pp. 7-27 June 2001.
[3] L. Williams and D. Jacobs, “Stochastic Completion Fields: A Neural Model of Illusory Contour Shape and Salience,” Proc. Int’l Conf. Computer Vision, 1995.
[4] X. Ren and J. Malik, “A Probabilistic Multi-Scale Model for Contour Completion Based on Image Statistics,” Proc. Seventh European Conf. Computer Vision, 2002.
[5] J. Canny, “A Computational Approach to Edge Detection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 8, pp. 679-698, 1986.
[6] Y. Rubner and C. Tomasi, “Coalescing Texture Descriptors,” Proc. ARPA Image Understanding Workshop, 1996.
[7] S. Will, L. Hermes, J.M. Buhmann, and J. Puzicha, “On Learning Texture Edge Detectors,” Proc. Int’l Conf. Image Processing, pp. 877880, 2000.
[8] C. Carson, S. Belongie, H. Greenspan, and J. Malik, “Blobworld: Image Segmentation Using Expectation-Maximization and Its Application to Image Querying,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 8, pp. 1026-1038, Aug. 2002.
[9] L. Hermes, T. Zoller, and J. Buhmann, “Parametric Distributional Clustering for Image Segmentation,” Proc. European Conf. Computer Vision, 2002.
[10] J. Rivest and P. Cavanagh, “Localizing Contours Defined by More Than One Attribute,” Vision Research, vol. 36, no. 1, pp. 53-66, 1996.
[11] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A Database of Human Segmented Natural Images and Its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics,” Proc. Int’l Conf. Computer Vision, 2001.
[12] S. Konishi, A.L. Yuille, J. Coughlan, and S.C. Zhu, “Fundamental Bounds on Edge Detection: An Information Theoretic Evaluation of Different Edge Cues,” Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 573-579, 1999.
[13] M. Morrone and D. Burr, “Feature Detection in Human Vision: A Phase Dependent Energy Model,” Proc. Royal Soc. of London B, vol. 235, pp. 221-245, 1988.
[14] P. Perona and J. Malik, “Detecting and Localizing Edges Composed of Steps, Peaks and Roofs,” Proc. Int’l Conf. Computer Vision, 1990.
[15] W. Niblack et al., “The QBIC Project: Querying Image by Content Using Color, Texture, and Shape,” Proc. SPIE, vol. 1908, 1993.
[16] M. Ruzon and C. Tomasi, “Color Edge Detection with the Compass Operator,” Proc. IEEE Conf. Computer Vision and Pattern Recognition, 1999.
[17] M. Ruzon and C. Tomasi, “Corner Detection in Textured Color Images,” Proc. Int’l Conf. Computer Vision, pp. 1039-1045, 1999.
[18] I. Fogel and D. Sagi, “Gabor Filters as Texture Discriminator,” Biological Cybernetics, vol. 61, pp. 103-113, 1989.
[19] J. Malik and P. Perona, “Preattentive Texture Discrimination with Early Vision Mechanisms,” J. Optical Soc. Am., vol. 7, no. 2, pp. 923932, May 1990.
[20] D. Heeger and J. Bergen, “Pyramid-Based Texture Analysis/ Synthesis,” Proc. SIGGRAPH, 1995.
[21] J. Puzicha, T. Hofmann, and J. Buhmann, “Non-Parametric Similarity Measures for Unsupervised Texture Segmentation and Image Retrieval,” Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, pp. 267-272, 1997.
[22] J. Puzicha, Y. Rubner, C. Tomasi, and J. Buhmann, “Empirical Evaluation of Dissimilarity Measures for Color and Texture,” Proc. Int’l Conf. Computer Vision, 1999.
[23] C. Mallows, “A Note on Asymptotic Joint Normality,” Annals of Math. Statistics, vol. 43, no. 2, pp. 508-515, 1972.
[24] E. Levina and P. Bickel, “The Earth Mover’s Distance is the Mallows Distance: Some Insights From Statistics,” Proc. Int’l Conf. Computer Vision, vol. 2, pp. 251-256, 2001.
[25] S. Palmer, Vision Science. MIT Press, 1999.
[26] E. Levina, “Statistical Issues in Texture Analysis,” PhD thesis, Univ. of California, Berkeley, 2002.
[27] “Berkeley Segmentation and Boundary Detection Benchmark and Dataset,” 2003, http://www.cs.berkeley.edu/projects/vision/ grouping/segbench.
[28] C. Van Rijsbergen, Information Retrieval, second ed. Dept. of Computer Science, Univ. of Glasgow, 1979.
[29] I. Abdou and W. Pratt, “Quantitative Design and Evaluation of Enhancement/Thresholding Edge Detectors,” Proc. IEEE, vol. 67, no. 5, pp. 753-763, May 1979.
[30] K. Bowyer, C. Kranenburg, and S. Dougherty, “Edge Detector Evaluation Using Empirical ROC Curves,” Proc. Conf. Computer Vision and Pattern Recognition, 1999.
[31] D. Martin, C. Fowlkes, and J. Malik, “Learning to Detect Natural Image Boundaries Using Brightness and Texture,” Neural Information Processing Systems, 2002.
[32] M. Meila and J. Shi, “Learning Segmentation by Random Walks,” Neural Information Processing Systems, 2001.
[33] R.E. Schapire and Y. Singer, “Improved Boosting Algorithms Using Confidence-Rated Predictions,” Machine Learning, vol. 37, no. 3, pp. 297-336, 1999.
[34] M.I. Jordan and R.A. Jacobs, “Hierarchical Mixtures of Experts and the EM Algorithm,” Neural Computation, vol. 6, pp. 181-214, 1994.
[35] C.ChangandC.Lin,LIBSVM:ALibraryforSupportVectorMachines, 2001, available at http://www.csie.ntu.edu.tw/cjlin/libsvm.
[36] C. Harris and M.J. Stephens, “A Combined Corner and Edge Detector,” Proc. Fourth Alvey Vision Conf., pp. 147-151. 1988,
[37] W. Fo ¨rstner and E. Gulch, “A Fast Operator for Detection and Precise Locations of Distinct Points, Corners, and Centres of Circular Features,” Proc. Intercommission Conf. Fast Processing of Photogrammetric Data, pp. 281-305, 1987.
[38] M. Nitzberg, D. Mumford, and T. Shiota, Filtering, Segmentation, and Depth. Springer-Verlag, 1993
[39] D. Martin, C. Fowlkes, and J. Malik, “Local Boundary Detection in Natural Images: Matching Human and Machine Performance,” Proc. European Conf. Visual Perception, 2003.
[40] R. Jonker and A. Volgenant, “A Shortest Augmenting Path Algorithm for Dense and Sparse Linear Assignment Problems,” Computing, vol. 38, pp. 325-340, 1987.
[41] G. Carpaneto, S. Martello, and P Toth, “Algorithms and Codes for the Assignment Problem,” Annals of Operations Research, vol. 13, pp. 193-223, 1988.
[42] A.GoldbergandR.Kennedy,“AnEfficientCostScalingAlgorithm for the Assignment Problem,” SIAM J. Discrete Math., 1993.
[43] B.V. Cherkassky and A. V. Goldberg, “On Implementing PushRelabel Method for the Maximum Flow Problem,” Proc. Fourth Integer Programming and Combinatorial Optimization Conf., pp. 157171, May 1995.

有关此主题或任何计算主题的更多信息,请访问我们的数字图书馆,网址为http://computer.org/publications/dlib

05-11 14:06