利用RGB-D相机的物体重建和识别，如Kinect | roboticstomoro半岛app官网gydF4y2Ba

最近，所谓的RGB-D相机已经可用，能够实时提供同步的颜色(RGB)和深度(D)信息。深度信息是密集的，主机CPU的额外处理成本可以忽略不计。它们避免了立体系统鲁棒视差图计算的复杂性，并且比激光扫描技术快得多。因此，这些传感器对计算机视觉界非常有吸引力，它们对经典应用的好处值得研究。gydF4y2Ba

尼古拉斯·伯鲁斯，穆罕默德·阿卜德拉希姆，豪尔赫·加西亚和路易斯·莫雷诺gydF4y2Ba

08/10/11, 09:41 am |gydF4y2Babdapp安卓手机版 |gydF4y2Ba系统及应用gydF4y2Ba，gydF4y2Ba技术讨论gydF4y2Ba

最近，能够提供实时颜色和深度信息的传感设备已经成为可能。我们展示了它们如何在机器人操作的背景下有益于3D对象模型的获取、检测和姿态估计。在建模方面，我们提出了一种能够以低加工成本重建粗糙三维形状的体积雕刻算法。在检测方面，我们发现很少有鲁棒性可以直接添加到经典的基于特征的技术中，但我们提出了一个有趣的组合，与传统的鲁棒性较差的技术，如直方图比较。我们最后观察到，使用深度测量也可以大大提高3D姿态估计。gydF4y2Ba

介绍gydF4y2Ba

在本文中，我们研究了它们如何在机器人对象操作中涉及的一些计算机视觉任务中受益。更具体地说，我们关注深度信息如何简化新的三维目标模型的获取，提高目标识别的鲁棒性，并使检测到的目标的三维姿态估计更加准确。gydF4y2Ba

我们的特殊硬件设置和限制将在第2节中介绍。在第3节中，我们简要回顾了基于RGB-D的模型获取的最新进展，并提出了一种基于体积雕刻的简单而高效的算法。然后，我们在第4节中研究所提供的深度信息如何在混乱场景中有益于基于特征的物体识别。我们表明，它们大致分割物体表面的能力可以使传统的不太健壮的技术(如颜色直方图)的组合更具吸引力。我们最后在第5节中观察到，当可用的特征匹配很少时，3D姿态估计也得到了很大的改善。gydF4y2Ba

硬件设置和校准gydF4y2Ba

目前有几种RGB-D摄像机可用。它们大多基于飞行时间(ToF)原理，并测量发射所需的时间gydF4y2Ba

图1所示。左图:PMD Camcube 2.0配彩色摄像头。右:使用PA10机器人的转台设置。gydF4y2Ba

红外(IR)信号返回到红外传感器阵列。Kolb[5]给出了现有相机的概述和技术细节。最近，PrimeSense和微软b[9]发布了一款相机，可以使用投影红外模式和三角测量法计算实时深度图。gydF4y2Ba

我们所有实验使用的ToF相机是PMD Camcube 2.0[10]。它是一个ToF相机，空间分辨率为204x204像素，深度范围为30cm-7m。深度精度为~ 2 cm，重复性为~ 3 mm。它提供同步深度和灰度图像。为了捕捉场景的细节纹理，我们将相机与经典彩色网络摄像头相结合，如图1所示。PMD相机的灰度输出分辨率足够高，可以实现经典的立体校准，如布格的方法。因此，可以通过使用估计的深度将像素反向投影到3D，然后将其投影到彩色图像上，从而获得深度图像中每个像素的颜色信息。gydF4y2Ba

对于模型获取，设置包括一个由机械臂驱动的转盘。这使得可重复和校准的观点。gydF4y2Ba

对象模型获取gydF4y2Ba

以前的工作gydF4y2Ba

目前针对RGB-D相机的目标模型采集，只提出了几种方法。在[4]中，经典的多视角立体与ToF相机相结合来重建纹理较差的区域。Cui[2]只使用一个ToF相机，专注于用昂贵的超分辨率技术提供高质量的模型。使用另一种RGB-D相机，Krainin[6]提出了一种基于“表面元素”的基于表面的技术。然而，这种技术需要高深度精度，这是目前现有的ToF相机无法提供的。gydF4y2Ba

基于体积雕刻的重建gydF4y2Ba

图2。轮廓提取使用ToF相机和简单的深度阈值。深度gydF4y2Ba

图像是彩色编码的。gydF4y2Ba

观察到ToF相机在提供场景中物体的轮廓方面非常好，我们建议依赖基于轮廓的技术。轮廓在文献中已经被广泛使用[7,12]，但是它们的计算在使用经典相机时仍然存在问题。通常需要统一或容易区分的背景，这导致系统的灵活性较低。gydF4y2Ba

然而，使用深度信息，可以很容易地从背景中区分出感兴趣的对象，并且可以通过简单的深度阈值获得轮廓，如图2所示。为了证明这一点，我们开发了一种基于深度测量的简单空间雕刻技术。它在精神上类似于[12]，但这里没有应用光一致性步骤。这就阻止了小凹细节的重建，但重建速度更快，得到的模型足够精确，可以用于操作任务。gydF4y2Ba

提出的算法迭代切割三维离散体。每个体素被表示为一个立方体，其大小是根据所需的细节级别来定义的。对于ToF相机拍摄的每个视图，根据它们与新视图的深度兼容性来消除体素。这是通过将每个体素投影到深度图像上，并比较其dgydF4y2Ba_{体素gydF4y2Ba}与测量深度dgydF4y2Ba_{视图gydF4y2Ba}。如果dgydF4y2Ba_{视图gydF4y2Ba}> dgydF4y2Ba_{体素gydF4y2Ba}+gydF4y2BaδgydF4y2Ba_，gydF4y2Ba这意味着该体素在场景中不一致，并且被丢弃。δ是容限，取决于传感器精度。在我们所有的实验中，它被设置为3厘米是保守的，避免用Camcube相机去除体素。这个值不是很敏感，因为大部分雕刻都是在边缘上进行的。然而，一个小的值可以重建深度大于δ的凹结构。gydF4y2Ba

根据体素的大小，一个体素的投影可以在深度图像上重叠几个像素。实际的重叠是通过计算体素的投影宽度和高度并比较dv来近似的gydF4y2Ba_{oxelgydF4y2Ba}在深度图像的相应邻域内进行深度测量。如果至少有一个dgydF4y2Ba_{视图gydF4y2Ba}与d兼容gydF4y2Ba_{体素gydF4y2Ba}，则保留该体素。gydF4y2Ba

后处理和结果gydF4y2Ba

该算法的输出是一组相当密集的立方体体素。对于操作任务，获得对象的表面表示更有用。这可以通过首先通过简单的邻域测试去除所有内部体素，然后运行表面重建算法(如Poisson[3])来实现。图3和图4给出了一些结果。这些模型是通过旋转获取的35个视图获得的gydF4y2Ba

图3。获得的模型示例:杯子。左上:要扫描的对象，右上:雕刻的体积，左下:泊松重建，右下:在已知姿态的彩色图像上重新投影。gydF4y2Ba

转盘由10°步骤。相机距目标约50厘米，体素大小为1毫米。目前在2Ghz计算机上处理36个视图的时间不到10秒，并且通过仔细的实现应该可以达到实时性能。gydF4y2Ba

对象识别gydF4y2Ba

在本节中，我们研究了ToF相机如何在新场景中对物体模型的识别和3D定位。目前已经提出了许多识别技术，但自从[8]的影响工作以来，基于局部特征匹配和聚类的方法变得非常流行，因为它们对纹理足够的对象具有良好的结果。因此，我们选择了一种源自[8]的方法作为我们的基线算法，并在本文中重点研究了ToF相机如何有助于提高检测率。gydF4y2Ba

基线检测算法gydF4y2Ba

我们在这里回顾一下目标检测方法的主要原理。首先，在获取的模型的每个颜色视图上提取SIFT点并存储在数据库中;然后在图像上提取SIFT点进行分析，并与数据库中最接近的点进行匹配。每个单个特征点关联产生对应模型的候选姿态。然后对兼容的候选姿态进行聚类，并使用统计标准进行可靠的检测。gydF4y2Ba

第一次尝试gydF4y2Ba

RGB-D相机在特征匹配方面的一些应用似乎很简单。然而，我们观察到，由于测量不够精确，一些直接的改进结果只带来了边际效益。我们发现其中一些评论很有趣:gydF4y2Ba

图4。获得模型的例子:玩具。左上:要扫描的对象，右上:雕刻的体积，左下:泊松重建，右下:在已知姿态的彩色图像上重新投影。gydF4y2Ba

1.利用深度加速SIFT点匹配，丢弃尺度/深度比不一致的点。使用这种优化，实际上只有大约10%的错误SIFT匹配可以被删除。的确，结合SIFT尺度估计和深度测量的不精确性，再考虑到大多数点出现在相同的尺度上，实际上很少有点可以被安全丢弃。gydF4y2Ba

2.在特征聚类阶段，使用深度来丢弃异常值。由于两个原因，这种过滤的好处也非常有限。首先，[8]中描述的几何滤波器对于去除异常值已经非常有效。其次，当物体存在镜面时，深度测量通常会有强烈的偏差。在这些领域，有效的特征可能会被错误地丢弃，以某种方式补偿过滤器的潜在好处。gydF4y2Ba

3.考虑深度信息，减少背景对SIFT描述符的影响。正如[11]指出的那样，这对于小物体识别来说是一个严重的问题。我们没有使用二维高斯模型来计算邻域影响，而是使用了包含深度差的三维高斯模型。然而，由于深度图的空间分辨率较低，导致彩色图像的边界模糊，背景的影响仍然很大。由于镜面效应引起的误差也补偿了小的收益，因此所得收益是边际的。gydF4y2Ba

结合深度分割直方图比较gydF4y2Ba

这些直接改进基于特征方法核心的不成功尝试促使我们研究更多的区域属性。我们的研究基于[1]，其中SIFT特征匹配与仅使用彩色图像的区域直方图比较相结合。gydF4y2Ba

图5。深度滤波在直方图计算中避免背景和遮挡像素的影响。左边的红色区域是完整的候选区域。右:使用深度不相似性过滤的区域gydF4y2Ba

图6。用于性能评估的192个带注释的测试图像之一。在检测到的对象周围显示边界框，以及与数据库匹配的局部特征。gydF4y2Ba

然而，区域特征的一个主要弱点是它们对周围背景和遮挡物体的敏感性。gydF4y2Ba

在[1]中，在特征聚类步骤确定的候选区域的边界框中计算被分析图像的直方图。为了使直方图计算更加鲁棒，我们建议只包含深度与特征点的中值深度足够相似的像素。这将丢弃属于进一步背景对象的像素，但如果它们的深度足够不同，也将丢弃属于闭塞对象的像素。在所有实验中，深度相似阈值都是经验性地设置为5cm。图5显示了这种过滤方法如何显著减少直方图计算中的杂波量。gydF4y2Ba

为了量化深度滤波器带来的改进，我们建立了一个测试数据集。首先，使用第3节的方法获得17个模型。然后，通过将目标定位到不同的配置，包括多目标场景、重背景杂波、遮挡和光线变化，记录测试图像，得到192张图像。最后用目标边界框对这些图像进行注释，以建立一个真实的基础，并定量评估识别算法的性能。图6给出了一个测试图像的示例，图7给出了对该数据集进行深度滤波后的检测改进。显著提高了检测率，特别是对于纹理较差和颜色突出的物体。gydF4y2Ba

图7。检测率分为基线法、基线结合颜色直方图法和基线结合深度滤波颜色直方图法。gydF4y2Ba

改进姿态估计gydF4y2Ba

一旦物体被检测到，就必须估计其精确的3D姿态。最常用的方法是RANSAC和特征重投影误差的最小二乘最小化。RANSAC在丢弃异常值方面表现非常好，但需要大量的特征匹配。由于识别算法可以检测到只有2或3个匹配的对象，因此我们仅在匹配数量过少时依赖迭代最小二乘来最小化重投影误差。仅使用二维特征坐标，少量点的姿态估计往往缺乏约束或不可靠。我们观察到，引入深度信息来计算三维重投影误差可以显著改善结果。这可以通过定义以下错误函数来实现:gydF4y2Ba

与gydF4y2BaH (FgydF4y2Ba_我gydF4y2Ba）gydF4y2Ba模型特征的三维坐标gydF4y2Ba_我gydF4y2Ba根据姿态估计投影到当前图像上gydF4y2BaHgydF4y2Ba,gydF4y2BaCgydF4y2Ba_我gydF4y2Ba特征分析图像的(x,y,d)坐标。当深度可用时，度量距离函数∆计算为:gydF4y2Ba

其中p1和p2两个三维点的坐标分别为(x1;y1;d1)和(x2;y2;d2)， fx, fy为标准针孔模型下相机的估计水平和垂直焦距。gydF4y2Ba

在有遮挡的场景下得到的改进如图8所示。gydF4y2Ba

结论gydF4y2Ba

本文介绍了在机器人操作的背景下，使用ToF相机进行三维物体模型获取和识别的一些初步结果。在建模方面，我们提出了一种快速获取新模型的体积雕刻方法。收购设置是非常灵活的gydF4y2Ba

图8。姿态估计(红色的投影网格)可以使用ToF测量(右)来改进，特别是当检测到的特征点很少时，例如当物体被遮挡时。gydF4y2Ba

不需要特殊背景。当相机深度精度较低时，它优于先前提出的基于表面的技术。gydF4y2Ba

在识别方面，我们观察到基于局部特征聚类的方法的核心可以直接添加一些改进。然而，深度信息可以使区域相似性度量更加稳健，我们在真实数据集上展示了最先进算法的显著改进。当只有少数特征匹配时，使用3D重投影误差的姿态估计也得到了很大的改进，但定量评估仍在进行中。gydF4y2Ba

参考文献gydF4y2Ba

bbb10 N. Burrus, T.M. Bernard和J.-M。Jolion。自底向上和自顶向下的对象匹配采用异步代理和反向原则。摘自《中华医学会期刊》，第343-352页，2008。gydF4y2Ba

[10]崔玉娟，陈德华，陈淑娟，陈志强。gydF4y2Ba
用飞行时间照相机进行三维形状扫描。《中国科学院学报》，2010年第1期。gydF4y2Ba

M. Kazhdan, M. Bolitho，和H. Hoppe。泊松面重建。《欧洲图形学研讨会论文集:几何处理》，第61-70页，2006。gydF4y2Ba

[10]金永明，陈永祥，陈永祥，陈永祥。面向密集三维重建的多视图图像与ToF传感器融合。2009年3月刊。gydF4y2Ba

[b] A.科尔布，E.巴特，R.科赫，R.拉森。计算机图形学中的飞行时间照相机。计算机图形学论坛，29(1):141-159,2010。gydF4y2Ba

M. Krainin, P. Henry, X. Ren, D. Fox。手持式模型采集的操纵器与目标跟踪。ICRA移动操作研讨会，2010。gydF4y2Ba

Kutulakos和S.M. Seitz。一种通过空间雕刻来塑造形状的理论。生物工程学报，38(3):199-218,2000。gydF4y2Ba

b[8] D.G.洛。基于尺度不变关键点的鲜明图像特征。生物工程学报，60(2):91-110,2004。gydF4y2Ba

微软[9]。面向Xbox360的Kinect, 2010年。gydF4y2Ba

[10] PMDtec。PMD[vision] CamCube 2.0, 2010。gydF4y2Ba

b .斯坦和赫伯特。将背景不变性纳入基于特征的目标识别。计算机视觉应用学报，2005。gydF4y2Ba

G.沃尔克和杜洛因先生。渐进三维重建的未知物体使用一个眼在手相机。机器人与仿生学学报，第9半岛app官网71-976页，2010。gydF4y2Ba

本文的内容和观点是作者的，并不一定代表roboticstomorow的观点半岛app官网gydF4y2Ba

08/10/11, 09:41 am |gydF4y2Babdapp安卓手机版 |gydF4y2Ba系统及应用gydF4y2Ba，gydF4y2Ba技术讨论gydF4y2Ba

评论(0)gydF4y2Ba

这篇文章没有任何评论。请第一个在下面留言。gydF4y2Ba

发表评论gydF4y2Ba

你必须先登录才能发表评论。gydF4y2Ba现在登录gydF4y2Ba。gydF4y2Ba

特色产品gydF4y2Ba

Zaber LC40非电动线性舞台龙门系统gydF4y2Ba

一个Zaber龙门架套件配备了一切你需要建立一个定制的XY龙门架系统或XYZ龙门架系统。这些龙门系统具有协调的多轴运动，即插即用操作，易于与末端执行器选项集成，以及内置IO和E-Stop功能。直观的ASCII接口允许用户使用我们的免费软件轻松地与龙门系统通信，无论是Zaber运动库与api的几种流行语言或Zaber控制台。可以通过串口通信的第三方终端程序也可以使用。gydF4y2Ba

更多的产品gydF4y2Ba

产品特色gydF4y2Ba