平码五不中公式规律
  • / 11
  • 下载费用:30 金币  

一种权衡立体匹配和视觉外形的三维重建方法.pdf

关 键 ?#21097;?/dt>
一种 权衡 立体 匹配 视觉 外形 三维重建 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201710021598.6

申请日:

2017.01.12

公开号:

CN106683182A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):G06T 17/00申请日:20170112|||公开
IPC分类号: G06T17/00; G06N3/04 主分类号: G06T17/00
申请人: 南京大学
发明人: 曹汛; 金威; 朱昊
地址: 210046 江苏省南京市栖霞区仙林大道163号
优先权:
专利代理机构: 南京知识律师事务所 32207 代理人: 李媛媛
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201710021598.6

授权公告号:

|||

法律状态公告日:

2017.06.09|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了一种权衡立体匹配和视觉外形的三维重建方法。具体步骤如下:(1)制作样本数据库,包括立体匹配深度图、视觉外形深度图、多视点RGB图和真实深度图;(2)构建深度卷积神经网络;(3)用数据库训练神经网络,获取立体匹配与视觉外形的权重分配值,根据该值调整神经网络结构,直到获取效果较好的神经网络模型;(4)输入立体匹配深度图、视觉外形深度图和RGB图,通过神经网络模型获得新的深度图;(5)用新的深度图重建三维模型。本发明结合立体匹配与视觉外形两种方法,并通过深度神经网络分配权重值,既能改善立体匹配无法重建高光、无纹理区域的问题,又能避免视觉外形无法重建凹面的缺陷,实现对复杂对象的高质量重建。

权利要求书

1.一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,包括以下步骤:
步骤1:制作样本数据库,每组数据包括多视点RGB图像、立体匹配深度图、视觉外形深
度图、以及物体真实深度图,并计算得到物体真实权重分配值α;
步骤2:构建深度卷积神经网络,包括输入层、隐层和输出层,隐层包括卷积层、池化层
和全连接层;卷积神经网络分三个通道输入,分别对应多视点RGB图像、立体匹配深度图和
视觉外形深度图的输入,卷积神经网络的输出为视觉外形与立体匹配之间的权重分配值;
步骤3:利用步骤2的深度卷积神经网络对步骤1的样本数据库进行训练,输出立体匹配
与视觉外形的权重分配值β,将β值与物体的真值权重图进行对比,根据结果好坏调整神经
网络模型,直到获取效果较好的神经网络模型;
步骤4:将新物体的立体匹配深度图、视觉外形深度图以及多视点RGB图像输入步骤3的
深度网络模型,重新获取权重分配值γ,利用γ值得到新的物体深度图;
步骤5:利用新的物体深度图重建成高精度的三维模型。
2.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,
所述步骤1中,样本数据库中每组数据的图片是同一物体的多视点RGB图片;立体匹配深度
图和视觉外形深度图是根据多视点RGB图片,利用立体匹配算法和视觉外形算法计算得到
的深度图。
3.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,
所述步骤1中,物体的真实权重分配值α是立体匹配深度图与视觉外形深度图两者对物体真
实深度图的权重分配,计算公式为:
Dtrue=α*Dvh+(1-α)*Dsm
其中,Dtrue为物体的真实深度值;Dvh为视觉外形深度值;Dsm为立体匹配深度值。
4.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,
所述步骤2中,卷积神经网络的三个通道输入的数据是:在多视点RGB图像、立体匹配深度图
和视觉外形深度图这三张图片的相同位置,取一个大小为M×M的窗口作为输入,M值为奇
数。
5.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,
所述步骤2中,深度卷积神经网络的三个输入通道中,输入立体匹配深度图和视觉外形深度
图的两个通道含有相同的结构,均包括卷积层和池化层;所述三个输入通道通过全连接层
连接到一起。
6.根据权利要求1所述的一种权衡立体匹配和视觉外形的三维重建方法,其特征在于,
所述步骤3中,深度卷积神经网络的训练过程分为两个部分:
(1)前向传播阶段,输入的数据经过神经网络计算得到一个权重分配值β,从而得到代
价函数J,表示为:
J=∑||β-α||2
(2)反向传播阶段,利用反向传播算法计算卷积层和全连接层的参数的偏导数,采用梯
度下?#26723;?#20195;优化;
不断重复过程(1)和(2),使代价函数J收敛到全局最小值。

说明书

一种权衡立体匹配和视觉外形的三维重建方法

技术领域

本发明涉及计算机视觉、三维重建、人工智能等技术领域,尤其涉及一种权衡立体
匹配和视觉外形的三维融合方法。

背?#20985;?#26415;

三维重建技术是计算视觉领域的热门研究方向,可分为主动式和被动式两类重建
方法。主动式重建方法利用探测器主动发射和接收信号获取真实物体的深度信息,如激光、
红外扫描器,使用结构光或飞行时间原理。被动式重建方法是通过多幅二维图像恢复三维
模型。

对于被动式重建方法而言,立体信息可以通过多种方式获得,最主要的两类信息
来源于立体匹配和视觉外形:

立体匹配(stereo match)是指提取不同视点的图像中的对应特征点,进而依据对
极几何理论求解出每个特征点对应的三维坐标。具有代表性的算法包括:Hong Li等人提出
一种基于图片分割的立体匹配方法(Computer Vision and Pattern Recognition,2004:
74-81.),该方法均匀分割参考图片,利用解最小能量方程获取视差图;Qingxiong Yang等
人用颜色加权和分层置信传播最小化能量方程(Computer Vision and Pattern
Recognition,2006:2347-2354.),恢复场景视差图,有效解决了非连续和阻塞问题。

视觉外形(Visual Hull)首先提取多视点图片中的目标轮廓,而后根据多视点轮
廓重建目标的三维凸壳。具有代表性的算法包括:Matusik W等人提出了一种基于图片的方
法IBVH(Image-Based Visual Hulls)(International Conference on Computer
Graphics and Interactive Techniques,2000:369-374.),该方法采用极线几何和增量计
算的方法计算并渲染模型,克服了传统算法计算复杂度高,图片分?#23195;视?#38480;的问题;Franco
J和Boyer E.两人利用少量的几何操作计算出单通道的多面体视觉外形(IEEE
Transactions on Pattern Analysis and Machine Intelligence,2009,31(3):414-
427),恢复出具有良好拓扑结构的表面;英国萨里大学的Gregor Miller和Adrian Hilton
提出了视觉外形可视交叉定理(International Conference on Pattern Recognition,
2006,10.1109/ICPR.2006.515),应用交叉比来选择图片间的交叉部分。

以上这两种三维重建的方法各具特点,可以相互补充:立体匹配算法在纹理充足、
光照明暗明显的区域重建精度较高,但对缺乏纹理的区域重建效果极差,因?#31169;?#20381;靠立体
匹配算法得到封闭的完整模型;视觉外形根据模型的轮廓信息重建结构,不受纹理的影响,
可以稳定地得到完整的封闭模型。视觉外形算法的局限性在于无法重建凹状结构,因此需
要立体匹配算法作为补充。

传统三维重建算法通常使用视觉外形为立体匹配提供初值,或者在立体匹配结果
基础之上再使用视觉外形算法进行纠正。如:Yebin Liu等人提出了基于连续性的深度估算
方法(Computer Vision and Pattern Recognition,2009:2121-2128.),该方法融?#19979;?#24275;
信息和极线约束,在双目匹配阶段进行全?#21046;交?#35843;整,并?#20063;?#29992;path-based NCC方法对深
度图进行优化。Furukawa Y等人提出了使用一组离散的矩形面片表示三维模型的方法
(IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(8):
1362-1376.),并在此基础之上加入局部光度约束和全局可见性约束,有效?#31181;?#20102;离群点和
噪点;该方法生成的离散面片模型可进一步转化为封闭的网格模型。Beeler T等人在已有
三维重建基础之上设计出高精度瞬时捕捉面部结构的算法(International Conference
on Computer Graphics and Interactive Techniques,2010,29(4).),该算法采用金字塔
分层结构,建立由?#20540;?#31934;的立体匹配框架;针对人的面部特点,加入了连续性先验、顺序先
验和对应先验,并引入微观结构的光照模型,模拟面部皮肤的?#38468;?#32467;构。

发明内容

本发明提出了一种权衡立体匹配和视觉外形的三维重建方法,通过采用卷积神经
网络计算立体匹配和视觉外形所生成的深度图的权重分配值,以获取更加?#26082;?#30340;深度图,
进而提高对复杂物体的重建效果。

本发明采用的技术方案如下:

一种权衡立体匹配和视觉外形的三维重建方法,包括以下步骤:

步骤1:制作样本数据库,每组数据包括多视点RGB图像、立体匹配深度图、视觉外
形深度图、以及物体真实深度图,并计算得到物体真实权重分配值α;

步骤2:构建深度卷积神经网络,包括输入层、隐层和输出层,隐层包括卷积层、池
化层和全连接层;卷积神经网络分三个通道输入,分别对应多视点RGB图像、立体匹配深度
图和视觉外形深度图的输入,卷积神经网络的输出为视觉外形与立体匹配之间的权重分配
值;

步骤3:利用步骤2的深度卷积神经网络对步骤1的样本数据库进行训练,输出立体
匹配与视觉外形的权重分配值β,将β值与物体的真值权重图进行对比,根据结果好坏调整
神经网络模型,直到获取效果较好的神经网络模型;;

步骤4:将新物体的立体匹配深度图、视觉外形深度图以及多视点RGB图像输入步
骤3的深度网络模型,重新获取权重分配值γ,利用γ值得到新的物体深度图;

步骤5:利用新的物体深度图重建成高精度的三维模型。

所述步骤1中,样本数据库中每组数据的图片是同一物体的多视点RGB图片;立体
匹配深度图和视觉外形深度图是根据多视点RGB图片,利用立体匹配算法和视觉外形算法
计算得到的深度图。

所述步骤2中,卷积神经网络的三个通道输入的数据是:在多视点RGB图像、立体匹
配深度图和视觉外形深度图这三张图片的相同位置,取一个大小为M×M的窗口作为输入,M
取值?#27573;?#19981;定,一般取奇数。

进一步地,所述步骤2中,深度卷积神经网络的三个输入通道中,输入立体匹配深
度图和视觉外形深度图的两个通道含有相同的结构,均包括卷积层和池化层;所述三个输
入通道通过全连接层连接到一起。

同上述现有方法不同,本发明提出一种基于机器学习的权衡立体匹配和视觉外形
的三维重建方法,实验证明该方法能够提升对复杂物体三维重建的鲁棒性和?#35270;?#24615;,所得
模型的精度高于立体匹配、视觉外形以及传统的深度融合算法。具体地,本发明具有以下的
优势:

(1)本发明结合视觉外形和立体匹配两种三维重建技术,根据两者深度置信度的
高低来分配权重。视觉外形算法(Visual Hull)和立体匹配算法(Stereo Matching)具有天
然互补的特性:前者以目标轮廓为依据,可靠地恢复出目标物体的外形,包括物体的凸状几
何特,该方法的缺点是无法恢复目标物体中的凹陷部分的几何结构;后者以二维图像特征
一致性作为依据,采用极线几何的知识重建出物体的几何结构,该方法的缺点在于对缺乏
纹理及特殊材质(如半透明和反光材质)的重建效果极差,效果不稳定。

传统的重建方法已尝试过将视觉外形和立体匹配结合,但仅限于将二者?#28304;?#32852;的
形式进行组合。如Furukawa等采用视觉外形的深度作为初值,驱动立体匹配算法;Hao Zhu
等在立体匹配重建的网格模型基础之上加入轮廓约束,使结果满足视觉外形约束。但是这
两种方法均无法很好地发挥两种重建方法的优势,不能做到真正的优势互补。

(2)本发明采用深度学习方法来计算分配的权重值。事实上,对物体的重建方法选
择依据很大程度上取决于物体的材质、外观特性,这些属性?#20174;?#22312;彩色图片以及立体匹配、
视觉外形所生成的深度特征中。人类通过直观的观察和简单的先验知识即可进?#20449;?#26029;不同
区域适合何种重建方式。本发明通过计算机来模拟人脑的思维模式,建立多层卷积神经网
络,有助于提取各层的特征值,从而计算出最符合真实情况的权重值。

综上,本发明结合立体匹配与视觉外形两种方法,并且通过深度神经网络分配权
重值,既能改善立体匹配无法重建高光、无纹理区域的问题,又能避免视觉外形无法重建凹
面的缺陷,实现对复杂对象的高质量重建。实验证明该方法能有效提高对复杂物体的重建
效果,可应用于优化多视点三维重建、运动恢复结构等等基于图片的三维建模?#20302;场?br />

附图说明

图1是本发明的系统流程图;

图2是本发明的深度卷积神经网络框架;

图3是本发明实施例中视觉外形三维重建结果,(a)正视图,(b)左视图,(c)右视
图,(d)后视图;

图4是本发明实施例中立体匹配三维重建结果,(a)正视图,(b)左视图,(c)右视
图,(d)后视图;

图5是本发明实施例中权衡立体匹配与视觉外形后,获得的新深度图的三维重建
结果,(a)正视图,(b)左视图,(c)右视图,(d)后视图。

具体实施方式

为了进一步详细地说明本发明的目的和技术流程,以下将结合附图和实例,对具
体实施方式进行说明。

本发明提出了一种权衡立体匹配和视觉外形的三维重建方法,其目的是为三维重
建提供更加精确的深度图。图1是本发明的系统流程图。具体实施步骤如下:

(1)制作样本数据库。

样本数据库作为神经网络的输入,其质量的好坏影响整个神经网络的训?#26041;?#26524;。
样本数据库包含多组数据,每组数据对应一个模型,包含多视点RGB图片、立体匹配深度图、
视觉外形深度图和目标物体的真值权重图。RGB图片通过单反相机拍摄,要求光照均匀,成
像清晰。立体匹配深度图和视觉外形深度图是分别采用立体匹配算法和视觉外形算法计算
得到。物体真值权重图需要利用物体的真实深度图(Ground Truth),计算方法如下:

对于同一视点的两幅深度图,在有效像素的相同位置取大小为M×M的窗口,遍历
整张图片后得到i组数据,计算真值权重的公式表示为:


上式中,j表示图片中窗口的序号,0≤j<i;是物体的真实深度值,是在视
觉外形深度图中,第j个M×M的窗口的深度平均值,是在立体匹配深度图中,第j个M×M
的窗口的深度平均值,由此可以计算得到真值权重α(j)。

本实施例中,多视点RGB图片通过RGB相机获取,真实深度值通过微软Kinect相机
直?#20248;?#25668;获取。为了把RGB相机与Kinect相机对齐,本实例把两台相机固定在一起,保?#21046;?br />相对位置不动,围绕物体一周拍摄一组多视点图片,图片数量为32张。RGB相机拍摄的图片
分?#23195;?#20026;1280*720,Kinect相机拍摄的图片分?#23195;?#20026;320*240。

根据多视点RGB图片,利用立体匹配和视觉外形算法分别计算图片?#24418;?#20307;的每个
像素点的深度值,得到立体匹配深度图和视觉外形深度图。以每个像素点为中?#27169;?#25130;取一个
大小为17×17的窗口(Patch)。一张图片一?#27493;?#21462;m个窗口。利用两台相机的对应关系可以
将窗口中心点的深度值与Kinect拍摄的真实深度值对应起来。

本实例中采用的立体匹配算法为NCC匹配法。

本实例通过以下公式可以得到真值权重α(i,j):


上式中,i表示图片序号,0≤i<32;j表示窗口序号,0≤j<m,,是在第i幅图
片?#26800;趈个窗口中心对应的物体的真实深度值,是在第i幅图片?#26800;趈个窗口中心的视
觉外形深度值,是在第i幅图片?#26800;趈个窗口中心的立体匹配深度值,由此可以计算得
到真值权重α(i,j)。

更换拍摄物体,重复上述步骤,获取足够的样本数据。

(2)构建卷积神经网络。

本发明采用的神经网络为卷积神经网络。卷积神经网络的结构更类似于生物神经
网络,它利用卷积层逐层提取局部特征,并且通过神经元的非全连接和权值共享减小网络
复杂度,在图像处理和模式分类领域具有很大的优势。

本发明的卷积神经网络包含输入层,隐藏层和输出层。整个神经网络包含三个通
道,分别输入立体匹配深度图,视觉外形深度图和RGB图片。前两个通道结构相同,由两层卷
积层,两层池化层组成。全连接层将三通道连接起来,最后汇聚成一层输出层。

本实例采用深度学习网络框架Torch来搭建卷积神经网络。整个网络的框架如图2
所示,分为三个组成部分,分别是输入层,隐层和输出层。

输入层包含三个通道T1、T2和T3,分别对应视觉立体匹配深度图,视觉外形深度图
和RGB图片。对于同一张图片的同一位置,每个通道截取大小17×17的窗口作为输入。

隐层包含卷积层,池化层和全连接层。T1,T2通道含有相同的结构,分为卷积层C1,
池化层S1,卷积层C2,池化层S2。第一层卷积层S1采用大小为3×3的卷积核,通道数为3,激
励函数为ReLU(Rectified Linear Units)。第二层池化层S1采用Max Pooling,Pooling窗
口大小为2×2,步进为1。第三层卷积层C2采用大小为3×3的卷积核,通道数为6,激励函数
为ReLU。第四层池化层S2同样采用Max Pooling,Pooling窗口大小为2×2,步进为2。将大小
为17×17的窗口(Patch)数据输入进来,经过四层计算后得到数据大小为6×6。T3通道为
RGB图片通道,不含有卷积层和池化层。

全连接层共有两层,分别是1000维和100维。整个全连接层将三个通道连接起来,
一共6×6×2×6+17×17=721维的数据转化为100维向量,作为输出层的输入。

最后一层输出层,计算100维输入数据得到1维的输出权重β(i,j),表?#38236;趇幅图片中
第j个窗口处的权重值。

(3)对样本进行训练。

训练模型的过程分为两个部分:前向传播和反向传播。

前向传播阶段,将样本数据库中的数据输入卷积神经网络,经过卷积,池化,全接
连等过程得到输出为β(j),结合真值权重α(j),可以通过公式计算得到代价函数J,表示为:


反向传播阶段,通过反向传播算法计算各层参数的偏导数,采取梯度下?#26723;?#20195;优
化。

不断重复前向传播和反向传播过程,使代价函数J收敛到全局最小值。

本实例具体训练过程如下:

取出一组96(32*3)张的立体匹配深度图,视觉外形深度图和RGB图片作为T1,T2,
T3三个通道的输入。T1,T2两个通道的深度图中每个有效的像素点深度值分别为和
i表示图片序号,0≤i<32;j表示窗口序号,假设有m个有效像素点,则0≤j<m。
表?#38236;趇幅图片?#26800;趈个窗口中心的视觉外形深度值,表?#38236;趇幅图片?#26800;趈个窗口中心
的立体匹配深度值。T3通道的输入为RGB图,表示为即第i幅图片?#26800;趈个窗口中心的
像素值。

对于同一张图片,例如第一张,有三个输入样本?#38686;?#20998;别是
视觉外形),(立体匹配),
(RGB图片),图片的真值权重?#38686;?#26159;α={α(0,0),α(0,1),α(0,2)……α(0,m-1)},α(0,j)表?#38236;?#19968;幅图
中与第j个窗口对应的真值权重。

将Dvh,Dsm和PRGB三个?#38686;?#36755;入到卷积神经网络的三个不同的通道中,经过整个网
络的计算得到一个输出?#38686;?#34920;?#38236;?#19968;幅图中与第j个
窗口对应的输出权重;W,b是卷积神经网络的权重和偏差。已知真值权重和输出权重?#38686;?br />通过以下公式可?#36816;?#20986;卷积神经网络的代价函数:


上式?#26800;?#19968;项是一个均方差项,第二项是权重衰减项,λ是权重衰减参数,其目的
是减小权重的幅度,防?#26500;?#24230;拟合。

利用反向传播算法计算每一层的代价函数的偏导数,采用梯度下降的方法不断更
新每一层的权重和偏差,随后重复上述步骤不断迭代优化来减小代价函数J(W,b)的值,进
而求解神经网络。

(4)测试神经网络

将神经网络的输出权重值?#38686;?#19982;物体的真值权
重?#38686;粒絳α(0,0),α(0,1),α(0,2)……α(0,m-1)}进行比较,查看两者是否接近。根据结果好坏对
神经网络进行相应的调整,直到获得满意的结果。

(5)重建三维模型

用已训练的深度卷积神经网络计算得到新物体的深度图,将新的深度图重建得到
三维模型,将其与立体匹配和视觉外形的重建结果进行对比,可以发现本实例所采用的方
法大大提高了重建模型的精度,结果对比如图3、图4、图5所示。

上述实施例为本发明的一种实施方式,但本发明的实施方式不受所述实施例的限
制,比如立体匹配的算法还可以选用可替代的方法,卷积神经网络也可以选取不同的结构。
凡在本发明的精神和原则之内,所做的任何修?#27169;?#31561;同替换,改进等,均应包含在本发明的
保护?#27573;?#20043;内。

关于本文
本文标题:一种权衡立体匹配和视觉外形的三维重建方法.pdf
链接地址:http://www.pqiex.tw/p-6079650.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 火龙果时时彩安卓 黑龙江快乐 天津干什么可以赚钱 欢乐斗牛看牌抢庄 在哪直播游戏最赚钱 捕鱼达人是哪个公司开发的 游戏病毒怎么赚钱 后二五码倍投方法 甘肃快3连线走势图 复式6码二中二