① 照片建模的详细信息
一、技术背景
从我们在国内外相关技术领域的长期跟踪调研所掌握的情况来看,目前国际上有微软公司、Autodesk公司、斯坦福大学和麻省理工学院等机构在基于图像的三维形体快速重建方面有良好的研究成果,但是仅仅是实验室研究成果,目前还无法商用。微软公司曾经在网上提供基于图像的三维重建的服务,但是由于用户访问量大和技术不过关而无法承担繁重的技术服务,很快就关闭了相应的服务器。目前国际上也有加拿大公司FOTO3D等基于图像的三维重建系统的市场推广,但是需要大量的手工交互,对照片的拍摄环境和拍摄精度有相当高的要求,因此市场认可度不高。
而国内除了北京大学、清华大学、中科院自动化所、北航、香港理工大学、北科光大公司等机构,该技术技术几乎处于学术阶段,很少有实质性的深入研究。就目前市场化、产品化方面,仅有Autodesk 123D Catch、以及北科光大3DCloud平台。但是这些科研机构的研究侧重点不一样,例如:北航主要侧重用于军事领域的虚拟场景的研究,香港理工大主要侧重人脸立体合成的研究等等。
二、技术特点
物体若实现三维数据化,即获取物体三维模型,目前,构造三维模型的手段大体上有以下三种:
1) 三维软件建模:
目前,在市场上可以看到许多优秀建模软件,比较知名的有3DMAX, Maya等等。它们的共同特点是利用一些基本的几何元素,如立方体、球体等,通过一系列几何操作,如平移、旋转、拉伸以及布尔运算等来构建复杂的几何场景。此种方式要求操作人员要具有丰富的专业知识,熟练使用建模软件,而且操作复杂,周期较长,同时最终构件的三维模型真实感不强。一般应用于游戏、动漫设计,以及楼宇等建筑设计,属于设计类范畴。
2)利用仪器设备建模:
三维扫描仪(3 Dimensional Scanner)又称为三维数字化仪(3Dimensional Digitizer)。目前三维扫描仪主要采用激光、结构光等技术,通过发射光的反馈获取三维坐标信息,而纹理颜色基本依靠设备上得摄像头来获取。此种方式需要价格昂贵的三维扫描仪等硬件设备,并且由于技术本身限制,有些材质、颜色受光的反射或折射、吸收等影响,导致获取的三维模型漏洞较多,无法完成扫描。诸如人的头发、深色服饰、以及透明物体等等。此外,三维扫描仪现今只能获得物体的位置信息,对于物体表面的纹理特征多数仍然需要辅助大量的手工工作才能完成,整个过程成本高,周期长。由于其模型网格精度较高,一般用于工业生产、文物修复等领域,属于三维重建技术范畴。
3)照片建模(基于图像/视频的建模):
基于图像的建模和绘制(Image-Based Modeling andRendering,IBMR)是当前计算机图形学界一个极其活跃的研究领域。同传统的基于几何的建模和绘制相比,IBMR技术具有许多独特的优点。基于图像的建模和绘制技术给我们提供了获得照片真实感的一种最自然的方式,采用IBMR技术,建模变得更快、更方便,可以获得很高的绘制速度和高度的真实感。IBMR的最新研究进展已经取得了许多丰硕的成果,并有可能从根本上改变我们对计算机图形学的认识和理念。由于图像本身包含着丰富的场景信息,自然容易从图像获得照片般逼真的场景模型。基于图像的建模的主要目的是由二维图像恢复景物的三维几何结构。由二维图像恢复景物的三维形体原先属于计算机图形学和计算机视觉方面的内容。由于它的广阔应用前景,如今计算机图形学和计算机视觉方面的研究人员都对这一领域充满兴趣。与传统的利用建模软件或者三维扫描仪得到立体模型的方法相比,基于图像建模的方法成本低廉,真实感强,自动化程度高,因而具有广泛的应用前景。 此种方式操作简单,自动化程度高,成本低,纹理颜色真实感强,不受时空限制等,如国内3DCloud则以云端形式运行,只要将照片上传至云端,即可全自动生成三维模型。主要应用于3D展示、3D打印、影视媒体、广告制作、虚拟现实等众多应用领域,加上成本较低等因素,未来发展前景较好。
三、技术原理
从多幅二维图像中计算三维特征并作场景的三维重构是计算机视觉和图形学领域的一个重要研究内容,目前已经有非常多的相关研究。对于基于图像的三维重构任务而言,准确地相机标定是至关重要的。对于三维场景或模型重构精度要求较高而拍摄环境可以按需定制的应用,离线标定技术一般可以更好地满足用户需求;相反,如果需要从一些无法定制环境或缺失标定信息的图像或视频序列中作场景分析和重构,就只能采用在线标定技术。
鉴于相机标定技术在三维重构中的重要性,我们将相关技术分为基于离线相机标定的三维重构技术和基于在线相机标定的三维重构技术两个大类,并对两类技术分别阐述其研究历史、现状和趋势。
① 基于离线相机标定的三维重构技术。
基于离线相机标定技术需要准确的相机内参数和外参数作为重构算法的输入和先决条件,目前最为流行的离线相机标定算法是Tsai在1987年提出的[Tsai1987],Tsai方法使用一个带有非共面专用标定标识的三维标定物来提供图像点和其对应的三维空间点的对应并计算标定参数。Zhang在1999年提出了另一个实用方法[Bouguet2007],该方法需要对一个平面标定图案的至少两幅不同视图来进行标定。加州理工学院的相机标定工具对以上两个方法均作了有效实现,并且已经被集成到Intel的视觉算法库OpenCV中 [OpenCV2004]。通过标定算法,可以计算相机的投影矩阵,并提供场景的三维测度信息。在不给定真实场景的绝对平移、旋转和放缩参数的情况下,可以达到相似变换级别的测度重构。
② 基于图像的重构
在基于图像的重构技术中,既可以考虑稀疏特征匹配,也可以考虑稠密特征匹配,一般需要视应用背景和场景特性作具体选择。特征检测是准确重构框架中的一个关键步骤。传统意义上的特征定义为在至少一个特定方向上存在较大亮度或色度变化的图像区域或位置 [Moravec1977]。Harris等使用一阶导数来估计局部互相关数值[Harris1988],该方法能给出健壮的检测结果但在某些情况下缺乏定位上的准确性。Beaudet等使用梯度和曲率的乘积来刻画角点特征并检测角点 [Beaudet1978],Smith等提出的SUSAN检测子结合使用特征区域的尺寸、中心和矩信息来检测角点。Lowe提出的尺度不变的特征检测算子SIFT是目前比较流行的算法 [SIFT2004],SIFT的优势在于能够对有效提取特征在一定程度上的旋转和放缩等不变 特征,从而大大减弱了特征检测算法对环境和图像质量的依赖性,Koser等从SIFT的思想进一步引申出透视不变特征的概念[Koser2007]。
特征检测之后一般需要进行多视图之间的特征匹配。特征匹配算法的性能会受到镜头畸变、光线环境、场景遮挡及其他未知图像噪声的影响。解决匹配问题目前主要有两种思路。第一种思路在某个关键帧中检测出一个特征记并使用跟踪算法在后续帧中跟踪这个特征集,代表算法是基于光流的跟踪算法如Lucas-Kanade算法 [Tomasi1991]。第二种思路则在多个视图中独立进行特征检测并通过数据关联的手段来建立匹配特征对,这可以通过简单的区域相关算法实现 [Zhang1995],也可以通过各种手段定义描述相似度的目标函数并作优化来实现[Li1994]。
对于需要稠密场景重构的场合还需要进行稠密多视匹配的工作,稠密多视匹配算法的性能直接影响到最终重构质量,在图像取样点足够密集的情况下,可以用光流技术模拟相邻图像之间的像素或特征位移。三维结构的三角化同样也可以通过具备了点到点对应信息的光流来模拟,在稠密空间采样的假设下光流可以用系数特征位移来有效近似 [Zucchelli2002]。
可以通过图像校正的技术将两个视图中的对应极线调为水平状态且处在同一水平扫描线上,这样就可以使用传统的基于水平视差的双视算法恢复深度信息。在这一框架下,可以用马尔可夫随机场建模并用基于图论的优化算法实现求解 [Scharstein2002]。
基于体素的重构
近年来随着计算速度和存储性能的大幅提高,基于体的场景结构表示方法已经成为实用。已有多种方法从图像序列中恢复场景体数据。一种常见方法是从多视图中恢复前景物体的视觉凸包(visual hull)作为物体的重构近似。一般说来,visual hull的大小随着参与计算的图像数量增多而单调下降。常见的方法是从每一图像中分离出前景区域和背景区域,把前景区域反向投射到三维空间并求交来得到visual hull [Szeliski93]。Snow提出了Voxel occupancy算法,通过基于体素标签的图割算法实现三维分割 [Snow2000]。 对于有较明显色彩区分特征的图像,也可考虑使用颜色相容性即只保留色彩相容的空间体素来建立约束求解三维信息[Seitz1999]。为了简化基于可见性的空间切割,Seitz等提出了对于相机位置的有序可见性约束 [Seitz1999]。作为对以上框架的进一步改进,Prock提出了多分辨率体素着色方案 [Prock1998],Culbertson等提出了能够精确计算可见性的一般化的色彩相容模型 [Culbertson1999]。
和基于图像的重构技术相比,基于体素的重构技术不需要显示的特征匹配且能更有效地处理遮挡问题,但其潜在的缺点在于庞大的内存消耗会在一定程度上限制重建精度。在某些条件下,有序可见性约束显得过强。
基于对象的重构
与基于体素的重构算法中用体素离散化场景的思想不同,基于对象的重构技术着眼于直接恢复场景中物体的表面模型。Faugeras等提出了level-set重构是第一个面向对象的多视三维复原技术 [Faugeras1998],该技术把用于深度恢复的变分原理推广为一个可以用level-set求解的曲线演化问题 [Robert1996]。该工作的原始框架须作漫反射表面的假设,Lin等所做后续工作减弱了这一要求,使得镜面反射和透明环境下的求解成为可能 [Lin2002]。
③ 基于在线相机标定的三维重构技术
在很多场合下,如缺失标定设备或相机内参数持续改变的情况下,没有足够数据来支持离线相机标定,对这类场景的多视三维重构就要用到在线相机标定的技术。在线标定和离线标定框架的主要区别在于标定相机或估计相机参数的方法上。在大多数文献中离线标定技术被称为自标定。自标定方法可以大致分为两类:基于场景约束的自标定和基于几何约束的自标定。
基于场景约束的自标定
合适的场景约束往往能够在很大程度上简化自标定的难度。比如说,广泛存在于建筑或人造场景中的平行线能够帮助提供三个主正交方向的消视点和消视线信息,并能够据此给出相机内参数的代数解或数值解 [Caprile1990]。消视点的求解可以通过投票并搜索最大值的方法进行。Barnard采用高斯球构造求解空间 [Barnard1983]。Quan、Lutton和Rother等给出了进一步的优化策略[Quan1989, Lutton1994, Rother2000]。文献[Quan1989]中给出了搜索解空间的直接算法,Heuvel给出的改进算法加入了强制性的正交条件 [Heuvel1998]。Caprile给出了基于三个主正交方向消视点的几何参数估计法,Hartley使用标定曲线计算焦距 [Hartley2003]。Liebowitz等进一步从消视点位置构造绝对二次曲线的约束并用考克斯分解求解标定矩阵 [Liebowitz1999]。
基于几何约束的自标定
基于几何约束的自标定不需要外在场景约束,仅仅依靠多视图自身彼此间的内在几何限制来完成标定任务。利用绝对二次曲面作自标定的理论和算法最先由Triggs提出 [Triggs1997]。基于Kruppa方程求解相机参数则始于 Faugeras, Maybank等的工作 [Faugeras1992, Maybank1992]。Hartley给予基本矩阵推导出了Kruppa方程的另一个推导 [Hartley1997]。 文献[Sturm2000]则给出了Kruppa方程的不确定性的理论探讨。层进式自标定技术被用于从射影重构升级到度量重构 [Faugeras1992]。自标定技术的一个主要困难在于它不是无限制地用于任意图像或视频序列,事实上,存在着特定运动序列或空间特征分布导致自标定求解框架的退化和奇异解。文献[Sturm1997]给出了关于退化情形的详细讨论和分类。对一些特殊可解情况存在性和求解方法的讨论可以参考文献[Wilesde1996]等。
四、行业应用
照片建模的三维模型其模型精度已满足3D打印要求,而模型纹理颜色真实感强,因此应用领域较广。
1、3D打印应用,尤其是人像3D打印照相馆应用,具有明显优势,色彩逼真,结合相机阵实现瞬间抓拍等功能。比现有的三维扫描设备更具有成本低、操作方便、真实感强等优点。
2、3D展示应用,3D展示一般要求模型文件较小、纹理颜色逼真,因此广泛应用在电商、广告媒体、三维制作、虚拟现实、3D试衣等等。
3、其他应用,照片建模可快速生成大场景的建模,通过航拍等获取照片,可快速生成三维地貌,可用于3D地图、军事结构、矿土堆料测量等等。