标题:PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{\circ}

链接:[2303.13071] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{\circ} (arxiv.org)

摘要

最近,在计算机视觉和计算机图形领域,对3D人头的合成和重建引起了越来越多的关注。现有的最先进的3D生成对抗网络(GANs)用于3D人头合成的模型要么仅限于近前视图,要么难以在大视角下保持3D一致性。我们提出了PanoHead,这是第一个3D感知的生成模型,通过仅使用野外非结构化图像进行训练,能够以360度高质量、一致的视图合成全头图像,具有多样的外观和详细的几何结构。在其核心,我们提升了最近3D GANs的表示能力,并在从野外图像中训练时弥合数据对齐差距,这些图像具有广泛分布的视角。具体而言,我们提出了一种新颖的两阶段自适应图像对齐,用于鲁棒的3D GAN训练。我们进一步引入了一种三网格神经体积表示,有效解决了广泛采用的三平面公式中前脸和后头特征纠缠的问题。我们的方法注入了2D图像分割的先验知识,用于对抗学习3D神经场景结构,从而能够在各种背景中进行可组合的头部合成。由于这些设计的好处,我们的方法在很大程度上优于先前的3D GANs,能够生成具有准确几何结构和多样外观的高质量3D头部,即使是长卷曲和非洲头发造型,也可以从任意姿势渲染。此外,我们展示了我们的系统可以从单个输入图像中重建完整的3D头部,用于个性化的逼真3D头像。

1. 引言

逼真的肖像图像合成一直是计算机视觉和图形领域的持续关注焦点,具有数字化头像、远程存在、沉浸式游戏等广泛的下游应用。生成对抗网络(GANs)的最新进展展示了惊人的高图像合成质量,难以与真实照片区分。然而,当在不同姿势下合成头像时,当代生成方法仅基于2D卷积网络操作,未对底层3D场景进行建模,因此无法严格强制实现3D一致性。

为了生成具有多样形状和外观的3D头部,传统方法需要从大规模3D扫描收集中学到的参数化纹理网格模型。然而,渲染的图像缺乏细节,并且在感知质量和表现力方面有限。随着可微分渲染和神经隐式表示的出现,条件生成模型已经发展出更逼真的3D感知人脸图像。然而,这些方法通常需要多视图图像或3D扫描监督,这在受控环境中捕获通常难以获取并具有有限的外观分布。

最近,受到在3D场景建模中集成隐式神经表示和用于图像合成的生成对抗网络(GANs)的推动,3D感知的生成模型取得了迅速的进展。其中,具有开创性意义的3D GAN,EG3D,展示了在视图一致的图像合成方面的惊人质量,仅从野外单视图图像集中训练。然而,这些3D GAN方法仍然受限于近前视图的合成。

本文提出了PanoHead,一种新颖的3D感知GAN,用于从野外非结构化图像中训练的高质量全3D头部合成,可以从360度角度一致地查看。我们的模型能够合成一致的3D头部,可从所有角度查看,这在许多沉浸式交互场景中是理想的,如数字头像和远程存在。据我们所知,我们的方法是第一个能够在360度下实现完整的3D头部合成的3D GAN方法。

将3D GAN框架(如EG3D)扩展到完整的3D头部合成面临着一些重要的技术挑战:首先,许多3D GANs不能分离前景和背景,导致2.5D头部几何。我们引入了一种前景感知的三鉴别器,通过提炼2D图像分割中的先验知识,共同学习在3D空间中分解前景头部。

其次,虽然当前的混合3D场景表示(如三平面)紧凑高效,但对于360度相机姿态存在强烈的投影歧义,导致在背头上出现“镜像面”。为了解决这个问题,我们提出了一种新颖的3D三网格体积表示,解开了前脸特征和背头的纠缠,同时保持了三平面表示的高效性。

最后,对于野外背头图像获得良好估计的摄像机外参数对于3D GANs的训练极其困难。此外,在这些图像和具有可检测的面部标记的前视图像之间存在图像对齐差距。这种对齐差距导致外观嘈杂和头部几何不吸引人。因此,我们提出了一个新颖的两阶段对齐方案,可以一致地对齐来自任何视角的图像。这一步显著降低了3D GANs的学习难度。特别是,我们提出了一个相机自适应模块,动态调整渲染相机的位置,以适应背头图像中的对齐漂移。

我们的框架显著增强了3D GANs适应野外全头图像的能力,如图1所示。生成的3D GAN不仅能够生成高保真度的360度RGB图像和几何结构,而且在量化指标方面优于最先进的方法。借助我们的模型,我们展示了从单目视图图像中引人注目的3D全头重建,实现了轻松访问的3D肖像创作。

总之,我们的主要贡献如下:

  • 第一个能够在360度下实现一致且高保真度的全头图像合成的3D GAN框架,具有详细的几何结构。
  • 一种在表示3D 360度头部场景方面平衡效率和表现力的新颖三网格公式。
  • 一种前景感知的三鉴别器,将3D前景头部建模与2D背景合成分离。
  • 一种新颖的两阶段图像对齐方案,自适应地适应不完美的相机姿势和图像裁剪,实现了对来自野外图像的3D GANs的训练,具有广泛的相机姿态分布。

2. 相关工作

3D头部表示和渲染。 为了表示具有多样形状和外观的3D头部,一系列工作致力于参数化纹理网格表示,例如用于面部的3D可塑模型(3DMM)[2-4, 33]和从3D扫描学到的FLAME头部模型[25]。然而,这些参数化表示并未对超出正面或头骨的照片逼真外观和几何进行建模。最近,神经隐式函数[47]作为强大的连续和微分3D场景表示不断涌现。其中,神经辐射场(NeRF)[1, 28]由于其在建模复杂场景细节和合成继承3D一致性的多视图图像方面的优越性而被广泛应用于数字头部建模[10,15,17,32,34,43]。与从多视图图像或时间视频优化特定个体的神经辐射场不同,我们的方法从非结构化的2D单眼图像构建生成式NeRF。

最近,对于更好的效率,已经探索了隐式-显式混合的3D表示[5, 9, 27]。其中,在EG3D中提出的三平面公式展示了一种高效的3D场景表示,具有高质量的视图一致图像合成。三平面表示可以高效地随分辨率扩展,使相同容量下能够获得更多细节。我们的三网格表示将三平面表示转换为更富表现力的空间,以更好地嵌入在无条件3D头部合成中的特征。

单视图或少视图监督的3D GANs。 鉴于GAN在2D图像生成方面的惊人进展,许多研究尝试将其扩展到3D感知生成。这些GAN旨在从2D图像集中学习可广泛使用的3D表示。对于面部合成,Szabo等人[42]首次提出使用顶点位置图作为3D表示,以生成纹理网格输出。Shi等人[39]提出了一个自监督框架,将2D StyleGANs[21]转换为3D生成模型,尽管其可推广性受到其基础2D StyleGAN的限制。GRAF[37]和pi-GAN[6]是第一个将NeRF集成到3D GANs中的方法。然而,它们的性能受到完整NeRF正向和反向计算的强烈计算成本的限制。许多最近的研究[5,8,11,13,29–31,38,40,48,49]试图改进这些基于NeRF的GANs的效率和质量。具体而言,我们的工作基于EG3D[5],该方法引入了三平面表示,可以利用2D GAN骨干生成高效的3D表示,并显示优于其他3D表示[38]。与这些工作平行,另一系列研究[30,41,46,50]致力于可控的3D GANs,可以操纵生成的3D面部或身体。

3. 方法论

3.1 PanoHead 概述

为了合成逼真且在360度下一致的全头图像,我们基于最先进的3D感知GAN,即EG3D [5],构建了PanoHead,因为它具有高效性和合成质量。具体而言,EG3D利用StyleGAN2 [22]作为骨干,输出一个三平面表示,表示具有三个2D特征平面的3D场景。在给定所需相机姿势ccam的情况下,使用MLP网络解码三平面,并进行体素渲染成特征图像,然后通过超分辨率模块合成更高分辨率的RGB图像I。低分辨率和高分辨率图像都由双鉴别器D联合优化。

尽管EG3D在生成前视脸部方面取得了成功,但我们发现将其调整为360度野外全头图像是一个更具挑战性的任务,原因如下:1)前景-背景纠缠阻碍了大姿势渲染;2)三平面表示的强归纳偏差导致在背头上出现镜像面;3)背头图像具有嘈杂的相机标签和不一致的裁剪。为了解决这些问题,我们引入了一个背景生成器和一个三鉴别器来解耦前景和背景(第3.2节),一个高效而更具表现力的三网格表示,同时仍然与StyleGAN骨干兼容(第3.3节),以及一个两阶段图像对齐方案,具有自适应模块,可在训练期间动态调整渲染相机(第3.4节)。我们模型的整体流程如图2所示。

3.2 前景感知三鉴别

现代3D感知的GAN,如EG3D [5],面临的典型挑战之一是合成图像中前景与背景的交织问题。尽管具有高度详细的几何重建,直接从野外RGB图像集(如FFHQ [21])训练3D GAN会导致2.5D脸部,如图3(a)所示。通过从头部侧面和背面进行图像监督可以帮助建立具有合理背头形状的完整头部几何,但这并不能解决问题,因为三平面表示本身并不设计用于表示分离的前景和背景。

为了将前景与背景解耦,我们首先引入了一个额外的StyleGAN2网络[22],以在原始特征图像I的相同分辨率下生成2D背景。在体素渲染期间,通过以下方式可以获得前景掩模I:
I r ( r ) = ∫ 0 ∞ w ( t ) f ( r ( t ) ) d t , I m ( r ) = ∫ 0 ∞ w ( t ) d t , (1) I^r(r) = \int_{0}^{\infty} w(t)f(r(t))dt, \quad I^m(r) = \int_{0}^{\infty} w(t)dt, \tag{1} Ir(r)=0w(t)f(r(t))dt,Im(r)=0w(t)dt,(1)

w ( t ) = exp ⁡ ( − ∫ 0 t σ ( r ( s ) ) d s ) σ ( r ( t ) ) , (2) w(t) = \exp(-\int_{0}^{t} \sigma(r(s)) ds) \sigma(r(t)), \tag{2} w(t)=exp(0tσ(r(s))ds)σ(r(t)),(2)

在这里,r(t)表示从渲染相机中心发射的射线。前景掩模然后用于组合新的低分辨率图像I:
I g e n = ( 1 − I m ) I b g + I r , (3) I^{gen} = (1 - I^m) I^{bg} + I^r, \tag{3} Igen=(1Im)Ibg+Ir,(3)
生成的低分辨率图像然后被输入到超分辨率模块中。请注意,背景生成器的计算成本是微不足道的,因为其输出的分辨率远低于三平面生成器和超分辨率模块。

仅仅添加一个背景生成器并不能完全将其与前景分离,因为生成器倾向于在背景中合成前景内容。因此,我们提出了一种新颖的前景感知三鉴别器,以监督渲染的前景掩模以及RGB图像。具体而言,三鉴别器的输入具有7个通道,由双线性上采样的RGB图像I,超分辨率的RGB图像I以及单通道上采样的前景掩模I组成。附加的掩模通道允许2D分割先验知识反向传播到神经辐射场的密度分布中。我们的方法降低了从非结构化的2D图像中塑造3D全头几何的学习难度,实现了与各种背景相容的真实几何(图3(b))和外观综合的全头(图3(c))。我们注意到,与使用双生成的掩模的合成前景和背景图像的RGB图像的单一鉴别器的ENARF-GAN [30]不同,我们的三鉴别器更好地确保视图一致的高分辨率输出。

3.3 三网格中的特征解耦

在EG3D [5]中提出的三平面表示为3D生成提供了一种高效的表示方法。体积点的神经辐射密度和外观通过将其3D坐标投影到三个轴对齐的正交平面上,并使用微小的MLP解码三个双线性插值特征的总和而得到。然而,当合成360度的全头时,我们观察到三平面在表达上的表现力受到限制,并且存在镜像面的问题。当训练图像的相机分布不平衡时,这个问题甚至更为严重。问题的根本原因是三平面投影产生的归纳偏差,其中2D平面上的一个点必须表示不同3D点的特征。例如,正面的一个点和后脑的一个点将被投影到XY平面P(垂直于Z轴),如图4(a)所示。尽管理论上另外两个平面应该提供互补信息以缓解这种投影的模糊性,但是当从后面视觉监督较少或者后头的结构难以学习时,我们发现情况并非如此。在这种情况下,三平面容易从正面借用特征来合成后头,这里称为镜像面的问题(图5(a))。

为了减少三平面的归纳偏差,我们通过在三平面中增加一个额外的深度维度来将其公式提升到更高的维度。我们将这个丰富的版本称为三网格。与三平面不同,每个我们的三网格具有形状为D × H × W × C的形状,其中H和W是空间分辨率,C是通道数,D代表深度。例如,为了在XY平面上表示空间特征,三网格将具有沿Z轴均匀分布的D个轴对齐特征平面 P i X Y P_i^{XY} PiXY,i = 1,…,D。我们通过将坐标投影到三网格的每个平面上来查询任何3D空间点,通过三线性插值检索相应的特征向量。因此,对于共享相同投影坐标但深度不同的两个点,相应的特征很可能是从非共享平面插值得到的(图4(b))。我们的公式解开了正面和后头的特征表达,因此在很大程度上减轻了镜像面的问题(图5)。

与EG3D [5]中的三平面类似,我们可以使用StyleGAN2生成器[21]将三网格合成为3 × D特征平面。也就是说,我们将原始EG3D骨干的输出通道数增加D倍。因此,三平面可以被看作是我们的三网格表示的一个简单情况,其中D = 1。我们的三网格的深度D是可调的,较大的D提供更多的表示能力,但会增加额外的计算开销。经验上,我们发现在特征解耦方面,较小的D值(例如D = 3)足够,同时仍然保持其作为3D场景表示的效率。

3.4 自适应相机对齐

为了对我们360度全头进行对抗训练,我们需要来自比大多数正面分布更广的相机分布的野外图像示例,例如FFHQ [21]。尽管我们的3D感知GAN仅从广泛可访问的2D图像中进行训练,但在标有估计良好的相机参数的图像之间准确对齐视觉观察是获得最佳质量训练的关键。虽然对于基于面部标志的正面面部图像裁剪和对齐已经建立了一个良好的实践,但在为GAN训练预处理大角度姿势图像时从未研究过。由于侧面和背部拍摄的图像缺乏稳健的面部标志检测,相机估计和图像裁剪不再那么直接。

为了解决上述挑战,我们提出了一种新颖的两阶段处理方法。在第一阶段,对于具有可检测到的面部标志的图像,我们仍然采用标准处理,其中人脸被缩放到相似大小,并使用最先进的面部姿态估计器3DDFA [14]在头部中心对齐。对于大角度姿势的其余图像,我们使用头部姿态估计器WHENet [52]提供粗略估计的相机姿态,以及带有以检测到的头部为中心的边界框的人类检测器YOLO [18]。为了以一致的头比例和中心裁剪图像,我们在一批正面图像上同时应用YOLO和3DDFA,从中使用恒定偏移调整YOLO的头中心的比例和平移。这种方法使我们能够在很大程度上以标有相机参数的一致对齐方式预处理所有头部图像。

由于存在各种发型,后头图像的对齐仍然不一致,为我们的网络解释完整的头部几何和外观引入了显著的学习难度(见图6(a))。因此,我们提出了一种自适应相机对齐方案,以微调每个训练图像的体积渲染锥体的变换。具体而言,我们的3D感知GAN将每个图像与嵌入3D场景信息的潜在代码z相关联,该信息包括几何和外观,可以在ccam的视图下合成。由于ccam可能与我们的训练图像的图像内容不对齐,因此3D GAN很难找到合理的完整头部几何。因此,我们通过对抗训练共同学习了从(z,ccam)映射到∆ccam的剩余相机变换。∆ccam的大小受L2范数规范化。实质上,网络通过在不同的视觉观察之间进行细化对应来动态自适应图像对齐。我们注意到,这仅仅是因为3D感知GAN的性质,它可以在各种相机下合成视图一致的图像。我们的两阶段对齐使360度视图一致的头部合成具有真实形状和外观,可以从具有广泛分布的相机姿势、样式和结构的各种头部图像中进行学习。

4. 实验

4.1 数据集和基线

我们在平衡的FFHQ [21]、K-hairstyle数据集 [24] 以及一个内部大角度头部图像集的组合上训练和评估我们的框架。FFHQ包含70,000个多样化的高分辨率人脸图像,但主要集中在绝对偏航范围从0度到60度,假设正面相机姿态对应于0度。我们使用来自K-hairstyle数据集的4,000张后头图像以及15,000张内部大角度图像来扩充FFHQ数据集,这些图像具有不同的风格,角度范围从60度到180度。为简洁起见,我们将这个数据集组合命名为FFHQ-F。更多的数据集分析和网络训练细节,请参考补充论文。

我们与最先进的3D感知GAN进行比较,包括GRAF [37]、EG3D [5]、StyleSDF [31] 和GIRAFFEHD [48]。所有基线都是从相同的FFHQ-F数据集重新训练的。我们在定量和定性上测量生成的多视图图像和几何质量。

4.2 定性比较

360°图像合成。 图7直观地比较了模型的图像质量与基线的差异,所有模型都是使用FFHQ-F进行训练的,通过从五个不同的视角合成图像,偏航角从0到180度。GRAF [37] 无法合成引人注目的头像,其背景与前景头部纠缠在一起。StyleSDF [31] 和GIRAFFEHD [48] 能够合成逼真的正面人脸图像,但从较大的相机角度渲染时感知质量较低。在没有明确依赖相机标签的情况下,我们怀疑上述方法直接从具有360°相机分布的图像中独立解释3D场景结构可能存在困难。我们观察到EG3D [5] 能够在将视图旋转到侧面甚至背面之前,合成高质量的视图一致的正面头像。由于三平面的投影模糊和前后景的纠缠,从背面清晰可见镜像人脸的伪影。[43] 中提出的方法以额外的代价构建个性化的完整头部NeRF,但需要多视图监督。尽管该方法在所有视图上都能生成高质量的图像,但该模型本身不是一个生成模型。与之强烈对比的是,我们的模型在保持多视图一致性的同时,为所有相机姿态生成了卓越的逼真头像。它以细节丰富的真实感呈现不同外观,从戴眼镜的光头到长卷发。为了更全面地了解我们的多视图完整头部合成,请参考我们的补充视频以获取更全面的视觉结果。

几何生成。 图8比较了通过运行Marching Cubes算法[26]提取的底层3D几何的视觉质量。虽然StyleSDF [31] 生成了正面的外观,但头部的完整几何形状杂乱且断裂。EG3D呈现了正面和头发的详细几何形状,但要么背景混乱(图3(a)),要么后头是空心的(图8)。相反,我们的模型可以始终生成高保真、无背景的3D头部几何,即使头发的造型各异。

4.3 定量结果

为了量化生成图像的视觉质量、保真度和多样性,我们使用了50K真实图像和生成图像样本的Frechet Inception Distance(FID)[16]。我们使用身份相似性分数(ID)来衡量多视图一致性,通过计算从不同相机角度渲染的成对合成的面部图像的平均Adaface[23]余弦相似性分数。请注意,此指标只适用于检测到面部特征的图像。我们使用均方误差(MSE)来计算生成分割与使用DeepLabV3 ResNet101网络[7]获得的掩码的准确性。表1对比了所有基线和我们的方法的这些指标。我们观察到我们的模型在所有视角上一贯优于其他基线。请参阅补充材料以获取指标定义和实施细节。

为了评估不同视图下的图像质量,我们对只有背面姿势(|yaw| ≥ 90◦),正面姿势(|yaw| < 90◦)和所有相机姿势的合成图像使用FID和Inception Score(IS)[36]。FID衡量了真实图像和虚假图像分布的相似性和多样性,而IS更关注图像本身的质量。我们的GAN模型遵循EG3D的主要架构,其中tri-plane生成器以相机姿势为条件。我们观察到这样的设计导致了生成图像质量朝着条件相机姿势的方向有偏。具体而言,当以正面视图为条件时,我们的生成器在合成背面图像的质量上较差,反之亦然。然而,当计算FID-all时,条件相机始终与渲染视图相同。因此,即使生成的头部图像在未见过的视图中质量下降,生成器仍然可以获得出色的FID-all分数。因此,原始的FID指标(FID-all和FID-front)很难全面反映360◦中全头图像生成的总体质量。为了缓解这个问题,我们提出了FID-back,其中我们以正面视图为条件,但合成背面图像。它导致了更高的FID分数,但更好地反映了360◦图像合成的质量。

我们对我们的方法进行了消融研究,定量评估了每个单独组件的有效性(表2)。如第二列所示,在添加了与原始EG3D相比,前景感知判别显著提高了所有情况下的质量。这表明先验分割知识在很大程度上减轻了网络从野外图像集合中学习3D头部的难度。鉴于来自大量良好对齐的正面图像的强监督,正面面孔合成质量在所有方法中都是可比的。然而,对于背面头部,解耦前景和背景大大提高了合成质量。此外,将tri-plane更改为tri-grid表示进一步提高了图像质量。通过tri-discrimination、tri-grid和相机自适应方案的共同作用,PanoHead实现了最低的FID-back和最高的IS,用于背部头部生成。如运行时分析一栏所示,我们的新颖组件仅引入了轻微的计算开销,但极大地提高了图像合成质量。请注意,由于各种发型和非结构化的背头外观,正面图像质量优于背头图像,这在很大程度上导致了显著的学习难度。

4.4 单视角 GAN 反演

图9展示了使用PanoHead生成潜在空间进行单视角全头部重建。为实现这一目标,我们首先通过像素级L2损失和图像级LPIPS损失[51]执行优化,找到目标图像的相应潜在噪声z。为了进一步提高重建质量,我们使用轴心调整反演(PTI)[35]来改变具有固定优化潜在代码z的生成器参数。从单一视图目标图像中,PanoHead不仅可以重建出逼真的图像和高保真度的几何形状,还可以实现360°中的新视图合成,包括大幅度姿势和背部头部。

5. 讨论

局限性与未来工作。 虽然 PanoHead 在 360◦ 视图中展示了出色的图像和形状质量,但仍然存在一些小的瑕疵,例如牙齿区域。与原始的 EG3D 相似,我们的模型中也可以注意到闪烁的纹理问题。切换到 StyleGAN3 [20] 作为骨干网络将有助于保留高频细节。在实践中,我们还观察到在条件相机姿势的更高交换概率下,闪烁的纹理伪影更为明显。我们将此值设置为 70%,而不是 EG3D 中的 50%,因为我们经验性地发现这提高了 360◦ 渲染的质量,但在纹理闪烁伪影上的代价较小。另一个观察是它缺乏更细致的高频几何细节,例如发梢。我们将在未来的工作中对我们的几何质量进行定量评估,比如使用深度图。

最后,尽管 PanoHead 能够在性别、种族和外貌方面生成多样化的图像,但仅依赖几个数据集的组合训练仍然使其受到数据偏见的影响,某种程度上存在一些问题。尽管我们做出了数据收集的努力,但大规模的全头部标注训练图像数据集仍然是促进全头部合成研究的最关键方向之一。我们期望这样的数据集能够解决前述限制中的一些问题。

伦理考虑。 PanoHead 并没有专门设计用于任何恶意用途,但我们意识到单视角肖像重建可能会被操纵,这可能构成社会威胁。我们不鼓励以任何形式违反他人权利的方式使用该方法。

6. 结论

我们提出了 PanoHead,这是第一个能够仅使用单视角图像合成视图一致的全头部图像的3D GAN框架。通过我们在前景感知三元判别、3D三维网格场景表示和自适应图像对齐方面的创新设计,PanoHead能够在360◦中进行真实多视图一致的全头部图像合成,并在与最先进的3D GANs相比中展现出引人注目的定性和定量结果。此外,我们展示了从真实单视角肖像中进行360度的照片级逼真重建,具有高度详细的几何结构。我们相信所提出的方法为3D肖像的创建开辟了一个有趣的方向,为许多潜在的下游任务提供了启示。

参考文献

(……)

09-29 07:25