本文内容经过自动驾驶之心公众号授权转载,请联系出处进行转载
论文:ICCV 2023 https://arxiv.org/pdf/2308.12967.pdf
作者单位:Georgia Institute of Technology;Toyota Research Institute
近期的隐式神经表示在新视角合成方面取得了很好的结果。然而,现有的方法需要从大量视角进行昂贵的场景优化,然而现实世界中感兴趣的对象或背景仅从很少的视角观察到,因此限制了这些方法在真实世界的无限城市环境中的应用,为了克服这一挑战,本文引入了一种名为NeO 360的新方法,用于稀疏视角合成室外场景的神经场表示。NeO 360是一种通用方法,可以从单个或少量定姿的RGB图像重建360°场景。该方法的精髓在于捕捉复杂现实世界室外3D场景的分布,并使用混合的图像条件三平面表示,可以从任何世界点进行查询。本文的表示结合了基于体素和鸟瞰图(BEV)表示的优点,比每种方法都更有效和表达丰富。NeO 360的表示使本文能够从大量的无界3D场景中进行学习,同时在推理过程中对新视角和新场景具有普适性,甚至可以从单个图像中进行推理。本文在提出的具有挑战性的360°无界数据集NeRDS 360上演示了本文的方法,并展示了NeO 360在新视角合成方面优于现有的通用方法,同时还提供了编辑和合成能力。项⽬主页:zubair-irshad.github.io/projects/neo360.html
本研究对NeRF 进行了扩展,使其具有可推广性。方法的核心是使用三个平面来表示局部特征。这种表示是通过构建三个垂直交叉的平面来实现的,每个平面对3D环境进行建模,通过合并它们可以对3D场景进行全面描述。NeO 360的图像条件三平面表示有效地对来自图像级特征的信息进行编码,并为任何世界点提供紧凑的可查询表示。本研究将这些特征与剩余局部图像级特征相结合,通过对大量图像进行优化,实现了多个无界3D场景的合成。NeO 360的3D场景表示可以为完整的3D场景构建强大的先验知识,从而只需几个摆好姿势的RGB图像即可高效地合成户外场景的360°新颖视图。全新的大型360°无界数据集包含了70多个场景,分布在3个不同的地图上。本研究在few-shot新颖视图合成和基于先验的采样任务中证明了方法在这个具有挑战性的多视图无界数据集上的有效性。除了学习完整场景的强大3D表示外,本研究的方法还允许使用3D ground truth边界框对光线进行推理时间修剪,从而能够从多个输入视图进行组合场景的合成。总之,本研究的贡献包括:
为了应对这些挑战,本文提出了⼀个⽤于 3D 城市场景理解的⼤规模数据集。与现有数据集相⽐,本文的数据集由 75 个具有不同背景的户外城市场景组成,包含超过 15,000 张图像。这些场景提供 360°半球形视图,捕捉各种照明条件下照亮的不同前景物体。此外,本文的数据集包含不限于前向驾驶视图的场景,解决了先前数据集的局限性,例如摄像机视图之间有限的重叠和覆盖范围。⽤于泛化评估的最接近的现有数据集是 DTU(80 个场景),主要包含室内物体,不提供多个前景物体或背景场景。
本文使⽤ Parallel Domain ⽣成合成数据以渲染⾼保真 360° 场景。本文选择 3 个不同的地图,即 SF 6thAndMission, SF GrantAndCalifornia and SF VanNessAveAndTurkSt 并在所有 3 个地图上采样 75 个不同场景作为本文的背景(3 个地图上的所有 75 个场景都是彼此显着不同的道路场景,在城市的不同视⻆拍摄)。本文选择 50 种不同纹理的 20 辆不同的汽⻋进⾏训练,并从每个场景中的 1 到 4 辆汽⻋中随机采样进⾏渲染。本文将此数据集称为NeRDS 360: NeRF for Reconstruction, Decomposition and Scene Synthesis of 360° outdoor scenes。训练集:本文总共⽣成了 15k 个渲染图。通过在距汽⻋中⼼固定距离的半球形圆顶中对 200 个摄像机进⾏采样。测试集:本文提供了 4 辆不同汽⻋和不同背景的 5 个场景进⾏测试,其中包括 100 个均匀分布在上半球的摄像机,与训练时使⽤的摄像机分布不同。
本文的目的是使用不同的验证相机分布来测试本文的方法在训练期间未见过的视角和场景下的泛化能力。由于遮挡、背景多样性以及渲染对象上存在各种闪光和阴影,本文的数据集和相关任务具有很大的挑战性。本文的任务是通过仅观察少量(即1到5个)完整场景的半球形视图来重建360°视图,如图5中的红色摄像机所示。而评估则使用所有100个半球视图,如图5中的绿色摄像机所示。因此,本文的任务需要强大的先验知识来合成室外场景的新颖视图
给定新场景的⼏个视图的 RGB 图像,NeO 360 进行新颖视图合成并渲染360度场景的3D场景表示。为了实现这⼀⽬标,本文采⽤了由三平⾯表示组成的混合局部和全局特征表示,可以查询任何世界点。形式上,如Figure 1所示,给定⼀些输⼊图像,的⼀个复杂的场景,其中n=1到5、以及他们相应的相机位子,γγγ其中γ,NeO 360推断近远背景的密度和辐射场(类似于 NeRF ),两者的主要区别是NeO 360使⽤混合局部和全局特征来调节辐射场解码器,⽽不是像经典 NeRF 公式中所采⽤的那样仅使⽤位置和观察⽅向。
尽管NeRF能够产生高保真的场景合成,但其局限性在于很难推广到新颖的场景。为了有效地利用场景先验并从大量无界360°数据中学习,本文提出了一种图像条件三平面表示。这种表示能够对具有完整表现力的3D场景进行大规模建模,而不会忽略其任何维度(如在2D或基于BEV的表示中),并避免立方复杂性(如在基于体素的表示中)。本文的三平面表示由三个轴对齐的正交平面组成,其中每个平面具有特征维度。为了从输入图像构建特征三平面,方法如下:
对于接下来的辐射场解码阶段,本文还使⽤特征作为渲染 MLP 的残差连接。本文获得从通过投影世界点使⽤其相机参数γ进⼊源视图,并通过双线性插值在投影像素位置提取特征。请注意,局部和全局特征提取路径共享相同的权重θ和编码器。本文发现,对于复杂的城市⽆界场景,仅使⽤局部特征导致遮挡和远处 360° 视角表现不佳。另⼀⽅⾯,仅使⽤全局特征会导致幻觉。本文的⽅法有效地结合了局部和全局特征表示,从⽽产⽣更准确的 360° 从最⼩的⽆限场景的单⼀视图进⾏视图合成。
辐射场解码器是用来预测颜⾊和密度σ对于任意 3D 位置和任意观看⽅向从三平⾯和残差特征 。本文使⽤模块化实现的渲染 MLP。MLP 表示为:
其中,通过正交投影点进⼊每个平⾯并执⾏双线性采样获得,且由三个双线性采样向量连接成
。本文使用输入图像的视图空间来建立本文的坐标系,然后在这个特定的坐标系中展示位置和摄像机射线。Near and Far Decoding MLPs类似于NeRF ,本文定义了两个渲染MLP来解码颜⾊和密 度信息,如下所示:
本文定义⼀个坐标重映射函数 (M) 类似于原始 NeRF 收缩位于单位球体之外的 3D 点, 这有助于更多对象在渲染 MLP 中获得较低的分辨率。在查询阶段的三平⾯表示,本文使⽤在现实世界坐标中的⾮收缩坐标,因为本文的表示是平⾯⽽不是球体。对于渲染,本文使⽤各⾃的放缩后的坐标⽤于调节 MLP。Optimizing radiance fields for few-shot novel-view synthesis给定源视图的局部和全局特征,在完成体积渲染和合成近处和远处背景后,使用专用的解码颜色和强度近背景和远背景MLPs解码器和
:⽬标图像中采样的像素位置:从近和远的MLPs渲染输出中获得的合成颜色。
给定从检测器获得的 3D 边界框,本文可以通过简单地对对象的 3D 边界框内的光线进⾏采样,获得单个对象和背景辐射率,并在这些特定的处双线性插值特征在本文的三平⾯特征⽹格中的位置,使得编辑和重新渲染单个对象变得简单。本文通过考虑对象 3D 边界框 内的特征来执⾏准确的对象重新渲染,以渲染前景MLP。本质上,本文将组合的可编辑场景渲染公式划分为渲染对象、近背景和远背景。
baselines:
在本⽂中,本文提出了 NeO 360,这是 NeRF ⽅法的可推⼴扩展,⽤于⽆界360°场景。本文的⽅法依赖于图像条件三平⾯表示来进⾏少量新颖的视图合成。为了为⽆界场景建⽴强⼤的先验,本文提出了⼀个⼤规模数据集 NERDS 360 来研究 360 度设置中的视图合成、重建和分解。本文的⽅法的性能明显优于其他可推⼴的 NeRF 变体,并且在新场景上进⾏测试时实现了更⾼的性能。对于未来的⼯作,本文将探索如何使⽤所提出的⽅法来构建较 少依赖标记数据的先验,例如推理过程中的 3D 边界框,⽽是依赖运动线索在没有标记数据的情况下进⾏有效的场景分解。
需要重写的内容是:原文链接:https://mp.weixin.qq.com/s/rjJlJbbb_oFah5nZoSYQwA