刷榜13个暗光增强基准!清华大学联合ETH等开源Retinexformer:亮、暗都有细节

在增强弱光图像时,许多深度学习算法都是基于Retinex理论的,不过Retinex模型没有考虑隐藏在黑暗中或由点亮过程引入的损坏。

此外,这些方法通常需要繁琐的多阶段训练管道,并依赖于卷积神经网络,在捕获长期依赖性方面存在局限性。

最近,在ICCV 2023上,来自清华大学、维尔茨堡大学和苏黎世联邦理工学院的研究人员发表了一篇新的论文。该论文提出了一个简单但原理性的单阶段Retinex-based框架(ORF)

图片

论文链接:https://arxiv.org/abs/2303.06705

代码链接:https://github.com/caiyuanhao1998/Retinexformer

ORF首先估计照明信息以照亮低光图像,然后恢复损坏以产生增强图像。

研究人员设计了一个照明引导Transformer(IGT),利用照明表示直接建模的非本地相互作用的区域与不同的照明条件,然后将IGT插入ORF以实现Retinexformer算法。

全面的定量和定性实验表明,Retinexformer在13个基准数据集中明显优于最先进的方法;对于暗光目标检测,用户的研究和应用也显示了该方法具有潜在的实用价值

图1 Retinexformer 和之前基于Retinex理论的算法对比

目前所有的代码、模型、训练日志、十三个数据集(LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV)的测试结果均已开源,研究人员还基于 BasicSR 开发了一个集成了八大数据集的训练框架。

暗光增强简介

根据图1所示,暗光增强的主要目标是提高低光图像的可见度和对比度,同时修复隐藏在黑暗中或由于亮度增加而引入的噪声、伪影、颜色畸变等复杂的退化模式

图2 暗光增强任务示意图

当前的暗光增强算法大体上可以分为三类:朴素方法、传统感知方法、深度学习方法。

朴素方法一般会直接在全局范围内增强整张图像的亮度和对比度。

经典的算法有直方图均衡化(histogram equalization )和伽马矫正(Gama Correction)。然而这类算法没有考虑到光照因素,使得增强后的图像与真实光照图像严重不符。

传统感知算法大都基于视网膜理论(Retinex Theory),将一张自然图像解耦为照度图(Illumination)和反射图(Reflectance),并将反射图作为暗光增强后的图像。

然而这类算法有两个缺陷:一是假定暗光图像都是干净的,不存在噪声伪影等。然而由于成像设备的缺陷,暗光图像常常带有噪声;二是这类算法依赖于手工设计的图像先验,常常需要调参且表征能力很弱。

现有的深度学习方法大多基于卷积神经网络,这些方法在捕获长程依赖关系方面表现不佳,对图像修复也不利。有一些深度学习算法结合了视网膜分解理论

然而,这些算法通常需要一个冗长的流程,采用多阶段的训练方案,分别训练多个不同的CNN来完成不同的任务,比如解耦彩色图像、去噪反射图像、调整照度图像等;然后将这些经过训练的CNN连接起来进行微调。整个训练过程繁琐复杂,耗时耗力

为了应对上述问题,本论文做出了以下贡献:

首次提出了一种将视网膜理论与 Transformer 算法相结合的新算法,名为 Retinexformer,旨在用于暗光增强

推导了一个名为ORF(单阶段视网膜理论框架)的理论框架,它不需要复杂的训练和微调流程,只需要一个阶段的端到端训练即可

我们设计了一种名为IG-MSA(光照引导的多头自注意)的新型机制,利用光照信息来引导捕获长程依赖关系

我们的算法在十三个暗光增强榜单上取得了更好的定量和定性效果,同时在用户研究和黑夜目标检测任务上验证了算法的实用价值

Retinexformer框架

Retinexformer 采用了 ORF 的设计,其中 ORF 包括两个部分:(i) 光照估计器(illumination estimator)和 (ii) 退化修复器(corruption restorer)

图3 本文方法的整体框架

在图3 (b) 中,研究人员设计了一个光照引导的 Transformer IGT(Illumination-Guided Transformer)来作为退化修复器,IGT 的基本单元是光照引导的注意力块 IGAB (Illumination-Guided Attention Block),IGAB 由两个层归一化 LN(Layer Normalization),一个 IG-MSA 和一个前馈网络 FFN(Feed-Forward Network)组成,其细节如图3 (c) 所示。

2.1 单阶段视网膜理论框架

根据视网膜理论,一个低光图像 I 可以被分解为一个反射图 R 和一个照度图 L 的点乘

图片

然而,这个视网膜模型没有考虑到噪声、伪影等退化因素。因此,我们需要对这个公式进行重写:

图片

在提升低光图像亮度时,我们在反射图和照度图上都加入了扰动项。因此,上述等式的两边都会同时与一个亮度图进行点乘

图片

等式右边第三项便表示隐藏在黑暗中的噪声伪影,并在提升亮度过程中被进一步放大。第二项表示点亮过程造成的失曝,过曝和颜色畸变。可将(3)式进一步简化为:

图片

根据(4)式,我们可以将ORF推导为以下形式,其中的C表示整体的退化项

图片

退化修复器的输入是经过光照估计器处理后的低光图像和照度先验图的输出

2.2 光照引导的 Transformer

如图3 (a) (ii) 所示,IGT采用一个 encoder-bottleneck-decoder 的 U-型结构。其中最重要的组成部件便是 IG-MSA,光照估计器输出的增亮特征图输入到每一个 IG-MSA 当中。在 IG-MSA 当中,输入的特征图首先被变形为 token,然后被分成 k 个 heads:

图片

对于每个头部,我们分别将其进行线性投影,得到Q,K,V:

图片

将特征图形转换为令牌的过程也会同时增强其亮度

图片

在每个头部计算自相似性时,可以使用光照信息作为引导

图片

我们的 IG-MSA 的计算复杂度为:

图片

同比全局的MSA的计算复杂度:

图片

我们 IG-MSA 计算复杂度与输入尺寸成线性而全局MSA的计算复杂度与输入成二次相关。我们的计算复杂度明显更低。

实验结果

我们在LOL-v1、LOL-v2-real、LOL-v2-synthetic、SID、SMID、SDSD-in、SDSD-out和MIT Adobe FiveK这八个数据集上进行了定量实验,实验结果如表1和表2所示

图片

表1

表2

此处需要补充说明一下,MIT Adobe FiveK 官方只提供了RAW数据,需要大家自己导出才能得到 RGB 数据。

导出有两种格式,一种是 pro RGB,这种格式不适合人眼观看,但计算得到的 PSNR 和 SSIM 指标都较高,方便大家报告指标

而另一种是 sRGB 格式,这种就是最常见的 RGB 图像格式,但是这种格式指标会比较低,本文采用的就是这种格式,并且已经在 repo 里贴心地为大家准备好了已经导出的 sRGB 图像下载链接,可以直接下载使用。

我们在 LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV 上测试了定性效果,视觉对比如图4、5、6、7所示

图4 LOL-v1, LOL-v2-real 和 LOL-v2-synthetic 上的视觉效果对比

图5 SID 和 SMID 上的视觉效果对比

图6 SDSD-indoor 和 SDSD-outdoor 上的视觉效果对比

图7 LIME, NPE, MEF, DICM 和 VV 上的视觉效果对比

我们还进行了用户调查,并将结果列在表3中

表3 用户调查结果

最后,将我们的 Retinexformer 作为预处理器对暗光图像进行增强以辅助夜间目标检测的效果,在 ExDark 数据集上的定量结果如表4所示:

表4 暗光增强辅助夜间目标检测实验指标

一些暗光增强辅助夜间目标检测的例子如图8、9、10 所示:

图8

图9

图10

重写内容时,需要将原文改写成中文,不需要出现原句

需要重写的内容是:https://zhuanlan.zhihu.com/p/657927878

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

相关文章