Low-Light Image Enhancement using Event-Based Illumination Estimation(2025,CVPR)
- 专题介绍
- 一、研究背景
- 二、RETINEV方法
- 1.事件相机
- 2. 本文方案
- 2.1 事件时间戳与光照的物理关系
- 2.2 总体架构:Retinex 理论驱动的分解
- 2.3 时间到光照(T2I)模块:低光退化与光照调控
- 2.4 光照辅助反射增强(IRE):交叉模态注意力
- 2.5 损失函数
- 三、实验结果
- 1. 实验数据集
- 2. 对比实验
- 3.消融实验
- 四、总结
- 五、个人思考
本文将对 Low-Light Image Enhancement using Event-Based Illumination Estimation,这篇暗光增强算法进行讲解。参考资料如下:
[1] RETINEV 文章]
专题介绍
在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。
LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。
本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!
系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
一、研究背景
- 低光图像增强的挑战 :在低光照条件下拍摄的图像通常存在亮度不足、噪声明显、对比度低和细节丢失等问题,这会限制计算机视觉算法在智能驾驶、安防监控和医疗成像等领域的应用效果,因此需要有效的低光图像增强方法来提升图像质量。
- 传统方法的局限 :许多传统方法通过图像本身信息增强低光图像,但往往会导致噪声放大或细节丢失。
低质量单图的有效信息受限,这直接限制了增强的幅度和精度。因此现在有不少多模态图像增强方法,利用额外的参考信息来辅助图像增强,例如深度图、红外图以及事件数据(由事件相机输出)等等。
本文提出了一种基于事件相机的低光图像增强方法 RETINEV,通过利用事件相机的时间映射事件估计光照信息,并结合 Retinex 理论实现了对低光图像的高效增强。
二、RETINEV方法
1.事件相机
首先介绍一下什么是事件相机
-
事件相机是一款新型传感器。不同于传统相机拍摄一幅完整的图像,事件相机拍摄的是“事件”,可以简单理解为“像素亮度的变化”,即事件相机输出的是像素亮度的变化情况。事件相机英文名为:Event-based Camera,或简称为Event Camera,缩写为EB。有时也称作DVS(Dynamic Vision Sensor “动态视觉传感器”)、DAVIS(Dynamic and Active-Pixel Vision Sensor)等。
-
事件相机最基本的原理,即:当某个像素的亮度变化累计达到一定阈值后,输出一个事件。这里强调几个概念:
a) 亮度变化:说明事件相机的输出和变化有关,而与亮度的绝对值没有关系;
b) 阈值:当亮度变化达到一定程度时,将输出数据,这个阈值是相机的固有参数。
下面重点解释什么是一个“事件”。事件具有三要素:时间戳、像素坐标与极性。一个事件表达的是“在什么时间,哪个像素点,发生了亮度的增加或减小”。 -
当场景中由物体运动或光照改变造成大量像素变化时,会产生一系列的事件,这些事件以事件流(Events stream)方式输出。事件流的数据量远小于传统相机传输的数据,且事件流没有最小时间单位,所以不像传统相机定时输出数据,具有低延迟特性。下面的动图揭示了事件相机与传统相机的成像的不同。
动图:左侧为有一个黑色斑块的圆盘,匀速旋转时,右上方的传统相机会定时拍摄完整的图像,下方事件相机的输出会仅输出变化,即黑斑的运动。当圆盘不转时,传统相机依旧傻傻的拍摄图像,而事件相机不会产生任何输出。 -
事件相机的优势与不足 :事件相机具有高动态范围和出色的低光响应能力,且仅在场景亮度变化时触发事件,避免了冗余信息的传输和处理。但现有的基于事件的方法主要依赖于运动事件来增强边缘纹理,而未充分利用事件相机的高动态范围和低光响应性,尤其在静态场景中性能受限,且缺乏对光照的全局估计能力。
2. 本文方案
2.1 事件时间戳与光照的物理关系
事件相机通过像素强度变化触发事件,其时间戳隐含光照信息。作者基于光电转换模型,建立光照强度E与首个正事件时间戳 t fpe t_{\text{fpe}} tfpe的关系: η ⋅ E ⋅ A ⋅ t fpe = C ⋅ U thd 2 2 \eta \cdot E \cdot A \cdot t_{\text{fpe}} = \frac{C \cdot U_{\text{thd}}^2}{2} \quad η⋅E⋅A⋅tfpe=2C⋅Uthd2其中, η \eta η为光电转换效率,A为像素面积,C和 U thd U_{\text{thd}} Uthd为像素电容与阈值电压。简化后得: E = k t fpe , k = C ⋅ U thd 2 2 η ⋅ A E = \frac{k}{t_{\text{fpe}}} \quad , \quad k = \frac{C \cdot U_{\text{thd}}^2}{2\eta \cdot A} E=tfpek,k=2η⋅AC⋅Uthd2该公式表明光照强度与时间戳成反比,为后续时间 - 光照(T2I)模块提供物理基础。
2.2 总体架构:Retinex 理论驱动的分解
基于 Retinex 理论,观测图像S分解为反射率R(物体固有属性)和光照I(环境变量): S = R ⋅ I S = R \cdot I \quad S=R⋅I传统方法仅从低光图像估计I,易受噪声干扰。RETINEV 引入时间映射事件估计高精度光照 I ^ \hat{I} I^,并通过交叉模态注意力优化反射率 R ^ \hat{R} R^: I ^ = F T2I ( t fpe ; Θ 1 ) , R ^ low = F IRE ( R low , I ^ ; Θ 3 ) \hat{I} = \mathcal{F}_{\text{T2I}}(t_{\text{fpe}}; \Theta_1) \quad , \quad \hat{R}_{\text{low}} = \mathcal{F}_{\text{IRE}}(R_{\text{low}}, \hat{I}; \Theta_3) \quad I^=FT2I(tfpe;Θ1),R^low=FIRE(Rlow,I^;Θ3)最终增强图像为: S ^ low = I ^ ⋅ R ^ low \hat{S}_{\text{low}} = \hat{I} \cdot \hat{R}_{\text{low}} \quad S^low=I^⋅R^lowT2I 模块包含去噪网络、非线性映射(MLP)和 Gamma 编码,确保事件时间戳与 RGB 光照对齐。
2.3 时间到光照(T2I)模块:低光退化与光照调控
- 低光退化模型(LLDM)模拟真实场景中事件相机的退化特性,使训练数据更贴近实际场景,提升模型对低光事件的鲁棒性。退化特性包括:
- 空间域: 模糊(衍射效应)、下采样(传感器限制)、泊松 - 高斯噪声(暗电流);
- 时间域: 时间戳延迟(与 t fpe t_{\text{fpe}} tfpe正相关)。
LLDM 通过数学建模将这些退化注入合成训练数据,确保模型学习到低光事件的真实分布,避免仅适配理想条件下的事件数据。在训练阶段,LLDM 对理想事件时间戳 t fpe t_{\text{fpe}} tfpe添加延迟和噪声,使 T2I 模块学会从 “脏数据” 中提取光照信息。
- 光照调节系数 β \beta β实现亮度可控性: t norm = t fpe + β max ( t fpe ) + β t_{\text{norm}} = \frac{t_{\text{fpe}} + \beta}{\max(t_{\text{fpe}}) + \beta} \quad tnorm=max(tfpe)+βtfpe+β通过调整 β \beta β,可线性缩放光照强度,同时保持反射率不变。
应用场景:不同用户或场景对亮度的偏好不同(如安防需要高亮、艺术场景需要柔和),β 允许手动 / 自动调节最终增强图像的整体亮度(下图可视化了 β 对 I 的影响)。
根据 Retinex 理论,反射率R是物体固有属性,与光照无关。β 仅作用于光照分量 I ^ \hat{I} I^,反射率 R ^ low \hat{R}_{\text{low}} R^low的计算完全基于图像本身和事件估计的光照先验,不受 β 影响。实验也验证了这一点:上图的反射率可视化显示,不同 β 值下 R ^ low \hat{R}_{\text{low}} R^low的灰度分布一致,证明了其不变性。
2.4 光照辅助反射增强(IRE):交叉模态注意力
传统 Retinex 方法仅增强光照,忽略反射率优化。RETINEV 设计交叉模态注意力,利用光照先验提升反射率细节: Attention ( Q R , K I , V I ) = V I ⋅ softmax ( Q R ⊤ K I d k ) \text{Attention}(Q_R, K_I, V_I) = V_I \cdot \text{softmax}\left(\frac{Q_R^\top K_I}{\sqrt{d_k}}\right) \quad Attention(QR,KI,VI)=VI⋅softmax(dkQR⊤KI)其中,查询 Q R Q_R QR来自反射率特征,键值对 ( K I , V I ) (K_I, V_I) (KI,VI)来自光照特征。通过转置 Q R Q_R QR,将计算复杂度从 O ( h 2 w 2 ) O(h^2w^2) O(h2w2)降至 O ( c 2 ) O(c^2) O(c2)(c为通道数),兼顾长距离依赖与效率。
2.5 损失函数
重建损失(对齐增强图像与正常光照图像):
L recon = ∥ I ^ ⋅ R ^ low − S normal ∥ 1 + ∥ I ^ ⋅ R normal − S normal ∥ 1 \mathcal{L}_{\text{recon}} = \|\hat{I} \cdot \hat{R}_{\text{low}} - S_{\text{normal}}\|_1 + \|\hat{I} \cdot R_{\text{normal}} - S_{\text{normal}}\|_1 \quad Lrecon=∥I^⋅R^low−Snormal∥1+∥I^⋅Rnormal−Snormal∥1
反射不变损失(强制反射率跨光照一致):
L R = ∥ R low − R normal ∥ 1 + ∥ R ^ low − R normal ∥ 1 \mathcal{L}_R = \|R_{\text{low}} - R_{\text{normal}}\|_1 + \|\hat{R}_{\text{low}} - R_{\text{normal}}\|_1 \quad LR=∥Rlow−Rnormal∥1+∥R^low−Rnormal∥1
感知损失(基于预训练网络的结构相似性),最终加权求和。
总之,通过物理建模 - 架构设计 - 优化约束的闭环,实现了基于事件时间戳的高精度光照估计,并结合 Retinex 理论与交叉模态注意力,突破了传统方法依赖运动事件的局限。
三、实验结果
1. 实验数据集
- 合成数据集(训练 + 验证):
LOL v1/v2:包含真实低光图像(LOL v1)和合成 / 真实低光视频(LOL v2),分辨率 600×400/384×284,用于基础性能对比。
SDSD:室内外低光视频数据集,分辨率 512×960,验证跨场景泛化性。 - 自建真实数据集 EvLowLight:
采集方案:共享镜头分光棱镜系统(如上图),同步 DVS(1280×720)和 RGB 相机(1280×1024),覆盖 2.5–6 lux 极端低光场景(60 组,每组 3 曝光图像 + 时间映射事件 + 运动事件)。
独特性:首个同时包含 时间映射事件和运动事件 的数据集,支持事件基方法的真实场景评估。
真值生成:通过多曝光融合生成 HDR 参考图。
2. 对比实验
- 合成数据集定量对比
- 指标:PSNR、SSIM,对比 11 类 SOTA 方法(图像基 / 事件基)。
- 优势:
图像基方法:Retinexformer(25.16 dB)→ RETINEV(28.60 dB),PSNR+3.44 dB(LOL v1),SSIM+0.312。
事件基方法:EvLight(28.52 dB)→ RETINEV(33.65 dB,SDSD 室内),PSNR+5.13 dB,验证时间映射事件优于运动事件。 - 效率:仅 3.44M 参数,Flops 184.6G,远低于 EvLight(22.73M 参数,438.5G Flops)。
- 真实数据集对比
- 定量指标:
PSNR* 15.39,超次优方法 EvLight(14.51)+0.88 dB。
非参考指标 PIQE 9.41(越低越好),显著优于 Retinexformer(19.55),证明视觉自然性。 - 定性结果:
图像基方法(如 RetinexNet):暗区噪点严重,高光过曝(上图 第一列)。
运动事件方法(EvLight):边缘伪影(如雕塑暗部 “鬼影”),对比度失衡。
RETINEV:效果最佳。
3.消融实验
- 时间映射事件有效性:纯图像基(16.98 dB)→ 加入事件(26.96 dB),PSNR+9.98 dB,证明事件光照先验的核心作用。
- LLDM 退化模型有效性:无 LLDM(27.25 dB)→ 有 LLDM(27.83 dB),PSNR+0.58 dB,验证低光事件建模的有效性。
- IRE 模块设计有效性:
简单融合(Add/Concat/Multiply)→ 交叉模态注意力(28.60 dB),PSNR+0.47~0.62 dB,证明注意力机制对长距离依赖的优化。
四、总结
本文提出的 RETINEV 框架 颠覆传统事件基方法的技术路径,核心创新点如下:
- 光照估计的物理建模:利用事件相机对快门开合的响应(时间映射事件),建立光照强度与首正事件时间戳的反比关系: E = k t fpe E = \frac{k}{t_{\text{fpe}}} E=tfpek
通过 T2I 模块(时间到光照转换),将时间戳转化为高精度光照图,突破运动事件仅含边缘信息的局限。 - 跨模态协同的 Retinex 分解:基于 Retinex 理论 ( S = R ⋅ I ) (S = R \cdot I) (S=R⋅I),设计 IRE 模块(光照辅助反射增强),通过交叉模态注意力,利用光照先验优化反射率,实现纹理细节的无伪影恢复。
- 贴近真实的低光数据模拟:提出 LLDM 低光退化模型,模拟时间戳延迟、暗电流噪声等特性,生成与真实低光事件分布一致的合成数据,提升模型泛化能力。
- 开辟事件相机在低光增强中的新方向:从 “运动边缘辅助” 到 “光照 - 反射率协同优化”。轻量化设计(3.44M 参数)为嵌入式设备部署提供可能。
五、个人思考
传统事件基方法(如 EvLight)仅将事件视为 “运动边缘检测器”,其性能受限于场景动态性 —— 无运动则失效。而本文通过时间映射事件的物理建模$ ( E = k t fpe ) (E = \frac{k}{t_{\text{fpe}}}) (E=tfpek),将事件相机从 “辅助传感器” 提升为 “光照测量工具”,这一转变具有深远意义:
- 跨任务迁移价值:光照估计是计算机视觉的基础问题(如 HDR 成像、光度立体),本文方法可迁移至其他依赖光照先验的任务,例如单图像深度估计。
- 挑战:当前依赖机械快门生成时间映射事件,限制了实时性(2 ms 同步延迟),如何通过软件算法模拟透射率调制(如虚拟快门)是值得探索的方向。
感谢阅读,欢迎留言或私信,一起探讨和交流。