【超分辨率专题】一种考量视频编码比特率优化能力的超分辨率基准

在这里插入图片描述


这是一个Benchmark,超分辨率+视频编码(2024)

  • 专题介绍
  • 一、研究背景
  • 二、相关工作
    • 2.1 SR的发展
    • 2.2 SR benchmark的发展
  • 三、Benchmark细节
    • 3.1 数据集制作
    • 3.2 模型选择
    • 3.3 编解码器和压缩标准选择
    • 3.4 Benchmark pipeline
    • 3.5 质量评估和主观评价研究
  • 四、实验论证
    • 4.1 视频质量评估结果
    • 4.2 比特率降低测试
    • 4.3 视频质量度量指标评估
  • 五、总结
    • 个人思考

本文将对SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction进行解读,正如标题所示,建立了新的benchmark。参考资料如下:
[1]. SR+Codec Benchmark 论文地址
[2]. Benchmark(课题组成果展示)地址


专题介绍

现在是数字化时代,图像与视频早已成为信息传递的关键载体。超分辨率(super resolution,SR)技术能够突破数据源的信息瓶颈,挖掘并增强低分辨率图像与视频的潜能,重塑更高品质的视觉内容,是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程,方案也从最早的邻域插值迭代至现今的深度学习SR,但无论是经典算法还是AI算法,都在视觉应用领域内发挥着重要作用。

本专题旨在跟进和解读超分辨率技术的发展趋势,为读者分享有价值的超分辨率方法,欢迎一起探讨交流。

一、研究背景

截至2022年,视频流量占比超80%互联网流量且持续增长,视频压缩技术能有效降低数据带宽消耗,但压缩意味着有损失。而SR技术可通过恢复细节以增强视频质量,具备优化压缩的潜力;不过现有SR模型对强压缩视频恢复效果有限且易出瑕疵(如下图示例)。
在这里插入图片描述
那么针对效果问题该如何做改进呢?哎,这不是本文的目的,本文的核心工作是:

  1. 提出了一个新的针对视频压缩复原的SR模型评测的benchmark。
  2. 评估了5个视频编解码器和19个SR模型。考虑了不同压缩比特率下的测试情况,考虑了在编码前对视频做降分辨率的情况。得出了几个结论
  3. 提出了将客观度量和主观评价(5397名受试者)相结合的评判标准。重点关注细节恢复和主观感知的表现,以及消除压缩伪影问题的能力。并构建了一个与主观评价相关性高的简单度量组合。
  4. 量化分析了SR在视频质量恢复与比特率优化中的实际效能,为编解码器设计(如LCEVC)提供模型选型依据。

作者期望本工作能够为低带宽高清视频传输提供技术路径,推动SR在实时编解码场景中的应用。

“我们来定更好的标准,你们来做更好的算法。”

有些新入坑的朋友可能会想,啥是benchmark呢?
benchmark是一种标准化的测试方法或数据集,用于衡量和比较不同算法或模型在特定任务上的性能。它提供了一种客观的评估标准,帮助研究人员和开发者了解他们的算法或模型在实际应用中的表现。根据类型划分,包括了数据集基准任务基准性能指标基准

二、相关工作

2.1 SR的发展

言归正传,作者捋了捋当前的SR技术发展。这里基于文章内容简单整理了一个表。

功能维度时间冗余利用类视频 SR 方法GAN 类 SR 方法扩散模型类 SR 方法
核心思想通过递归/双向传播对齐时空上下文利用对抗训练生成逼真纹理多步推理生成高质量结果
代表模型RBPN [17], COMISR [27], BasicVSR++ [15], VRT [29], RVRT [30], Swin2SR [16]ESRGAN [38], Real-ESRGAN [39]diffusion SR系列 [33,35,41,51]
技术优势双向递归扭曲(COMISR)、局部-全局注意力(Swin2SR)、跨片段预测(RVRT)高阶退化建模(Real-ESRGAN)、增强感知损失图像生成质量优异
局限性对压缩伪影敏感(如 VRT 在强压缩场景失效)过度锐化风险推理步骤多(>100 步)→ 实时性差
适用场景视频序列中运动连续性强(如手持抖动视频 [45])压缩图像纹理修复(如自然图像)离线非实时任务(如存档修复)

鉴于设计用于压缩视频的SR模型数量有限,所以作者认为评估现有SR模型在压缩视频上的性能仍是一项关键任务。(因少故难,不忘督促各位学者赶紧研究)

另外,有些方案会对视频做降分辨率的操作,从而降低比特率,在解码端设计特殊的解码器将同时实现解码和SR。

在本次基准测试中,仅考虑编解码器和SR方法彼此独立的情况,评估不同编解码器和SR方法如何结合在一起最佳。

2.2 SR benchmark的发展

其实关于SR的benchmark已有很多,本文更加聚焦于SR与Codec相结合。当然,前两年也有类似的benchmark

  1. NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video
  2. AIM 2022 Challenge on Super-Resolution of Compressed Image and Video

But!本项工作做了几个点的改进,采用了更广泛的视频质量度量和更多的视频编解码器。还做了不同SR对优化比特率能力的测试。

特地去看了下NTIRE2022,编码仅采用了HEVC。评价指标仅采用了PSNR,确实单一。同时建立了数据集LDV2.0。而AIM2022中关于视频压缩的超分挑战规则跟NTIRE2022中是一样的,只是将LDV数据集升级至3.0,新增了30个4K视频(来自youtube)。

博主对比了一下LDV2.0和LDV3.0的描述,基本上就是ctrl+c和ctrl+v,仅仅是数据量上增加了一些。(那为何要在同一年搞两次类似的挑战?难以理解) LDV1.0-3.0的数据集路径https://github.com/RenYang-home/LDV_ dataset,感兴趣的可以去看下。

三、Benchmark细节

3.1 数据集制作

作者没有考虑沿用LDV系列,而是自己搜集制作。为了保证基准数据集足够多样化,从多个来源收集了1920x1080的视频,包括:

  • 视频网站片段:从视频网站截取了50个序列,包括real world和动画,并用VQMT将数据拆分成多个场景类型。
  • 相机实拍:用佳能EOS 7D去拍摄室内室外场景,保证亮度和清晰度较为合适,共20个室内素材和30个室外素材,包含了目标运行和相机水平运动的两种情况。(大家可以思考下:这两种运动的区别是什么,为什么要区分?)
  • 游戏视频片段,截取了20个片段,包括的2D和3D游戏视频。

然后获取了每个视频的特征,包括google时空特征,fps,颜色和最大face数量。基于这些特征,用k-means进行聚类,分成20个簇,每个簇选择一个视频,将其称为源视频。如下图所示。

在这里插入图片描述

在这里插入图片描述

这里有个新词汇,Google Spatial and Temporal features(google时空特征),其实就是空间复杂度和时间复杂度,前者用I帧的编码比特来计算,后者用P帧的编码比特来计算。(详情可参考引文《YouTube UGC dataset for video compression research》)

作者为了保证重要细节在降尺度和压缩后不完全丢失,只考虑了空间和时间复杂度低的视频,且没有很重的模糊和噪声。还表示相机运动有助于SR算法利用帧间信息做恢复。

拍脑袋想,所谓空间复杂度低就是没有很丰富的细节纹理,时间复杂度低就是没有大范围的剧烈运动。
为啥这么选?因为丰富的细节纹理压缩后损失明显,难以复原,也就很难体现SR的效果,那岂不是等于白评估。

3.2 模型选择

数据标准搞定了,模型怎么选?

作者从细节复原和感知质量提升这两个维度评估和考虑,排除了一些类似的方案,选择了19种模型,包括BasicVSR++,COMISR,DBVSR,EGVSR,LGFN,RBPN,Real-ESRGAN,RealSR,RSDN,SOF-VSR-BD,SOF-VSR-BI,SwinIR,TMNet,VRT,RVRT,IART,AnimeSR,Topaz Video AI 和 bicubic插值。 均采用原作者的预训练权重。

等等,里面怎么还有图像超分算法呢?原来是作者认为高质量视频SR模型稀缺,所以加入了图像SR一起作为比较。

3.3 编解码器和压缩标准选择

作者选择5种编码器,突出一个丰富且全面。

在这里插入图片描述

3.4 Benchmark pipeline

benchmark pipeline如下图所示。
在这里插入图片描述

  • 先用FFmpeg将源视频降分辨率至480x270,用双三次选型。
  • 选用0.6、1.0和2 Mbps的比特率对低分辨率视频做压缩。(客观评价时还增加了0.1,0.3,4.0Mbps的压缩档位)
  • 编码器均采用了medium配置(应该理解为中等质量)。
  • 压缩后的视频使用FFmpeg对PNG序列进行转码,作为SR模型输入。
  • 将图像SR模型单独应用于每一帧;视频SR模型按照正确的顺序接收到包含帧的目录路径。
  • 测试4x放大的效果,部分模型只支持2x,这种情况就处理2次。

说实话,图像SR会吃亏一些(缺少时域维度信息),个人感觉缺乏点严谨性,要么就图像SR相互对比,视频SR相互对比。

3.5 质量评估和主观评价研究

客观评价指标有:PSNRMS-SSIMVMAFLPIPSMDTVSFA(唯一的无参考)和ERQA。主要考虑了全参考指标,优先关注细节恢复,而不是感知质量。

主观评价采用了众包评价(找一堆不相干的人来评估)。由于在整个画面中,细节丢失和压缩伪影可能不容易被注意到,因此改为对剪裁块做评估。裁剪区域则是通过计算视频的显著性区域来确定。为了让评估者在屏幕上能够更好地进行比较,他们将剪裁的分辨率设置为480×270。这种方法使得评估者能够更清晰地观察到细节和压缩伪影,从而更准确地比较不同超分辨率模型的效果。除此之外,用对应的裁剪块计算客观指标,以确定客观指标与主观评分的相关性。

具体主观评价过程是随机给出两个SR模型的一对视频,让评价者选择看起来更真实、压缩伪影更少的视频(“不可区分”也是选择)。

那么由于担心有些人浑水摸鱼,睁眼说瞎话。还很机智地设置了3个验证性问题。还真筛选出了265位摸鱼侠(剔除了)。最后用Bradley-Terry模型计算最终的主观分数。(共120316个评估结果)

四、实验论证

针对每个编解码器,基于LPIPS指标,挑选了10个最佳的模型进行评估。(并不是所有模型都有资格进入决赛圈,肯定不是为了省事)

4.1 视频质量评估结果

作者选了每个编解码方案下,无SR和两种最佳SR效果作为结果展示。发现了几个有意思的点:

  • x264编码器: SwinIR和Real-ESRGAN抗压缩伪影效果最优,带生成能力的方案有优势。
  • AV1编码器: 直接压缩(无需SR)表现最佳,加SR反而冗余。
  • H.265/H.266: RVRT和RBPN模型恢复能力突出。
    在这里插入图片描述
    作者解释这种差异性跟编解码器的特性是相关的。

4.2 比特率降低测试

下表说明了,主观评分下,没有一种SR模型是具备通用性的。例如RealSR在高比特率效果不佳,但低比特率的效果反而有优势,在AVI数据上甚至NO SR是最好的。原因表述与上个结论一样。
在这里插入图片描述
在这里插入图片描述

效果上看,低比特率+SR能改善伪影问题,但至于比特率下降到多少是合适的,得看具体任务目标还有选用的编解码器。

4.3 视频质量度量指标评估

通过计算PLCC和SRCC来评价主观和客观指标的相关性,发现相关性普遍较低。

在这里插入图片描述

结合**ERQA(边缘恢复质量)MDTVSFA(多维度时空质量)**的复合指标,与主观评分相关性提升至0.801。建议可以用该复合指标来逼近主观评价。

五、总结

最后回顾一下,作者建立了一个关于SR+Codec的benchmark,然后研究过程中有以下几个结论:

  1. 例如RealSR和RVRT能够在解码之后提升低比特率视频的主观感知质量。
  2. RVRT可以提高x265和vvenc编解码后的视频质量。
  3. RealSR可以配合x264一起使用,在不降质的情况下,将视频比特率降低65%以上。
  4. 现有视频质量评价指标与主观评分的相关性很差,不适合评估基于降尺度的视频编码结果。
  5. ERQAxMDTVSFA组合的评价方式与主观评价的相关性较高,可以采用该组合作为评价指标。
  6. 对于一些高级编解码器而言,如uavs3e,aomenc等,用SR算法做增强处理的价值不大,主观效果不如无SR的。

根据文章提供的benchmark网址,博主点进去看了看,好家伙,这个实验室或是专门搞benchmark的,有个专题列表,这里截了点一部分,感兴趣的可以去详细了解一下。(组织名:MCU Graphics & Media Laboratory)
在这里插入图片描述

不过有一说一,好的benchmark确实能够给领域内的研究人员或开发人员提供不错参考和对比。

个人思考

AI SR+Codec的组合可能已经在一些视觉产品上落地使用了。Codec实现低成本数据传输,SR实现高质量结果展示。博主认为这个方向的研究与探索是很有价值的,特别是对于轻量化采集设备而言。

当然,确实没有一个SR方案能够通吃,很多模型都有各自的局限性(不考虑大模型)。要做好此类任务,需要开发者了解各模型的优劣势,同时掌握一些Codec的知识,这样才能针对性地做调整和改进。


感谢阅读!如有疑问,欢迎留言或私信。
关注博主,一起学习更多的底层视觉技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81113.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保姆教程-----安装MySQL全过程

1.电脑从未安装过mysql的,先找到mysql官网:MySQL :: Download MySQL Community Server 然后下载完成后,找到文件,然后双击打开 2. 选择安装的产品和功能 依次点开“MySQL Servers”、“MySQL Servers”、“MySQL Servers 5.7”、…

【React中函数组件和类组件区别】

在 React 中,函数组件和类组件是两种构建组件的方式,它们在多个方面存在区别,以下详细介绍: 1. 语法和定义 类组件:使用 ES6 的类(class)语法定义,继承自 React.Component。需要通过 this.props 来访问传递给组件的属性(props),并且通常要实现 render 方法返回 JSX…

[基础] HPOP、SGP4与SDP4轨道传播模型深度解析与对比

HPOP、SGP4与SDP4轨道传播模型深度解析与对比 文章目录 HPOP、SGP4与SDP4轨道传播模型深度解析与对比第一章 引言第二章 模型基础理论2.1 历史演进脉络2.2 动力学方程统一框架 第三章 数学推导与摄动机制3.1 SGP4核心推导3.1.1 J₂摄动解析解3.1.2 大气阻力建模改进 3.2 SDP4深…

搭建运行若依微服务版本ruoyi-cloud最新教程

搭建运行若依微服务版本ruoyi-cloud 一、环境准备 JDK > 1.8MySQL > 5.7Maven > 3.0Node > 12Redis > 3 二、后端 2.1数据库准备 在navicat上创建数据库ry-seata、ry-config、ry-cloud运行SQL文件ry_20250425.sql、ry_config_20250224.sql、ry_seata_2021012…

Google I/O 2025 观看攻略一键收藏,开启技术探索之旅!

AIGC开放社区https://lerhk.xetlk.com/sl/1SAwVJ创业邦https://weibo.com/1649252577/PrNjioJ7XCSDNhttps://live.csdn.net/room/csdnnews/OOFSCy2g/channel/collectiondetail?sid2941619DONEWShttps://www.donews.com/live/detail/958.html凤凰科技https://flive.ifeng.com/l…

ORACLE 11.2.0.4 数据库磁盘空间爆满导致GAP产生

前言 昨天晚上深夜接到客户电话,反应数据库无法正常使用,想进入服务器检查时,登录响应非常慢。等两分钟后进入服务器且通过sqlplus进入数据库也很慢。通过检查服务器磁盘空间发现数据库所在区已经爆满,导致数据库在运行期间新增审…

计算机视觉---目标追踪(Object Tracking)概览

一、核心定义与基础概念 1. 目标追踪的定义 定义:在视频序列或连续图像中,对一个或多个感兴趣目标(如人、车辆、物体等)的位置、运动轨迹进行持续估计的过程。核心任务:跨帧关联目标,解决“同一目标在不同…

windows系统中下载好node无法使用npm

原因是 Windows PowerShell禁用导致的npm无法正常使用 解决方法管理员打开Windows PowerShell 输入Set-ExecutionPolicy -Scope CurrentUser RemoteSigned 按Y 确认就解决了

Nginx模块配置与请求处理详解

Nginx 作为模块化设计的 Web 服务器,其核心功能通过不同模块协同完成。以下是各模块的详细配置案例及数据流转解析: 一、核心模块配置案例 1. Handler 模块(内容生成) 功能:直接生成响应内容(如静态文件、重定向等) # 示例1:静态文件处理(ngx_http_static_module)…

Elasticsearch 学习(一)如何在Linux 系统中下载、安装

目录 一、Elasticsearch 下载二、使用 yum、dnf、zypper 命令下载安装三、使用 Docker 本地快速启动安装(ESKibana)【测试推荐】3.1 介绍3.2 下载、安装、启动3.3 访问3.4 修改配置,支持ip访问 官网地址: https://www.elastic.co/…

Java Map双列集合深度解析:HashMap、LinkedHashMap、TreeMap底层原理与实战应用

Java Map双列集合深度解析:HashMap、LinkedHashMap、TreeMap底层原理与实战应用 一、Map双列集合概述 1. 核心特点 键值对结构:每个元素由键(Key)和值(Value)组成。键唯一性:键不可重复&#…

HOW - React NextJS 的同构机制

文章目录 一、什么是 Next.js 的同构?二、核心目录结构三、关键函数:如何实现不同渲染方式?1. getServerSideProps —— 实现 SSR(每次请求动态获取数据)2. getStaticProps getStaticPaths —— 实现 SSG(…

SkyWalking的工作原理和搭建过程

SkyWalking 是一个开源的 应用性能监控系统(APM),专为云原生、微服务架构设计。其核心原理基于 分布式追踪(Distributed Tracing)、指标收集(Metrics Collection) 和 日志关联(Log C…

软考 系统架构设计师系列知识点之杂项集萃(57)

接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(56) 第93题 美国著名的卡内基梅隆大学软件工程学研究所针对软件工程的工程管理能力与水平进行了充分研究,提出了5级管理能力的模式,包括临时凑合阶段、简单模仿…

Java 泛型与类型擦除:为什么解析对象时能保留泛型信息?

引言&#xff1a;泛型的“魔术”与类型擦除的困境 在 Java 中&#xff0c;泛型为开发者提供了类型安全的集合操作&#xff0c;但其背后的**类型擦除&#xff08;Type Erasure&#xff09;**机制却常常让人困惑。你是否遇到过这样的场景&#xff1f; List<String> list …

【gRPC】HTTP/2协议,HTTP/1.x中线头阻塞问题由来,及HTTP/2中的解决方案,RPC、Protobuf、HTTP/2 的关系及核心知识点汇总

HTTP/2协议特点 gRPC基于HTTP/2协议&#xff0c;原因&#xff1a; 多路复用&#xff1a;允许在同一个TCP连接上并行传输多个请求和响应&#xff0c;即多个gRPC调用可以通过同一个连接同时进行&#xff0c;避免了HTTP/1.x中常见的线头阻塞问题&#xff0c;减少了连接建立和关闭…

PCIe Switch 问题点

系列文章目录 文章目录 系列文章目录完善PCIe Retimer Overview Document OutlineSwitch 维度BroadComMicroChipAsmedia 祥硕Cyan其他 完善 Functional block diagram&#xff0c;功能框图Key Features and Benefits&#xff0c;主要功能和优点Fabric 链路Multi-root PCIe Re…

vue复杂数据类型多层嵌套的监听

vue复杂数据类型多层嵌套的监听 本来看前辈的做法是watch的嵌套&#xff0c;遇到这种复杂的数据结构还是不多&#xff0c;分享一下前辈的做法 let stopChildWatchList [] // 用于存放每个子监听器watch(() > data,(val) > {// 清除旧监听stopChildWatchList.forEach(…

来一个复古的技术FTP

背景 10年前的老代码&#xff0c;需要升级springboot框架&#xff0c;在升级过程中&#xff0c;测试业务流程里&#xff0c;有FTP的下载业务&#xff0c;不管测试环境如何测试&#xff0c;都没有成功&#xff0c;最后只能自己搭建一个FTP服务器&#xff0c;写一个ftp-demo来测试…

MyBatis-Flex配置Druid(德鲁伊数据库连接池):Spring Boot 3 集成 MyBatis-Flex 配置 Druid 连接池指南

Spring Boot 3 集成 MyBatis-Flex 配置 Druid 连接池指南 前言 本文详细讲解在 Spring Boot 3 项目中集成 MyBatis-Flex 框架后&#xff0c;如何正确配置 Druid 数据库连接池。针对开发者常见的配置缺失导致启动失败的场景&#xff0c;提供完整的解决方案和原理分析。 前置知识…