JVET-AI0084

一、ALF 的原有问题(ECM-13.0 中存在的问题)

1. APS-ALF 系数跨帧复用但缺乏自适应能力

在 ECM-13.0 中:

  • 非固定 APS-ALF 的滤波系数:

    • 由编码器针对某一帧优化
    • 可被后续多帧复用
  • 解码端对所有使用该 APS 的帧:

    • 以相同强度应用 ALF 校正

👉 问题在于:

不同帧在内容特性、QP、噪声水平上存在显著差异,而滤波强度保持不变


2. 滤波强度不匹配导致 RD 性能受限

具体表现为:

  • 对某些帧:

    • ALF 校正偏弱,去噪不足
  • 对另一些帧:

    • ALF 校正偏强,产生过平滑
  • 这种失配:

    • 无法通过 CTU 级 ALF on/off 完全解决
    • 影响整体 RD 性能

📌 本质问题:

ALF 只能“开或关”,但“强度不可调”


3. 重新估计 APS 系数代价高

  • 若为每帧重新生成 APS-ALF:

    • 增加编码复杂度
    • 增加 APS signaling 开销
  • ECM-13.0 中缺乏:

    • 轻量级的帧级强度调节机制

二、AI0084 提出的解决方法(ALF residuals scaling)

1. 核心思想:缩放 ALF 残差而非修改滤波器

AI0084 不改变:

  • ALF 滤波结构
  • APS-ALF 系数本身

而是对ALF 产生的校正残差引入缩放因子

rec′(s)=rec(s)+corr(s)⋅scale23 rec'(s) = rec(s) + \frac{corr(s) \cdot scale}{2^3}rec(s)=rec(s)+23corr(s)scale

其中:

  • (corr(s)):ALF 计算得到的校正残差
  • (scale):缩放因子

👉 实现“滤波强度可调”


2. 缩放因子的信令方式(轻量级)

(1)按 Slice 信令

  • 缩放因子在slice header中传输
  • 不引入 CTU 级额外信令

(2)Luma 支持按 class 分组缩放

  • luma 的 25 个 ALF class index:

    • 按组划分
    • 每组共享一个 scaling factor
  • 通过:

    • idxGroup决定组数
    • idxScale[n]指定每组缩放因子

📌 允许:

  • 不同纹理 / 活动度区域
  • 使用不同 ALF 强度

(3)Chroma 使用单一缩放因子

  • 每个 chroma 分量:

    • 仅信令一个 scaling factor
  • 控制复杂度和比特开销


3. 缩放因子查表实现,复杂度极低

  • 缩放因子值来自SPS 预定义表

  • 实现为:

    • 整数乘法 + 移位
  • 不引入额外浮点或复杂运算


4. 带来的效果

  • 不改变 APS-ALF 系数的前提下:

    • 适配不同帧特性
    • 改善 RD 性能
  • 实验结果表明:

    • RA / LDB / LDP 下均有稳定 BD-rate 降低
    • 编码与解码复杂度几乎不变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1154488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白也能玩转机器翻译:手把手教你用HY-MT1.5-1.8B

小白也能玩转机器翻译:手把手教你用HY-MT1.5-1.8B 1. 引言:为什么你需要一个本地部署的翻译模型? 在全球化协作日益频繁的今天,高质量、低延迟的机器翻译已成为开发者、内容创作者乃至普通用户的核心需求。虽然市面上有 Google …

考虑过网费用分摊的多产消者点对点能源交易分布式优化系统说明

考虑过网费用分摊的多产消者点对点能源交易分布式优化 摘要:代码主要做的是配电网中产消者点对点交易相关研究,配网中的卖方和买方通过P2P交易匹配协商来平衡供需,同时重点考虑了P2P交易过程中公共设施的使用以及过网费用的分配问题&#xff…

从零构建Claude Agent:Skills、Projects与MCP的架构设计与实践(建议收藏)

文章解析了Claude Agent体系的分层架构,包括Prompt(瞬时指令)、Skills(固化技能)、Projects(长期记忆空间)、Subagents(并行执行单元)和MCP(数据连接层&#…

MediaPipe Pose实战:舞蹈动作识别系统部署

MediaPipe Pose实战:舞蹈动作识别系统部署 1. 引言:AI人体骨骼关键点检测的工程价值 随着计算机视觉技术的发展,人体姿态估计(Human Pose Estimation)已成为智能健身、虚拟试衣、动作捕捉和人机交互等领域的核心技术…

小白也能玩转大模型:手把手教你用HY-MT1.5-1.8B搭建离线翻译服务

小白也能玩转大模型:手把手教你用HY-MT1.5-1.8B搭建离线翻译服务 1. 引言 在全球化日益深入的今天,跨语言沟通已成为企业、科研乃至个人日常的重要需求。然而,在许多实际场景中——如野外作业、军事通信、航空航海或对数据隐私要求极高的行…

MediaPipe模型部署:AI人脸隐私卫士环境配置

MediaPipe模型部署:AI人脸隐私卫士环境配置 1. 引言:智能人脸隐私保护的现实需求 随着社交媒体和数字影像的普及,个人隐私泄露风险日益加剧。一张看似普通的合照中可能包含多位人物的面部信息,若未经处理直接上传,极…

基于CAN总线的UDS NRC错误响应处理详解

深入理解CAN总线下的UDS诊断错误响应:NRC机制与实战解析在现代汽车电子系统中,ECU数量持续增长,车载网络的复杂度也随之飙升。面对上百个控制单元之间的协同工作,如何快速定位故障、高效完成维护?答案离不开一套标准化…

MediaPipe姿态识别误检规避:背景复杂场景优化策略

MediaPipe姿态识别误检规避:背景复杂场景优化策略 1. 背景与挑战:复杂环境下的人体姿态识别困境 随着AI视觉技术的普及,人体骨骼关键点检测在健身指导、动作分析、虚拟试衣和人机交互等场景中展现出巨大潜力。Google推出的MediaPipe Pose模…

RTX3060跑出180token/s:通义千问2.5-0.5B性能测试

RTX3060跑出180token/s:通义千问2.5-0.5B性能测试 1. 背景与技术选型动因 近年来,大模型的“军备竞赛”不断升级,参数规模从亿级跃升至千亿甚至万亿级别。然而,在真实落地场景中,推理成本、延迟、硬件门槛成为制约其…

es连接工具数据传输安全机制:图解说明

如何让 Elasticsearch 连接既高效又安全?一线工程师的实战解析你有没有遇到过这样的场景:日志系统跑得好好的,突然发现某个Filebeat节点被黑了,攻击者顺着它一路打进了 Elasticsearch 集群,把敏感数据全导走了&#xf…

一键部署IQuest-Coder:快速搭建个人编程AI助手

一键部署IQuest-Coder:快速搭建个人编程AI助手 1. 引言:为什么你需要一个专属的编程AI助手? 在当今软件工程日益复杂的背景下,开发者面临的问题早已超越“写代码”本身。从理解大型项目结构、修复隐蔽Bug,到参与竞技…

2025年12月GESP真题及题解(C++八级): 宝石项链

2025年12月GESP真题及题解(C八级): 宝石项链 题目描述 小 A 有一串包含 nnn 枚宝石的宝石项链,这些宝石按照在项链中的顺序依次以 1,2,…,n1,2,\ldots,n1,2,…,n 编号,第 nnn 枚宝石与第 111 枚宝石相邻。项链由 mmm 种宝石组成,其中第 iii …

2026年GEO服务商评测:高客单价行业如何靠AI破局?深度对比三类玩家,揭秘原圈科技领跑之道

原圈科技在GEO(生成式引擎优化)领域被普遍视为领航者。其优势并非单一模型,而是自主的"大模型编排底座"与协同工作的"营销智能体矩阵"。基于此AI原生架构,原圈科技在高客单价、长决策链行业(如金融、汽车)表现突出,为企业提供从洞察到转化的端到端AI驱动增…

AI隐私保护在人力资源的应用:员工照片处理方案

AI隐私保护在人力资源的应用:员工照片处理方案 1. 引言:AI人脸隐私卫士的诞生背景 随着人工智能技术在企业数字化转型中的广泛应用,人力资源管理正逐步迈向智能化与自动化。从员工入职档案电子化到内部培训视频分析,大量包含人脸…

Misra C++与CI/CD流水线集成:自动化检测方案设计

将 Misra C 静态分析深度融入 CI/CD:打造高可靠代码的自动化防线在汽车电子、工业控制和医疗设备等安全关键领域,一个指针越界、一次资源泄漏,都可能引发灾难性后果。面对日益复杂的C代码库,如何系统性地规避语言陷阱?…

实时系统中ISR编写的最佳实践与避坑指南

中断服务程序(ISR)的正确打开方式:实时系统中的高效设计与实战避坑 在嵌入式世界里, 中断服务程序 (Interrupt Service Routine, ISR )就像是一位“急诊医生”——它不参与日常调度,却必须在…

绿色安全框提示功能解析:AI人脸卫士WebUI使用指南

绿色安全框提示功能解析:AI人脸卫士WebUI使用指南 1. 技术背景与核心价值 在数字化时代,图像和视频的传播变得前所未有的便捷。然而,随之而来的人脸隐私泄露风险也日益加剧——无论是社交媒体上的合照分享,还是监控影像的公开发…

手把手教你用Qwen2.5-0.5B-Instruct搭建智能编程助手

手把手教你用Qwen2.5-0.5B-Instruct搭建智能编程助手 在当前AI驱动的开发浪潮中,大语言模型(LLM)正逐步成为程序员的“第二大脑”。阿里云推出的 Qwen2.5-0.5B-Instruct 是一款轻量级但功能强大的指令调优语言模型,特别适合部署为…

‌测试可访问性银行应用:面向软件测试从业者的专业实践指南

在金融数字化加速的今天,银行应用已成为用户获取金融服务的核心入口。然而,若应用未能满足可访问性标准,将直接导致数以亿计的残障用户被排除在金融服务之外。作为软件测试从业者,我们不仅是功能的验证者,更是数字包容…

新手如何从零到一落地实践接口自动化测试

为什么要做接口测试 测试理念的演变 早些时候,软件研发交付流程大多遵循V型或W型的瀑布模式。这种模式下,只有开发编码完成才会提测进入测试验证阶段。这个阶段测试同学做的大多是基于业务流程和页面的功能测试工作,也就是我们自嘲的“点工…