【电子科大-Li Xin组-AAAI26】用于图像恢复的测试时偏好优化


文章:Test-Time Preference Optimization for Image Restoration

代码:暂无

单位:电子科技大学


一、问题背景:技术达标易,贴合偏好难

图像修复(IR)的核心是去除模糊、噪声、雨雾等失真,还原高质量图像,常见任务包括去噪、去模糊、超分辨率、低光增强等。

传统修复模型大多用L1、MSE等损失函数训练,追求像素级的精准还原,往往能拿到不错的PSNR等技术分数,但容易产生“过度平滑”的问题;即便近年出现了零样本修复方法,能应对未知失真,却依然没解决一个关键问题——和人类审美偏好脱节

更麻烦的是,要让模型贴合人类偏好,要么需要大量人工标注的偏好数据(耗时耗力,目前还没有专门的图像修复偏好数据集),要么得重新训练模型(成本高,还不兼容不同架构的修复模型),这让“让AI修图符合人类审美”成为行业难题。

二、方法创新:三步式TTPO,测试时就能优化偏好

针对这些痛点,研究团队提出了首个“测试时偏好优化”范式——TTPO(Test-Time Preference Optimization),核心是“不重训模型、不额外收集数据”,在测试阶段就能让修复图贴合人类偏好,整体分为三个关键步骤:

1. 在线生成候选图:给修复图找“风格变体”

以任意修复模型输出的图片为基础,用预训练扩散模型(如SD2.1、SD3、FLUX)做“轻量编辑”。通过控制添加噪声的强度(限制在0.1-0.3之间,避免破坏图像结构),生成一批风格、细节不同的候选图片,相当于给原始修复图找了多个“审美变体”。

2. 智能筛选偏好图:用AI代替人工选“好看的”

不用人工逐一挑选,而是融合MUSIQ、MANIQA、Q-Align三种贴近人类感知的图像质量评估指标,给所有候选图打分排序,自动选出“最符合偏好”的图片(赢样本)和“最不符合偏好”的图片(输样本),既高效又能贴近人类判断。

3. 定向优化修复图:顺着偏好微调细节

以原始修复图为基础,用扩散模型的去噪过程做优化——把“赢样本”和“输样本”作为奖励信号,让模型在去噪时“向好看的靠拢、避开不好看的”,同时通过频率分解技术,保证图像结构不跑偏(低频率部分保结构,高频率部分优细节)。

整个过程不用修改原始修复模型,相当于给任何修复工具加了一个“审美优化插件”,兼容性拉满。

三、实验结果:多项任务验证,审美与性能双提升

研究团队在6类主流图像修复任务(去噪、超分辨率、去雨、低光增强等)、多种模型上做了全面测试,结果相当亮眼:

1. 量化指标:全面超越原始修复图

在MUSIQ、MANIQA等多个评估指标上,TTPO优化后的图片(yTTPO)几乎全方面超过原始修复图(y0),部分任务甚至能超越人工筛选的“赢样本”(yw),证明优化效果不仅贴合偏好,还能提升客观质量。

2. 主观体验:细节更自然,结构不跑偏

对比原始修复图,TTPO优化后的图片纹理更真实——比如人物头发、牙齿的呈现更自然,不会出现扭曲线条等 artifacts;而单纯的“赢样本”虽然有时细节更细,却容易破坏图像结构(如门的位置偏移),TTPO则完美平衡了“审美”和“结构一致性”。

3. 对比主流方法:优势明显

和DDRM、DDNM等零样本修复优化方法相比,TTPO在256×256分辨率测试中,多项指标拿下第一或第二,充分证明偏好引导的有效性;甚至能和这些方法结合,形成“修复+优化”的两阶段方案,让老照片等场景的修复效果更惊艳。

4. 用户研究:专家认可度高

8位拥有3年以上低视觉研究经验的专家参与测试,结果显示:TTPO基于人类偏好优化的图片,70.31%的情况下优于原始修复图,和基于指标筛选的优化结果胜率接近50%,说明自动筛选机制能精准贴合人类判断。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  1. 兼容性强:不用重训模型,能无缝对接任何图像修复 backbone,不管是CNN、Transformer还是扩散模型,都能直接用。

  2. 零数据成本:不用收集人工偏好数据集,候选图和偏好筛选都在线完成,落地门槛低。

  3. 兼顾审美与结构:通过频率分解和阶段式优化,既提升视觉偏好,又不破坏图像原有结构,符合修复任务的核心要求。

  4. 灵活可调:可以选择不同的扩散模型(FLUX画质优、SD3速度快),适配不同场景需求。

现存局限

  1. 计算成本较高:用FLUX等模型做优化时,需要较多计算资源, runtime相对较长,大规模应用或处理超大图时效率有待提升。

  2. 偏好筛选有偏差:目前依赖的NR-IQA指标虽然贴近人类感知,但仍不能100%还原人类主观判断,部分场景下可能出现“指标好但不好看”的情况。

五、一句话总结

TTPO通过“生成-筛选-优化”的三步式测试时优化,首次实现了无需重训模型、无需额外偏好数据的图像修复审美对齐,让任何修复工具都能快速具备“懂人心”的能力,为图像修复技术走向实用化、个性化提供了新路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1166459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencode函数拆分建议:复杂逻辑模块化重构实战案例

opencode函数拆分建议:复杂逻辑模块化重构实战案例 1. 引言 随着AI编程助手在开发流程中的深度集成,如何高效利用这类工具进行代码质量提升成为开发者关注的重点。OpenCode作为2024年开源的终端优先AI编码框架,凭借其多模型支持、隐私安全设…

小白也能玩转AI数学!DeepSeek-R1-Distill-Qwen-1.5B保姆级教程

小白也能玩转AI数学!DeepSeek-R1-Distill-Qwen-1.5B保姆级教程 1. 引言:为什么你需要一个轻量级数学推理模型? 在当前大模型动辄数十亿甚至上千亿参数的背景下,部署成本高、运行环境要求苛刻成为普通开发者和边缘设备用户的现实…

用自然语言定制专属语音|基于Voice Sculptor大模型快速合成

用自然语言定制专属语音|基于Voice Sculptor大模型快速合成 1. 技术背景与核心价值 近年来,语音合成技术经历了从规则驱动到数据驱动的深刻变革。传统TTS系统依赖于复杂的声学建模和大量标注语音数据,而新一代指令化语音合成模型则通过大模…

CV-UNet抠图模型应用:游戏素材

CV-UNet抠图模型应用:游戏素材 1. 引言 在游戏开发与美术资源制作过程中,高质量的图像抠图是不可或缺的一环。无论是角色立绘、技能图标还是UI元素,都需要将主体从背景中精准分离,以支持多场景复用和动态合成。传统手动抠图效率…

YOLOv13部署踩坑记录:这些错误千万别犯

YOLOv13部署踩坑记录:这些错误千万别犯 在深度学习项目中,模型部署是连接算法研发与实际应用的关键环节。YOLOv13作为最新一代实时目标检测器,凭借其超图增强的感知机制和全管道信息协同设计,在精度与速度之间实现了新的平衡。然…

BGE-M3实战:密集+稀疏+多向量混合检索模型应用指南

BGE-M3实战:密集稀疏多向量混合检索模型应用指南 1. 引言 1.1 业务场景描述 在现代信息检索系统中,单一模式的文本嵌入方法已难以满足多样化的搜索需求。传统密集检索(Dense Retrieval)擅长语义匹配,但在关键词精确…

RexUniNLU企业案例:智能客服工单分类系统

RexUniNLU企业案例:智能客服工单分类系统 1. 引言 1.1 业务背景与挑战 在现代企业服务架构中,客服系统每天需要处理大量用户提交的工单。这些工单内容涵盖产品咨询、故障报修、账户问题、投诉建议等多个维度,形式多样且语义复杂。传统的人…

设备树下SDIO外设配置的操作指南

从零开始:如何在设备树中正确配置SDIO外设并让Wi-Fi模块“活”起来你有没有遇到过这种情况——硬件工程师拍着胸脯说“所有线路都通了”,结果上电后系统死活识别不了那颗价值不菲的Wi-Fi芯片?日志里反复打印着mmc0: timeout waiting for SDIO…

AUTOSAR详细介绍之DaVinci Configurator使用指南

深入理解AUTOSAR:DaVinci Configurator实战全解析 汽车电子系统的复杂性正在以前所未有的速度增长。一辆高端车型中可能包含超过100个ECU(电子控制单元),运行着数千万行代码。面对如此庞大的系统,传统“手写驱动硬编码…

CD-HIT怎么用?5步让你从菜鸟变高手的保姆级教程

CD-HIT怎么用?5步让你从菜鸟变高手的保姆级教程 【免费下载链接】cdhit Automatically exported from code.google.com/p/cdhit 项目地址: https://gitcode.com/gh_mirrors/cd/cdhit 还在为海量生物序列数据发愁吗?CD-HIT这个生物信息学神器能帮你…

高效掌控华硕笔记本性能:GHelper智能控制工具完全指南

高效掌控华硕笔记本性能:GHelper智能控制工具完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址…

Qwen对话响应慢?Token限制优化实战教程提升效率

Qwen对话响应慢?Token限制优化实战教程提升效率 1. 引言 1.1 业务场景描述 在实际的AI服务部署中,开发者常常面临一个两难问题:既要保证模型功能丰富(如支持情感分析、开放域对话等),又要确保推理响应速…

Arduino CAN库:让嵌入式项目轻松接入CAN总线通信

Arduino CAN库:让嵌入式项目轻松接入CAN总线通信 【免费下载链接】arduino-CAN An Arduino library for sending and receiving data using CAN bus. 项目地址: https://gitcode.com/gh_mirrors/ar/arduino-CAN Arduino CAN库是一个专为Arduino平台设计的强大…

轮[特殊字符]机器人学习笔记

最近,为了填埋心中对于轮🦵机器人的执念,趁下班之余开始学习五连杆的机器人。 平衡步兵主要有几个大的难关:1.机器人的运动学(正解部分 逆解部分) 2.机器人的动力学(将机器人的五连杆转化为一个…

性能优化:Qwen3-4B-Instruct推理速度提升技巧

性能优化:Qwen3-4B-Instruct推理速度提升技巧 1. 背景与挑战 随着大语言模型在实际业务场景中的广泛应用,推理延迟和吞吐量成为影响用户体验的关键指标。Qwen3-4B-Instruct-2507作为阿里开源的高性能文本生成模型,在指令遵循、逻辑推理、多…

5大实用功能深度解析:Steam挂刀工具如何帮你省钱又省心

5大实用功能深度解析:Steam挂刀工具如何帮你省钱又省心 【免费下载链接】SteamTradingSiteTracker Steam 挂刀行情站 —— 24小时自动更新的 BUFF & IGXE & C5 & UUYP 挂刀比例数据 | Track cheap Steam Community Market items on buff.163.com, igxe.…

FunASR语音识别案例解析:如何提升中文识别准确率300%

FunASR语音识别案例解析:如何提升中文识别准确率300% 1. 背景与挑战:中文语音识别的现实困境 在智能语音交互、会议记录、客服质检等场景中,高精度的中文语音识别(ASR)是实现自动化处理的核心能力。然而,…

终极指南:轻松掌握Solo-Learn自监督学习框架

终极指南:轻松掌握Solo-Learn自监督学习框架 【免费下载链接】solo-learn solo-learn: a library of self-supervised methods for visual representation learning powered by Pytorch Lightning 项目地址: https://gitcode.com/gh_mirrors/so/solo-learn S…

风扇控制终极指南:从零开始打造完美散热系统

风扇控制终极指南:从零开始打造完美散热系统 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanContr…

IQuest-Coder-V1与CodeGen对比:多步推理能力全面评测

IQuest-Coder-V1与CodeGen对比:多步推理能力全面评测 1. 选型背景与评测目标 在当前代码大语言模型(Code LLM)快速演进的背景下,开发者对模型在复杂编程任务中的多步推理能力提出了更高要求。无论是自动化软件工程、代码补全&am…