基于梯度组合的多任务 / 多目标学习


多任务学习一直是机器学习中的一个诱人愿景:让单个模型同时掌握多项技能,像人类一样举一反三,提升数据利用效率。然而,在现实中,同时学习多个任务,效果有时还不如为每个任务单独训练一个模型。

其核心矛盾在于:不同任务的梯度(指导模型更新的方向)经常“打架”。有的梯度幅值大,有的方向完全相反。简单地将梯度加起来更新,模型就会被大梯度或某个特定任务“带偏”,导致其他任务学不好。

学术界提出了一系列基于梯度组合的方法,它们通过加权、投影、统一符号等方式,调和梯度冲突,并保证梯度优化可以收敛到多任务学习的纳什均衡解。


目录
  • 经典文章
    • [ICML 2018] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
    • [NeurIPS 2018] Multi-Task Learning as Multi-Objective Optimization (MGDA-UB)
    • [NeurIPS 2020] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout (GradDrop)
    • [NeurIPS 2020] Gradient Surgery for Multi-Task Learning (PCGrad)
    • [NeurIPS 2021] Conflict-Averse Gradient Descent for Multi-task learning (CAGrad)
    • [ICML 2022] Multi-Task Learning as a Bargaining Game (Nash-MTL)
    • [NeurIPS 2023] Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms (SDMGrad)
    • [NeurIPS 2023] FAMO: Fast Adaptive Multitask Optimization
  • 将梯度组合方法应用在 LLM 领域

经典文章

[ICML 2018] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

  • arxiv:https://arxiv.org/abs/1711.02257
  • 参考博客:CSDN | GradNorm:多任务学习中的梯度平衡方法

根据各个任务 loss 下降的速度,动态调节每个任务的权重。希望学得慢的任务获得更大的梯度,学得快的任务则减小梯度。

[NeurIPS 2018] Multi-Task Learning as Multi-Objective Optimization (MGDA-UB)

  • arxiv:https://arxiv.org/abs/1810.04650
  • 参考博客:CSDN | MGDA-UB:寻找多任务学习中的帕累托最优,缓解任务冲突问题

是 MGDA 方法的直接改进。

MGDA 希望求解各个梯度\(\nabla_\theta L_i\)之间的凸组合:找权重\(\alpha\)\(\sum_i \alpha_i = 1\),让加权后的梯度\(\|\sum_i \alpha_i \nabla_\theta L_i\|^2\)的二范数最小。

[NeurIPS 2020] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout (GradDrop)

  • arxiv:https://arxiv.org/abs/2010.06808
  • 参考博客:CSDN | GradDrop:让多任务学习不再“梯度拔河”

对于每一个参数,GradDrop 只允许一个“方向”的更新(要么全增加,要么全减少),但保留这个方向上所有的“力量”。与其让正负梯度在“拔河”中相互抵消,不如在每次更新时,统一所有梯度的方向(符号)。

对于每个参数位置,我们汇集所有任务在该处的梯度值,计算一个梯度符号纯度分数。然后,生成一个 0 到 1 之间的随机数,与纯度比较,如果纯度 > 随机数,则保留所有正梯度,丢弃所有负梯度,纯度 < 随机数则相反。

[NeurIPS 2020] Gradient Surgery for Multi-Task Learning (PCGrad)

  • arxiv:https://arxiv.org/abs/2001.06782
  • GitHub:https://github.com/WeiChengTseng/Pytorch-PCGrad
  • 参考博客:CSDN | PCGrad:通过梯度手术,让多任务学习不再“左右互搏”

又是 tianhe yu 的工作。

做了 RL task。

如果两个任务的梯度方向冲突(余弦相似度 < 0,即夹角 > 90°),就把每个梯度投影到另一个梯度的“垂直平面”上,去掉冲突部分。

[NeurIPS 2021] Conflict-Averse Gradient Descent for Multi-task learning (CAGrad)

  • arxiv:https://arxiv.org/abs/2110.14048
  • OpenReview:https://openreview.net/forum?id=61Qh8tULj
  • GitHub:https://github.com/Cranial-XIX/CAGrad
  • MTRL 的 GitHub:https://github.com/facebookresearch/mtrl
  • 参考博客:CSDN | CAGrad:保证收敛到平均损失最小的多任务梯度算法

做了 RL task,好像 RL task 的代码开源了。

CAGrad 在平均梯度附近寻找一个更新方向,让所有任务中损失下降最慢的那个任务 也能得到提升,从而平衡各任务,同时还能保证最终收敛到平均损失的最小值。

[ICML 2022] Multi-Task Learning as a Bargaining Game (Nash-MTL)

  • arxiv:https://arxiv.org/abs/2202.01017
  • GitHub:https://github.com/AvivNavon/nash-mtl
  • 参考博客:CSDN | Nash-MTL:在多任务梯度组合中引入纳什谈判解

做了 RL task。

Nash-MTL 的理论:对各个 task i,希望求解梯度\(\Delta\theta\)最大化\(\sum\log g_i^\top \Delta\theta\)。这样的\(\Delta\theta\)方向是唯一的,模长 原文有说法。

[NeurIPS 2023] Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms (SDMGrad)

  • arxiv:https://arxiv.org/abs/2305.18409
  • GitHub:https://github.com/OptMN-Lab/SDMGrad
  • 主要内容:感觉是 CAGrad 的直接改进,但把 CAGrad 限制梯度一定要在平均 loss 下降方向的一个球内,这个约束换成了 λ 加权的惩罚,因为这个新形式天然允许构造一个无偏的随机梯度估计器。

做了 RL task。

[NeurIPS 2023] FAMO: Fast Adaptive Multitask Optimization

  • arxiv:https://arxiv.org/abs/2306.03792
  • GitHub:https://github.com/Cranial-XIX/FAMO

可能直接有 Nash-MTL 的 MTRL 代码,不确定。

论文还没看。

将梯度组合方法应用在 LLM 领域

以下文章都是发表在质量高的会议上的,在学术的角度,应该可以算正样本。

还没具体看。

  • 🍯 Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models -- 梯度自适应策略优化:迈向大语言模型的多目标对齐
  • 信息:ACL 2025 (main),https://arxiv.org/abs/2507.01915
  • 关键词:将人类价值观对齐问题构建为一个多目标优化问题,梯度自适应策略优化 (GAPO),自适应地重新调整每个目标的梯度,引入用户 preference(权重向量),收敛到一个多目标非支配解,Mistral-7B
  • 🍯 Pareto Multi-Objective Alignment for Language Models -- 语言模型的帕累托多目标对齐
  • 信息:ECML/PKDD 2025,https://arxiv.org/abs/2508.07768
  • 关键词:提出了帕累托多目标对齐(PAMA),将 O(n^2*d) 复杂度降低到 O(n),收敛到一个 Pareto 稳定点,从 125M 到 7B 参数范围
  • 🍯 GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining -- GRAPE: 优化数据混合,以实现群体鲁棒多目标自适应预训练
  • 信息:NeurIPS 2025,https://arxiv.org/abs/2505.20380
  • 关键词:GRAPE 动态调整源域(领域权重)的采样权重,同时调节各个任务的权重,建模为一个极小极大优化问题,实验验证了 ClimbLab、SlimPajama 数据集和多语言目标
  • 🍯 CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models -- CoBa: 用于多任务微调大语言模型的收敛平衡器
  • 信息:EMNLP 2024 (main),https://arxiv.org/abs/2410.06741
  • 关键词:不同任务收敛速度差异巨大,有的先“学完”开始过拟合,有的还几乎没学到,coba 希望各个任务最终一起收敛;计算完全在 loss 级别,避免显式求多任务梯度
  • 🍯 AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models -- AMoPO: 无需奖励模型和参考模型的自适应多目标偏好优化
  • 信息:ACL 2025,https://arxiv.org/abs/2506.07165
  • 关键词:alignment 的目标可以通过输出特性指标(如礼貌性、简洁度、真实性)间接刻画,不一定每个都要 reward 模型;把这些“维度感知的生成指标”当成隐式 reward,构建多目标优化问题;在“偏好权重空间”假设一个高斯分布,动态从中采样权重向量,作为每次更新的标量化权重;7B、14B 和 32B 模型的实验;去掉显式 reward/reference 模型,大幅减轻工程负担
  • 🍯 PiKE: Adaptive Data Mixing for Large-Scale Multi-Task Learning Under Low Gradient Conflicts -- PiKE: 适用于低梯度冲突下大规模多任务学习的自适应数据混合
  • 信息:NeurIPS 2025 spotlight,https://arxiv.org/abs/2502.06244
  • 关键词:多任务梯度其实大部分时间是“低冲突/高度正对齐”的,不是我们在 CV 小模型上常见的那种强负相关场景;估计各任务梯度的期望下降量和方差,推导出每步期望 loss 降低的上界,然后选择能最大化这个上界的任务采样分布(即“下个 batch 选哪个任务的数据”)
  • 🍯 LDC-MTL: Balancing Multi-Task Learning through Scalable Loss Discrepancy Control -- LDC-MTL: 通过可扩展损失差异控制,平衡多任务学习
  • 信息:ICLR 2026 分数 6644,https://arxiv.org/abs/2502.08585
  • 关键词:把 MTL 写成双层优化问题,收敛到 ε‑Pareto stationary 点,同时控制 loss 之间的差距


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1140451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qwen3-VL避坑指南:没GPU也能跑通的3个技巧

Qwen3-VL避坑指南&#xff1a;没GPU也能跑通的3个技巧 引言&#xff1a;为什么你的Qwen3-VL总是跑不起来&#xff1f; 最近阿里开源的Qwen3-VL多模态大模型火遍AI圈&#xff0c;这个能同时理解图像和文本的模型&#xff0c;不仅能识别图片内容&#xff0c;还能帮你操作电脑界…

Qwen3-VL避坑指南:3个常见部署错误+云端一键解决方案

Qwen3-VL避坑指南&#xff1a;3个常见部署错误云端一键解决方案 引言&#xff1a;为什么你的Qwen3-VL总是部署失败&#xff1f; 最近很多开发者反馈&#xff0c;按照官方文档部署Qwen3-VL时频繁遇到CUDA错误&#xff0c;甚至重装系统三次都没解决。这就像组装一台精密仪器——…

HY-MT1.5-7B模型优化:大规模翻译任务调度策略

HY-MT1.5-7B模型优化&#xff1a;大规模翻译任务调度策略 1. 引言 随着全球化进程的加速&#xff0c;跨语言信息流通需求激增&#xff0c;高质量、低延迟的机器翻译系统成为智能应用的核心基础设施。腾讯推出的混元翻译大模型HY-MT1.5系列&#xff0c;正是在这一背景下应运而…

HY-MT1.5应用开发:构建多语言网站翻译插件实战

HY-MT1.5应用开发&#xff1a;构建多语言网站翻译插件实战 随着全球化进程的加速&#xff0c;多语言内容的实时翻译需求日益增长。传统云翻译服务虽成熟稳定&#xff0c;但存在延迟高、隐私泄露风险和网络依赖等问题。腾讯开源的混元翻译模型 HY-MT1.5 正是在这一背景下应运而…

HY-MT1.5-1.8B性能评测:同规模超越商业API的真相揭秘

HY-MT1.5-1.8B性能评测&#xff1a;同规模超越商业API的真相揭秘 在大模型驱动的自然语言处理浪潮中&#xff0c;翻译任务正从传统的统计机器翻译向端到端的大模型范式演进。腾讯近期开源的混元翻译模型 1.5 版本&#xff08;HY-MT1.5&#xff09;引发了业界广泛关注&#xff…

从商业API到开源:HY-MT1.5迁移部署完整教程

从商业API到开源&#xff1a;HY-MT1.5迁移部署完整教程 随着多语言交流需求的不断增长&#xff0c;高质量、低延迟的翻译模型成为企业与开发者关注的核心技术。长期以来&#xff0c;主流翻译能力依赖于商业API&#xff08;如Google Translate、DeepL等&#xff09;&#xff0c…

前端老铁别慌:TS 里用 JS 库的野路子全拆解(附避坑指南)

前端老铁别慌&#xff1a;TS 里用 JS 库的野路子全拆解&#xff08;附避坑指南&#xff09;前端老铁别慌&#xff1a;TS 里用 JS 库的野路子全拆解&#xff08;附避坑指南&#xff09;先说句人话&#xff1a;JS 库就是 TS 项目里的"黑户"为啥 TS 项目非得用 JS 库不可…

Qwen3-VL多模态必看:5个预训练模型对比,3小时省万元

Qwen3-VL多模态必看&#xff1a;5个预训练模型对比&#xff0c;3小时省万元 1. 为什么你需要这份对比指南 作为AI产品经理&#xff0c;当你需要在有限预算和时间内完成多模态模型的技术选型时&#xff0c;最头疼的问题莫过于&#xff1a; 购买多台测试服务器成本太高&#x…

深度测评2026本科论文网站TOP9:开题文献综述全攻略

深度测评2026本科论文网站TOP9&#xff1a;开题文献综述全攻略 学术写作工具测评&#xff1a;为何需要2026年榜单&#xff1f; 随着人工智能技术的不断进步&#xff0c;越来越多的本科生开始依赖AI写作工具辅助完成论文写作任务。然而&#xff0c;面对市场上琳琅满目的平台&…

兽医影像诊断:扩散模型误诊率砍半

&#x1f4dd; 博客主页&#xff1a;Jax的CSDN主页 兽医影像诊断&#xff1a;扩散模型误诊率砍半目录兽医影像诊断&#xff1a;扩散模型误诊率砍半 引言&#xff1a;兽医影像诊断的隐性危机 问题深度&#xff1a;误诊率的根源与系统性困境 技术创新&#xff1a;扩散模型的破局逻…

Qwen3-VL跨平台方案:Windows/Mac都能用,告别CUDA烦恼

Qwen3-VL跨平台方案&#xff1a;Windows/Mac都能用&#xff0c;告别CUDA烦恼 1. 为什么设计师需要Qwen3-VL&#xff1f; 作为一款强大的多模态大模型&#xff0c;Qwen3-VL能够理解图片和视频内容&#xff0c;并生成精准的文字描述。对于设计师团队来说&#xff0c;这意味着&a…

Qwen3-VL长期运行技巧:定时启停+自动伸缩,月省70%成本

Qwen3-VL长期运行技巧&#xff1a;定时启停自动伸缩&#xff0c;月省70%成本 引言&#xff1a;为什么需要智能调度&#xff1f; 作为个人开发者&#xff0c;当你部署了Qwen3-VL这类多模态大模型服务后&#xff0c;最头疼的问题就是GPU资源浪费。实际场景中&#xff0c;用户的…

HY-MT1.5医疗翻译应用:专业术语干预系统部署详细步骤

HY-MT1.5医疗翻译应用&#xff1a;专业术语干预系统部署详细步骤 1. 引言 随着全球医疗交流的日益频繁&#xff0c;跨语言医学文献、病历记录和临床指南的准确翻译成为关键需求。传统通用翻译模型在面对高度专业化、术语密集的医疗文本时&#xff0c;往往出现术语误译、语义偏…

HY-MT1.5-1.8B与7B性能对比:小模型为何能媲美商业API?实战评测

HY-MT1.5-1.8B与7B性能对比&#xff1a;小模型为何能媲美商业API&#xff1f;实战评测 在大模型主导的翻译领域&#xff0c;腾讯混元团队推出的 HY-MT1.5 系列翻译模型却反其道而行之——不仅开源了参数量达70亿的 HY-MT1.5-7B 大模型&#xff0c;还同步发布了仅18亿参数的轻量…

HY-MT1.5-7B推理延迟高?GPU利用率优化实战技巧分享

HY-MT1.5-7B推理延迟高&#xff1f;GPU利用率优化实战技巧分享 在大模型时代&#xff0c;翻译任务正从传统的统计机器翻译向基于大规模预训练语言模型的神经网络翻译演进。腾讯近期开源的混元翻译大模型 HY-MT1.5 系列&#xff0c;凭借其在多语言支持、术语干预和上下文理解方…

【网络安全】逆向入门爆破登录学习,零基础入门到精通,看着一篇就够了!

前言 学习网络安全&#xff0c;首先得知道敌人是如何出手&#xff0c;如何攻击的&#xff0c;才能有针对性的防御。郑重声明&#xff0c;逆向学习的初衷是为了实现网络安全&#xff0c;大家不要用于非法用途&#xff0c;尊重知识产权。 本文根据果核的逆向教程制作&#xff0…

Qwen3-VL低显存优化版:8G云端GPU就能跑,省钱50%

Qwen3-VL低显存优化版&#xff1a;8G云端GPU就能跑&#xff0c;省钱50% 引言 作为一名个人开发者&#xff0c;你是否遇到过这样的困境&#xff1a;想长期运行一个基于Qwen3-VL多模态大模型的小应用&#xff0c;却发现官方推荐的配置需要16GB甚至更高显存的GPU&#xff0c;每月…

HY-MT1.5性能深度评测:延迟、吞吐量与成本

HY-MT1.5性能深度评测&#xff1a;延迟、吞吐量与成本 1. 引言 随着全球化进程的加速&#xff0c;高质量、低延迟的机器翻译需求日益增长。腾讯近期开源了其混元翻译大模型1.5版本&#xff08;HY-MT1.5&#xff09;&#xff0c;包含两个核心模型&#xff1a;HY-MT1.5-1.8B 和…

Qwen3-VL移动端适配:先用云端GPU验证,再考虑优化

Qwen3-VL移动端适配&#xff1a;先用云端GPU验证&#xff0c;再考虑优化 引言&#xff1a;为什么移动端适配要先从云端开始&#xff1f; 当你所在的App开发团队考虑将Qwen3-VL大模型部署到手机端时&#xff0c;直接开始移动端优化就像在没有设计图的情况下盖房子——可能白费…

HY-MT1.5法律翻译案例:合同条款精准互译部署流程

HY-MT1.5法律翻译案例&#xff1a;合同条款精准互译部署流程 在人工智能驱动的全球化背景下&#xff0c;高质量、低延迟的机器翻译已成为跨语言业务协作的核心基础设施。尤其在法律、金融等专业领域&#xff0c;对术语一致性、上下文连贯性和格式保真度的要求极高。传统通用翻…