通用视觉大模型调研

humanbench

  • HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining;
  • 为了解决不同任务之间的conflict以及不同dataset之间的差异(相同任务),提出PATH,backbone是所有任务共享、projector是任务级别共享的、head是dataset级别共享的,也就是普通多任务+task specific projector+dataset specific head;
  • projector: attention module(channel atten(senet) + spatial atten(self atten))(atten feature of specific task) + gate module(fuse featrue of different layer);
    在这里插入图片描述

UniHCP

  • UniHCP: A Unified Model for Human-Centric Perceptions
  • transformer encoder不分任务提取特征
  • transformer decoder + task-specific query关注特定任务的特征
  • task guided interpreter
    在这里插入图片描述

Uni-Perceiver

  • Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks;
  • 人类通过同时处理多模态的数据来感知这个世界,这个过程是多任务的,但是当前的机器学习方法关注于一个任务,本文建立了一个统一的框架,将输入和target经过task-agnostic transformer encoder和task-specific tokenizer来将不同任务不同模态的表示统一到一个空间,之后再训练的过程中使用寻找最大相似的目标的准则进行
  • 主要解决的问题是当前的大模型针对每一个任务都有自己的head,随着任务的增加都要为其定制head以及获取对应的训练数据;
  • 整体思路是将所有的任务共性抽象出来,将输入和目标都统一到同一个空间,寻求输入和对应输出匹配的最大似然概率,此处使用余弦相似度来计算;
  • 首先将不同模态的输入数据和目标使用modality-specific tokenizer来产生token sequence,之后input token seq和target token seq都送到transformer encoder中转换到同一个空间,目标是寻求匹配的最大似然概率;
  • 针对不同数据有不同的tokenizer;
    在这里插入图片描述

Uni-Perceiver-MoE

  • Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
  • 主要解决的问题是不同的任务在general model的训练过程中会相互产生不好的影响,使用conditional MoEs来解决
    在这里插入图片描述
  • transformer原来的FFN层和linear projection层被MoEs取代,主要是一个gate操作,将部分的输出变为0,相当于选择了特定的子网络,但是是自适应的;

Florence

  • Florence: A New Foundation Model for Computer Vision
  • 主要解决的问题针对当时视觉基础模型的模态仅仅是text和image(CLIP等),扩展了模态,从小物体到大场景,从静态到动态,从单图像到加上深度图等等;由此针对增加的模态增加了新的模块来利用,以利于下游任务;
    在这里插入图片描述

FLAVA

  • FLAVA: A Foundational Language And Vision Alignment Model
  • 主要解决CLIP等cross modal模型数据不开源,现有模型单使用使用cross model或者modal fuse,无法同时应对unimoal,cross modal和multi modal的情况,在image-text对数据上提出新的训练策略
  • 分为三个部分,针对图片uni modal的transformer+针对text uni-modal的transformer+针对multimodal的损失,这样就可以同时处理单模态以及多模态任务
    在这里插入图片描述

INTERN

  • INTERN: A New Learning Paradigm Towards General Vision
  • 主要解决之前的通用模型不够通用的问题,提出了新的训练范式
  • 分为数据、网络结构以及下游任务三个部分,有down adaptation来使得任务更好的应对下游任务,主体网络部分分为三个阶段,amateur+expert+generalist
    在这里插入图片描述

M3I-pretraining

  • Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information
  • 主要针对的问题是现在有很多种训练方法,例如全监督、弱监督、自监督,有很好的效果,有一些方法通过多阶段的方式结合使用这些方法,但是这种结合使用的方式有一个问题是当整个训练流程走完以后假如结果不好,无法确定是哪一个stage的问题,提出的解决方法就是只用一个统一的stage
    在这里插入图片描述

GRADNORM

  • GRADNORM: GRADIENT NORMALIZATION FORADAPTIVE LOSS BALANCING IN DEEP MULTITASKNETWORKS
  • 主要解决的是多任务训练不好收敛的问题,可以一个损失量级大的任务占了主导地位,gradnorm调和了不同任务的损失,使不同损失的量级相同
  • 通过增加一个新的gradiant loss,这个损失的定义是每个任务的梯度和总的梯度的l1正则之和,最终得到的效果是不同任务的梯度量级相同,降低损失降低快的下降速度,提高损失降低慢的下降速度,达到调和的目的https://zhuanlan.zhihu.com/p/378533888,https://zhuanlan.zhihu.com/p/570751177 ,其中第一项是单任务的损失带权梯度,第二项是不同任务的损失带权梯度,r表示的值和学习速度成反比https://zhuanlan.zhihu.com/p/470955143
  • 实现https://github.com/brianlan/pytorch-grad-norm
  • 两个损失,多任务损失和梯度损失独立更新,梯度损失是权重的函数,达到对权重更新的目的
    在这里插入图片描述

Dynamic Task Prioritization for Multitask Learning

  • 针对多任务训练,主要是动态的关注于更加困难的任务,分为两个级别,一个是样本级别,类似于focal loss,另一个是任务级别,关注于困难任务,通过指定kpi开完成,kpi取值0-1,和任务的困难程度成反比,任务的困难程度和损失的权重成正比https://zhuanlan.zhihu.com/p/71012037 ;

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

  • 针对多任务训练,根据不确定性来确定损失的权重http://www.liuxiao.org/2020/07/multi-task-learning-using-uncertainty-to-weigh-losses-for-scene-geometry-and-semantics/
  • 一种正则化方法
  • 两个回归问题多任务
    在这里插入图片描述
  • 回归+分类
    在这里插入图片描述
  • 两个sigma都是可学习的参数
  • 代码https://github.com/yaringal/multi-task-learning-example/blob/master/multi-task-learning-example.ipynb

End-to-End Multi-Task Learning with Attention

  • https://zhuanlan.zhihu.com/p/82234448
  • 实现https://github.com/lorenmt/mtan
  • humanbench和这个很像,在共享特征之后加上了task spetial的attention模块来聚焦任务相关的特征
  • 采用dynamic weight average来决定损失的权重,和gradnorm的思路很像

Multi-Task Learning as Multi-Objective Optimization

  • 将多任务转变为多目标优化问题,Pareto optimality是指一组参数,没有另一组不同的参数会使损失值更小,非劣解是指不存在一个最优解的情况下所有的可能解,Pareto最优解——无法在改进任何目标函数的同时不削弱至少一个其他目标函数。这种解称作非支配解或Pareto最优解。
    在这里插入图片描述
  • Multiple Gradient Descent Algorithm(MGDA)来解决MTL Parato optimality

Gradient Surgery for Multi-Task Learning

  • 当不同任务的梯度方向相反的时候,将梯度更新为处理之后的梯度

MOE, MMOE, SNR, PLE, MOSE, MTDNN, ESSM

  • 工业界多任务学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/820831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个开源的全自动视频生成软件MoneyPrinterTurbo

只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。 一:功能特性 完整的 MVC架构,代码 结构清晰,易于维护,支持 API 和 Web界面…

DOS命令第二篇

雷迪斯and the乡亲们 欢迎你们来到 奇幻的编程世界 一、echo命令 作用: 输出一个内容到终端 格式: echo 要输出的内容 案例: 直接输出一个“你好” 二、ping 概念: 在网络中通信的时候,主机之间进行通信依靠…

转行或者跳槽入职一家新公司,应该如何快速上手工作?

不管是干测试也好或者其它任何职业,没有谁会在一家公司待一辈子,转行不一定,但是跳槽是每一个打工人早晚都会面临的事情,今天就来跟大家聊聊这件事~ 入职一家新公司,你应该做什么可以最快速的上手工作? 这…

App Inventor 2 如何预览PDF文档?

预览PDF文档的方式 你可以使用Activity启动器查看已存储在你的设备上的 pdf 文档,也可以使用Web客户端通过网址URL打开 pdf 文档。 App Inventor 2 可以使用 .pdf 扩展名从程序包资产中查看 pdf 文件,不再需要外部 pdf 查看器! 代码如下&a…

车载摄像头畸变校正解决方案,打造无畸变高清视界

在车载摄像头日益普及的今天,摄像头图像的畸变问题成为了制约图像质量提升的一大瓶颈。畸变不仅影响画面的美观度,更关键的是它可能导致智能驾驶系统对环境的误判,进而威胁到行车安全。美摄科技凭借其在图像处理领域的深厚实力,推…

中东跨境电商平台Noon注册开店步骤详解

中东地区,素以“满地富豪”闻名,同时拥有发达的电子商务环境与较高的居民消费水平,吸引了大量跨境电商从业者前来寻求商机。其中,Noon作为中东地区颇具人气的电商平台,自然而然成为了众多卖家开拓中东市场的首选平台。…

Flex布局(秒懂弹性盒子的使用)

目录 一、Flex介绍 1.概念 主要概念: 2.Flex容器属性 3.Flex项目属性 4.优势 二、Flex使用 1.弹性盒子内容 2.flex-direction 语法 3.justify-content 属性 4.align-items 属性 语法 5.flex-wrap 属性 语法: 6.align-content 属性 语法&am…

jetson系列开发板使用虚拟机烧录系统时,遇见无法识别开发板的情况

在双系统中的ubuntu系统烧录没问题,但是电脑Ubuntu系统由于版本低,所以没有网络,烧录起来还的连网线,所以问了开发板的工程师,所幸,解决了问题,很感谢工程师的指导,特此记录一下&…

【研发日记】CANoe自动化测试的配置方式(三)——SystemVariables数组方式

文章目录 前言 一、例程功能 二、仿真ECU 三、SystemVariables数组: 四、测试模块 五、测试运行效果 六、分析和应用 总结 前言 近期在做的一个自动化测试项目,尝试了一种以前没用过的测试配置方式,感觉效果还不错。然后又回顾了一下以…

JVM主要知识点详解

目录 1. 性能监控和调优 1.1 调优相关参数 1.2 内存泄漏排查 1.3 cpu飙⾼ 2. 内存与垃圾回收 2.1JVM的组成(面试题) 2.2 Java虚拟机栈的组成 2.3 本地方法栈 2.4 堆 2.5 方法区(抽象概念) 2.5.1 方法区和永久代以及元空…

阿里云服务器8核16G配置最新租用收费价格表与优惠价格

8核16G配置是大部分企业级用户购买阿里云服务器的首选配置,2024年经过调价之后,8核16G配置的阿里云服务器按量收费标准最低为0.9元/小时,按月租用平均优惠月价最低收费标准为432.0元/1个月,按年购买最低活动价格为1803.17元/1年&a…

Avalonia中嵌入网页程序(CefNet)

Avalonia中嵌入网页程序cefNet 1. 引入CefNetNuget包2. 下载 cef 基础环境3. 将cef基础环境放入程序运行目录下4. 代码中初始化cef5. 添加Webview控件6. 在窗口关闭的时候释放Cef7. 项目结构图CefNet 开源的作者已经停止维护并删除了原始的代码库:GetHub:CefNet,Nuget上还有发…

# ABAP SQL 字符串处理-CONCATCAST

经常我都要在ABAP的sql语句中对字符串进行处理,现在就总结一下可以用到的方法 文章目录 字符串处理拼接字段运行结果 填充字符串运行结果 截取字符串 SUBSTRING运行结果 CAST转换类型程序运行结果 CAST 转换成 DATS类型(日期) 字符串处理 在…

【c语言】结构体的访问

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:C语言 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步&…

webIDE jupyternotebook中添加虚拟环境

困扰了我好久啊啊啊终于可以了,好了步入正题: 首先参考这个博客 指路 但是有一些错误,就是我添加我的虚拟环境时显示权限不够 我就在这一步前面加上了sudo python -m ipykernel install --nameyour_env_name(虚拟环境名)但是又显示 sudo: p…

DIY可视化实现仿抖音短视频代码生成器

DIY可视化实现仿抖音短视频代码生成器,仿抖音短视频兼容uniapp、微信小程序 丝滑切换视频效果,无限数据加载不卡顿,高性能滑动不卡顿超流畅,观看视频丝滑切换,页面内容自定义,无限数据加载不卡顿。 在线设…

简单3步,OpenHarmony上跑起ArkUI分布式小游戏

标准系统新增支持了方舟开发框架(ArkUI)、分布式组网和 FA 跨设备迁移能力等新特性,因此我们结合了这三种特性使用 ets 开发了一款如下动图所示传炸弹应用。 打开应用在通过邀请用户进行设备认证后,用户须根据提示完成相应操作&am…

入局新能源车赛道 深象智能智慧门店方案落地极氪全国门店

继商超、商场、校园场景后,银泰商业集团旗下科技公司深象智能科技入局新能源汽车赛道。4月16日,深象智能科技与极氪智能科技达成战略合作。该公司研发的软硬件一体化“智慧门店”解决方案,将应用于极氪全国门店。 (图:…

如何将Oracle 中的部分不兼容对象迁移到 OceanBase

本文总结分析了 Oracle 迁移至 OceanBase 时,在出现三种不兼容对象的情况时的处理策略以及迁移前的预检方式,通过提前发现并处理这些问题,可以有效规避迁移过程中的报错风险。 作者:余振兴,爱可生 DBA 团队成员&#x…

WEB前端-笔记

目录 一、字体 二、背景图片 三、显示方式 四、类型转换 五、相对定位 六、绝对定位 七、固定定位 八、Index 九、粘性定位 十、内边距 十一、外边距 十二、边框 十三、盒子尺寸计算问题 十四、清楚默认样式 十五、内容溢出 十六、外边距的尺寸与坍塌 十七、行…