多模态大模型Clip

一、经典分类模型的问题:

  1. 类别固定
  2. 当前的模型只能胜任一个任务,迁移到新任务上非常困难
  3. 类别互斥
  4. 当前的CV数据集标注劳动密集,成本较高,
  5. 当前模型泛化能力较差

负样本的组成(Batchsize有N个文本-图像对)

Batchsize太小,负样本太少,训练效果不佳

Batchsize太大,负样本不准

正负样本是在Batchsize内部构造出来

只有对角线为1,其余为0

二、Clip模型的缺点

  1. ·CLIP的zero-shot性能虽然总体上比supervised baseline ResNet-50要好但其实在很多任务上比不过SOTA methods,因此CLIP的transfer learning有待挖掘
  2. ·CLIP在这几种task上zero-shot性能不好: fine-grained分类 (花的分类、车的分类之类的)、抽象的任务 (如计算图中object的个数) 以及预训练时没见过的task (如分出相邻车辆的距离)。Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在OCR中
  3. 生成新的概念(如:词),这是CLIP功能上的缺陷,CLIP终究不是生成模型
  4. ·CLIP的训练数据是从网上采集的,这些image-text pairs没有做data clear和de-bias这可能会使模型有一些social biases;
  5. ·很多视觉任务很难用text来表达,如何用更高效的few-shot learning方法优化CLIP也很重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/615852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Echarts的常用API,以及常用的写法

ECharts是一款基于JavaScript的开源可视化库,用于构建交互式的图表和可视化数据。它提供了丰富的API用于定制图表和处理数据。下面是一些常用的ECharts API和写法的简介: 初始化图表容器: var myChart echarts.init(document.getElementBy…

shp文件与数据库(创建shp文件)

前言 前面把shp文件中的内容读取到数据库,接下来就把数据库中的表变成shp文件。 正文 简单的创建一个shp文件 暂时不读取数据库的表,先随机创建一个shp文件。既然是随机的,这就需要使用到faker这个第三方库,代码如下。 impor…

【控制篇 / 策略】(7.4) ❀ 01. IP地理位置数据库和地理地址对象 ❀ FortiGate 防火墙

【简介】在很多使用环境下,我们需要对指定国家的IP地址进行允许或禁止访问操作,例如只允许访问国内IP。以前只能手动添加IP地址对象到地址组,繁杂且效率低下,Fortinet提供了基于地理位置的IP库,就可以解决这个问题。 I…

UNRAID 优盘制作

使用方法和开心方法: 如果重启之后显示器有信号但是黑屏无法正常引导系统,此为九代以后主板快速开机(快速引导)UNRAID并不支持快速引导所以会直接卡黑屏。所以发现这种情况的时候请进BIOS关闭和开机快速引导或和快有关系的任何开…

2024 IAA增长变现玩法拆解,NetMarvel提出进阶版攻略!

2023年的国内外市场,很多大甲方都表示消极,字节游戏业务高歌猛进后大撤退更是直接震惊了整个行业,更别说第二第三梯队的服务商了。 动荡和低迷的经济局势还没有消散,这给开发者带来接连不断的挑战。 01 市场反馈是正向的&#x…

海外云手机助力企业拓展海外市场

在当前全球化的商业环境中,由于政策限制,许多企业面临着无法顺利将产品推广到国外的困境,使得海外市场的机遇白白流失。而随着科技的不断创新,一种解决企业海外拓展困境的工具应运而生,那就是海外云手机。本文将深入探…

Java中的多线程

进程和线程的概念 进程是应用程序的执行实例有独立的内存空间和系统资源。 线程是进程中执行运算的最小单位,可完成一个独立的顺序控制流程 一。一个进程可以包含多个线程,每个线程都独立执行特定的任务, 是CPU调度和分派的基本单位。 多线…

JAVA数学区间计算,支持开闭区间、百分比、-∞、+∞

import javax.script.ScriptEngine; import javax.script.ScriptEngineManager; import java.math.BigDecimal; import java.math.RoundingMode;/*** 判断数值是否在数学区间范围内** author AnNong* date 2023-04-07*/ public class IntervalUtil {public static ScriptEngine…

前端生成pdf之html2canvas+jsPDF,以及解决图片不显示bug

前端如何生成pdf 开发背景: 需要给页面中相应的内容生成pdf,查找文档后发现要用到两个插件。html2canvas 以及 jsPDF html2canvas 给dom结构转化为canvas,然后生成各种类型图片jsPDF 把canvas 生成的图片url 转化为pdf // 插入图片 pdf.addI…

3.【CPP入门】(深浅拷贝||运算符重载||赋值运算符重载)

一.浅拷贝和深拷贝 1.引入 从上篇博客拷贝构造我们知道拷贝构造要传引用而不能传值,否则会发生无穷递归的情况。 1.若未显示定义拷贝构造函数,系统会生成默认的拷贝构造函数。默认的拷贝构造按内存序完成拷贝,我们称之为浅拷贝(…

python中迭代器的应用

迭代器(Iterator)在Python中是一种用于迭代访问元素的对象,它提供了一种统一的访问集合元素的方式。迭代器通常与可迭代对象(Iterable)一起使用,如列表、元组、字典等。以下是迭代器在Python中的应用场景&a…

开机自启动app

问:在android系统的tv上,用遥控器可以控制光标位置,这是不是有一些监听事件实现的,具体原理是什么 答: 在 Android TV 上,使用遥控器来控制光标位置的功能是通过处理按键事件和焦点控制来实现的。 Andro…

「许战海矩阵战略洞察」从“老干妈”看全国辣椒酱企业的发展战略

引言:老干妈作为辣椒酱行业的领导品牌,虽然市场份额大,但增长缓慢。本文分析了老干妈的成功秘诀和增长挑战,提出了建立组合信任、强化渠道管控和打造第二招牌产品的战略建议。同时,给我国辣椒酱企业提供了佐餐酱和烹饪…

Android Studio安卓读写NFC Ntag标签源码

本示例使用的发卡器&#xff1a; https://item.taobao.com/item.htm?spma1z10.5-c-s.w4002-21818769070.11.3513789erHXVGx&id615391857885 <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout x…

边缘计算的舞台,挑战与机遇相伴

目录 前言 边缘计算保卫战&#xff1a;数据宝藏的隐藏与探索 稳如磐石&#xff1a;保障你的边缘计算宝藏安稳运行&#xff01; 打破时间的桎梏&#xff1a;为边缘计算注入超快速度与实时表演 边缘计算&#xff1a;应对多样性和异构性的酷炫策略大揭秘 边缘计算&#xff1a;释…

中间件:构建现代软件架构的桥梁

一、前言 在当今快速发展的科技领域中&#xff0c;软件系统的复杂性不断增加。为了应对这一挑战&#xff0c;中间件应运而生&#xff0c;成为连接和协调不同软件组件的不可或缺的桥梁。本文将深入探讨中间件的基本概念、作用以及一些常见的中间件类型。 二、中间件的定义 中间…

C#实现Excel合并单元格数据导入数据集

目录 功能需求 Excel与DataSet的映射关系 范例运行环境 Excel DCOM 配置 设计实现 组件库引入 ​方法设计 返回值 参数设计 打开数据源并计算Sheets 拆分合并的单元格 创建DataTable 将单元格数据写入DataTable 总结 功能需求 将Excel里的worksheet表格导入到Da…

02.阿里Java开发手册——日期时间

【强制】日期格式化时&#xff0c;传入 pattern 中表示年份统一使用小写的 y。 说明&#xff1a;日期格式化时&#xff0c;yyyy 表示当天所在的年&#xff0c;而大写的 YYYY 代表是 week in which year&#xff08;JDK7 之后引入的概念&#xff09;&#xff0c;意思是当天所在的…

2023年全国职业院校技能大赛软件测试赛题—单元测试卷④

任务二 单元测试 一、任务要求 题目1&#xff1a;根据下列流程图编写程序实现相应分析处理并显示结果。返回结果“ax&#xff1a;”&#xff08;x为2、3或4&#xff09;&#xff1b;其中变量x、y均须为整型。编写程序代码&#xff0c;使用JUnit框架编写测试类对编写的程序代码…

通义千问AI挑战赛赛后反思

个人理解&#xff1a; 初赛阶段主要聚焦在如何通过 SFT 提升基础模型的代码能力&#xff0c;需要选手基于最新开源的 Qwen 1.8 模型作为基础模型&#xff0c;上分的关键主要通过收集高质量的代码数据提升模型的在Python, JavaScript, Java, Go, C, Rust六种编程语言的代码生成…