网页设计需要什么seo织梦网站建设步骤
news/
2025/9/23 17:15:52/
文章来源:
网页设计需要什么,seo织梦网站建设步骤,电商一年可以赚多少钱,淄博网站制作高端营销在此整理并记录自己的思考过程#xff0c;其中不乏有一些尚未成熟或者尚未实现的idea#xff0c;也有一些idea实现之后没有效果或者正在实现#xff0c;当然也有部分idea已写成论文正在投稿#xff0c;都是自己的一些碎碎念念的思考#xff0c;欢迎交流。
研一上学期
9.…在此整理并记录自己的思考过程其中不乏有一些尚未成熟或者尚未实现的idea也有一些idea实现之后没有效果或者正在实现当然也有部分idea已写成论文正在投稿都是自己的一些碎碎念念的思考欢迎交流。
研一上学期
9.18现有思路 1.用pretrain好的MAE采用不同的遮挡方式或者遮挡比例固定或者不固定随机或者block-wise生成不同遮挡方式下的特征相当于单张图片的样本扩充。 2.采用对比学习的方式对生成的图片进行训练。
9.19晚上想法 图片相对于自然语言来说有很多冗余的信息那么这些冗余的信息一定是没用的信息吗我所做的工作就是充分的利用这些看似冗余的信息只用这些信息的一部分去生成同一张图片相似的特征这些特征相对于原图来说是和原图很像的比我我给你一张老虎的图片我变来变去都不会变成狗生成的图片肯定也是个老虎。
9.20中午想法 用MAE去生成特征只训练MLP层。 或者我只用MAE生成图片当做样本放到Swim中去。
9.21下午 我们实现的网络能将看过的图片生成与之近似的图片类似于当一个小孩看见一个狮子在他的脑海里肯定不是准确的无比清晰的记忆但是他能在他再次看到狮子的时候一眼就认出来这是狮子这就很符合小孩子看到新事物的原理。
9.21晚上 对于query要使用不同的特征生成的encoder采用对比学习的思想。或者采用相同的encoder也采用MAE然后生成很多个最后获得一个总的评分。 也就是说我只需要训练最后的MLP层调整生成的特征图的哪个与我positive更像。
是不是说如果生成10张图片类似的图片要用到10个MAE才能使这些特征是类似的
9.22早上 研究训练集研究总体的训练过程
9.22晚上 可以把同一张图片复制很多份输入到mae模型中得到不同的表示。
9.23上午 直接先用MAE做数据增强看效果
9.26下午 我可以利用遮挡的方式和gan一样对同一张图片生成很多的与之类似的图片但是没有必要我只需要生成特征同时我生成的不是普通的特征是经过学习的与原图相似的特征。
9.27晚上 对十张图片加权之后变成一张图片然后使用建新的结构 我不是单独的在图像生成数据增强上进行改进也不是单独对特征提取阶段进行改进我是将两个阶段进行融合自适应的去生成特征。
有两处对比学习的loss对比生成图像和原图像的loss还有正类和负类之间的loss 我生成的这个特征代表更多的与这张特征图同类的的图片。
10.2上午 最终确定了两个方案 方案一 只使用预训练好的MAE作为特征提取器采用将随机遮挡固定的方式生成embedding相当于起到扩充数据集的作用防止因数据少带来的过拟合。
方案二 对同一张图片使用多次MAE将MAE的后几层的参数设置为可以更新目的是去学习与原图相似的embedding解决过拟合。
10.3想法 两个对比学习的损失 1.生成的embedding与原图的对比学习的损失。 2.positive之间的对比学习的损失。
这两个loss可以写在一个函数里相当于对原loss的修改与query变成patch的那篇论文类似
还需要解决的把MAE的随机遮挡变成固定遮挡形成可学习的MAE的encoder。
MAE的得到的特征并不可靠需不需需要设置一个置信度来筛选得到的特征
10.4想法 方案三用MAE生成重构图片直接放到原型网络的训练集中。
方案四用原型网络线性探测后正确的结果放到MAE的训练集中。 也可以直接用线性探测好的特征。
方案五可不可以利用Rethinking Few-Shot Image Classification: a Good Embedding Is All You Need?的训练方式改变元学习的训练策略
10.5想法 固定的75%比例的遮挡。 利用mae做跨域训练的时候训练出一个特征提取器测试的时候生成support中的图片进行扩充解决样本少的问题。 mae能实现图像复原的主要原因是对遮挡patch的还原得益于transformer强大的全局建模的能力
二分图匹配是一对一的匹配其约束性更强能不能重新划分小样本的episodic以达到更好的效果
10.6晚上想法 要不要试一试其他的度量的方式
我现在要做的是扩充这个子空间使得这个子空间的的同时泛化能力更强同时使用对比学习的方式让这个子空间更为精确。
原型网络是不是并不能发挥出扩充support set的优势
尝试其他的利用子空间的方式用他的代码做为baseline
但是总觉得原型网络并不能发挥我idea的优势感觉子空间更加适合。
还是要固定遮挡固定的网格状的不同形式的遮挡因为只有这样对比学习才能发挥作用才能通过学习让每种形式的遮挡最后得到的图片和原图更加相似。
使用原型网络能让得到的原型更加精确吗
我的目标扩充子空间的同时让子空间中的点更加聚集。
10.7早上 尝试知识蒸馏的那篇文章的训练方式在测试的时候扩充有标签的数据防止过拟合。
10.10下午 把深度学习可解释性的东西用到自己的任务中。
10.11下午 将对比学习的encoder不断变化的网络MoCo引入到support set中
10.15早上 图片中有大量的冗余的特征MAE证明我们只需要25%的图片信息就能很好的将图片进行还原也就是说我只需要25%的特征就能对图片进行表示。 那么我把这个特性应用到小样本学习中去我尝试不同的是遮挡方式每次都遮挡25%或者是更多我就能根据每次采用的遮挡方式的不同和遮挡比例的不同对同一张图片得到更多的对于这个图片的信息我充分利用这些信息相当于我把这些图片的所有的冗余的信息全部都利用起来了进而解决了小样本特征不足的问题。 至于这些信息如何运用我们可以吧把这些从同一张图片上提取的信息一个特征向量作为同一类然后再进行训练。 这个方法对比以前的方法以前的方法一张图片只能生成一个特征而我这种方法使用同一种图片能生成很多特征。
也可以采用很多特征提取器来作为特征但是那样开销太大不如只用MAE去提取特征。
motivation:图片相对于自然语言来说有很多的冗余信息我们在进行图片分类的时候如何才能充分利用这些冗余的信息
idea针对于小样本学习的特征较少所以我要充分的利用原本就不多的图片中的所有的信息而MAE能用25%的图片信息就能代表整张图片那么我是不是可以重复的利用MAE来得到同一张图片的不同的25%的特征进而我可以利用生成的不同的特征来进一步的应用到图片分类上得到的不同特征可不可以看成是正样本然后其他的看做是负样本采用对比学习的损失
改进上述idea的想法 把随机采样改成固定的采样因为随机采样不可控很可能采样相同的区域还是造成了信息的冗余。固定采样可以采取block-wise的方式比如MAE原文中说block-wise比例为50%的时候效果很好那么是不是可以采用不同的遮挡50%的方式通过MAE的encoder学习之后进行数据增强呢
10.17下午 query set 也可以通过MAE进行增强之后 变成一个原型只需要与support进行相似的操作。
10.18上午 如果mae有效果的话再将mae用到其他的基于度量学习的方法上必须匹配网络和关系网络。 将mae用到基于学习一个embeding不划分eposipe把全部的数据放一起训练的方法上进行测试。 将mae用到跨域的场景下看效果。
10.20下午想法 为什么5-way5-shot的效果要比5-wayone-shot的效果好很多是因为更多的图片使得特征提取器更有效 还是说图片多了后使得计算出来的原型更加鲁棒
10.22 idea1 可不可以将对比学习中的动量更新encoder的方法引入到小样本中 idea2 在用三元组的时候可不可以将d同时与d和d-计算距离来的到损失而不是分别单独的计算距离。 idea3 在计算损失函数的时候将两张正样本成一对和两张负样本成一对改成选择用三张图片作为一个整体进行计算合并成一个公式。 idea4 一个有希望的方向是在设计FSL方法时考虑使用多模态信息。 idea5 将对比学习的思想应用到小样本检测中。 idea6 数据量与归纳偏置成反比所以小样本更适合CNN 我能不能结合CNN与Transformer的优点应用到小样本中呢 idea7 在小样本检测的分类分支加通道注意力回归分支引入空间注意力。 idea8 在小样本学习中如何更加合理的使用无标签数据 即能不能先充分发掘测试集的先验知识因为在预测的时候测试集就相当于一个无标签的数据 idea9 使用神经网络进行提取之后的特征的度量
10.24 中午 mae能得到原图的不同的形态张嘴闭嘴睁眼闭眼转头
2022.10.26 用mae做query的重构变成回归问题
10.26: 从两个角度去写自己的论文第一个角度就是可学习的数据集的扩充第二个角度就是遮挡之后的一个损失对比学习或者伪造监测那篇论文的损失为了得到一个图片的更为本质的特征。 首先分类的结果是前提然后目的是提取embedding中最为一致的特征。
遮挡的好处就是能遮挡掉那些不利于类别判别的特征。
为什么伪造监测那篇论文的分类损失和一致性损失是相互权衡的难道不应该是先分类然后再一致性吗 1
10.27晚上 就用原型网络去修改只不过计算原型那一步改成我得到的特征。 尝试不同的相似性函数l1l2,cos等都试试
10.27晚上想法 通过多个卷积层去学习一个可学习的mask矩阵。
10.29想法 把线性层换成mlp
10.31想法 为什么只用cos去计算相似性的损失呢为什么不能把正类和负类都运用上使用对比学习的损失呢对比学习的损失作为消融实验也要用一下对比一下几个loss之间的效果差别。
MoCo V2 MoCo v2借鉴了SimCLR中的两个有效设计MLP projection head 和 更多的数据增广。
MLP-head 将MoCo中的fc head替换成2-layer MLP head。head仅在训练阶段起作用线性分类器或者迁移阶段不使用MLP。
11.1晚上想法 显卡占用太大的原因是不是因为224*224的图片如果显存不够用的话我可不可以把MAE输出resize下 应该不可以输出不是图片了是个embedding。
11.2早上 有可能是mlp的参数量太大了导致显存不够。我只用一个mlp试试
11.2晚上 有可能是mlp的参数量太大了我只用一个mlp试试。 *******没必要用很多的并行的MLP只用一个就够了因为每张图片要关注的主体位置都是动态变化的。我只用一个带hidden的MLP。
问题绝对不是出在图片的数量上肯定是其他的原因很可能是图像的尺度224224是8484的三倍。
如何输出模型的参数量 深度学习作业上有。
2022.11.3 注意力分为粗粒度的注意力和细粒度的注意力经过Vit处理之后我可不可以对重要的patch物体本身进行细粒度的注意力对不是很重要的patch背景进行粗粒度的注意力 原因 老师说过虽然背景不那么重要但是还是有作用的比如人一般不会像鸟一样站在树枝上。人也不会在天上飞。
11.3下午 我现在取得是平均值还没取最好的我要是取最好的去跟原型网络的结果进行比较会更牛逼。
11.3下午 下步要执行的把query也变成1to5的形式
11.4 1.只使用vit的clctoken去分类 2.使用vit的不同的大小的embedding去分类 3.我减少了batch size是不是要对应的去减小学习率
11.8 1.将vit的参数调整好达到应有的和建新媲美的效果比较正常。clstoken的作用是什么要不要 2.将vit的patch数量减少减少的越少越好。 3.尝试将mae与patch-wise的度量方式进行结合比如我mae生成多个由25%的patch得到的patch embedding这个25%的patch足以代表整张图片了patch越大其对应的embedding应该就越大patch越小对应的embedding就越小然后根据这个patch embedding去进行度量可度量很多次得到最终的评分。 4.我要尝试不同的比较方法sum-min和match-min对应位置的patch和min-min说不定我的任务适用于哪一种度量方式呢或者还有其他的度量方式比如匈牙利算法
5.对比3907看看是不是11551有问题。
51600的就可以extend之后去计算那我5196768的为什么不可以去计算呢 可以的我变成196196*768的
7.我把clstoken去掉用了goalboolpooling
11.9 看看它是对每一个特征计算损失的我想对每一个mae的输出计算损失如何实现并行的去计算损失
使用swimtransformer各个层次的特征去做分类
11.10下午想法 可以试试 直接用vit的代码不用mae的
待完成原理没搞清楚。 set to set 的度量方法还可以有进一步的创新************************* 根据vit注意力之后的patch的值或者使用attention 得分去为最后的度量得到一个加权这样就可以给每个patch进行度量的时候得到一个权重。
具体做法是用得到的attention得分乘以最后得到的距离这样就使得attention得分较小的重要性较小的patch对总体的最后求出来的距离的影响就更小了达到了根据每个patch的重要程度去度量距离的效果
在做实验 使用average pooling还是使用clctoken我去个发挥clctoken的作用
备选方案 使用空间注意力得到attention得分
11.13 不直接对图片划分patch而是对得到的feature map划分patch。
11.13下午 可不可以使用目标检测类似的思想先把roi得到之后然后利用roi去分类
11.13早上 可以尝试使用mae表示随机取样的patch mae的思想与最接近的patch之间计算余弦相似度的loss相结合
2022.12.3 无监督用到小样本
研一下学期
2023.1.20 1.只在patch权重高的区域画框相当于把grid变成可学习的。可以只使用前百分之二十五的最高的数据上四分位点。 可以使用torch.where函数
2.图片之间算自注意力 支持集与查阅集合之间算注意力把整个数据集看做一张图片。
3.将目标检测的方法和gridpooling进行结合相当于定位分类既使用了transformer的全局建模能力又运用了cnn的对信息的提取能力将二者进行结合。
2023.2.4 利用各个阶段各个尺度所有的特征并不只是最后一个阶段的特征也就是说把transformer的各个block的特征全部运用起来。
如果Transformer模型被用于图像分类浅层关注可能会关注图像的一些局部细节例如纹理和颜色。随着层数的增加模型可能会逐渐学习到更全局的特征例如物体的形状和姿态。但是这些特征的解释和可解释性可能相对较弱因为Transformer模型不像卷积神经网络一样具有明显的局部感受野。
他解决了什么问题是怎么解决的为什么要这么解决要是我去解决该怎么去解决
2023.3.16想法 小样本跨域 不同的域对应的同一图像的特征是不一样的通过添加的层去自适应的学习当前域所需要的特征进行分类 底层更关注纹理高层更关注语义信息那么可以把不同阶段的拼接在一起然后通过线性层去学习 新域上的特征与源域各个阶段的特征进行匹配
2023.3.18想法 源域和目标域的数据分布可能相差很大导致在源域上学习到的特征并不能很好的泛化到目标域上那么能不能先使用风格迁移的方式将源域迁移的目标域或者将目标域迁移到源域然后再进行网格训练训练得到的网络会不会在目标域上表现得更好呢
2023.3.28早上 如何让cnn与transformer进行结合 神经网络可解释发现重要的背景区域主要集中在主体的边缘我们要怎么在分类中发挥这一性质可不可以使用某些注意力 mae的随机遮挡可不可以换成符合某种数学分布的遮挡
4.从每个类中选取最具代表性的特征可不可以利用FSViT的多尺度到跨域上多尺度对应每个类中不同区域的特征从不同区域特征中挑选出最具代表性的。
2023.3.29 可以用在跨域上 5. 背景有助于分类风格迁移。 背景迁移
2023.3.30 晚上 6.yolo也是将图片打成patch可不可以与FSvit进行融合先找出目标再进行分类结合CNN与transformer的优势进行更准确的分类 不能yolo有边界框的groundtruth所以可以进行回归的去找到groundtruth。
思考 分离前景背景现在来看transformer效果会更好简单 但是transformer存在的问题就是当目标物体较少时自注意力并不能发挥其作用长序列建模能力无法展示出来因此要拉进和目标物体的位置然后再使用transformer才能表现出更好的效果。 类似于定位分类让多尺度问题消失。 定位相当于解决了多尺度、背景复杂场景的干扰让小目标的问题不存在。 Vit分类充分发挥transformer的长序列建模能力达到极高的分类准确率。
存在问题会不会检测的结果并不准确对后面分类的性能产生影响毕竟检测的效果与分类的效果相差很远
2023.4.2 目前有的思路做遮挡的小样本/跨域的小样本 1.如何将自己的方法应用到跨域中选择各个域之间通用的patch或者学习某部分或区域的patch构成当前类别的特征字典由不同的patch组成 要想做跨域就得深刻的了解其数据集以及任务的形式才能深入的去思考idea。
2.采用遮挡的方式将不同的patch进行遮挡学习最为通用的特征用到跨域或用到小样本分类。单张图像遮挡得到不同的姿态。 25%即可以表示语义使用很多的25%通过25%去想象。
可以看看zero-shot怎么做的直觉上zero-shot比few-shot更难。
小样本分类的两个方向 从方法的角度讲 1.更加高效的提取特征并利用特征 2.制造更加丰富的特征并利用特征 从模型的角度讲 空间筛选最重要的patch 通道筛选最重要的通道
小样本跨域的方向 学习通用于各个类别各个域之间的通用信息才能更好的泛化到新的域
2023.4.4 1.卷积核的通道对应transform的多个头解决跨域有什么启发
2.AAAI看中实验Transformer在小样本学习中确实有用吗 可以通过实验支撑做一篇研究。
2023.4.5凌晨 1.类似于多个卷积的输出多个头输出之间的平滑。解决小样本跨域问题。
2.可以在多头前面加一个线性层来为每个头加一个权重。
3.mask的那篇论文原来是模仿的通道注意力那我可不可以使用CBAM中的通道注意力呢
2023.4.6晚上 1.卷积核与muti-head之间的关系如何泛化
2023.4.7早上 空间筛选最重要的patch 通道筛选最重要的通道
2023.4.9晚上 专注于空间注意力就不要多尺度了
同时关注于空间比如胸腔的x光片关注于肺部的某一部分这就是空间注意力的作用。 通道注意力能使用更好的适用于目标域的头。
4.16晚上 把cbam的空间注意力写成loss加入transformer把通道注意力改成head注意力写成loss的形式。 将本身就有的attention与空间注意力进行结合
4.25晚上 现在已经知道的对跨域有影响的因素 1.不同域上不同通道的重要程度不同。 2.现在的cross domain meta-learning方法使用图片的高层特征作为分类器的输入但是domain shift可能会导致一些高级的概念如人的耳朵、鼻子、眼睛在源域和目标域之间不共享。而图片中的低层特征如线条、正方形仍然可以共享和使用。作者的想要把低层特征作为分类器的输入这更有利于domain shift。
那我该怎么设计我的模型同时满足以上两点以提高跨域的性能
2023.5.4想法 空间上的方法 在匹配的过程中不再是每一张support或者每一类support的原型和query进行匹配了而是将所有的support都放在一起选出前m个最为相似的patch比如为10然后再看这前m个分别属于哪一个类别的support set比如类别一占5个类别2占3个类别三占2个那么就确定这个query是类别一。相当于一种投票的统计的机制这样能每一个support图片中多个尺度的信息通过这种统计的到的结果更加鲁棒。 m可以设计的很大m越大统计的越充分。 但是这样统计相似度更高的不就和相似度不是那么高的都是在前十的发挥的作用不就一样了 或者有另一种方法设定个m之后比如m为10将前10个中同一类别的相似度进行相加作为当前的query到这个类别的相似度这样就比较公平在进行分类决策的时候充分运用好所有的图片信息。
与MN的方法有点类似 Matching Networks可以简洁表示为计算一个无标签样本的标签为y ^ \hat的概率这个计算方法跟KNN很像相当于是加权后的KNN。 可以看成是支持向量集S中{x_i,y_i}所有样本的线性结合只是给他们赋予了不同的权重。 对于a作者采用的也是最简单的方式就是用x^样本与x样本之间的特征文中成为embedding的cosine距离的softmax值进行计算。
或者我不计算support的原型直接把每张图片输进来这样更好原型限制了特征的多样性并批判原型对特征的充分利用是有害的。 我们直接对计算原型的方法提出质疑计算原型的方法被应用于好多模型中但是我们发现使用原型使得本来就不多的小样本任务中的图片特征不能得到充分利用使用原型会阻碍小样本分类性能的提升跑几个使用原型网络的方法计算的模型突出我们这种基于概率统计的模型的优势如果能加上一点数学就好了。
2023.5.5 也使用自注意力中的缩放点击对patch进行加权可以吗然后再根据加权后的池化 相当于利用support set与query set之间图片的关系进行加权类似于DMP
2023.5.6早上想法 不要找最相似的patch而是找最不相似的patch 在support set中响应最高的且最不相似的patch中找最相似的patch 设计一种通用的小样本分类特征筛选机制不仅仅适用于单域小样本分类同时适用于跨域小样本分类。 对特征的一种筛选选最相似的两个而不是一个然后在最相似的里面去筛选筛选的原则是support之间相似的不要要support之间最不相似的
2023.5.6下午 都找support set与query中最相似的那不就都相似了吗要找的不仅仅是support set与query中最相似的而且要找support set之间不相似的同时这个不相似的特征能在query中找到
2023.5.7上午 空间和通道两个方面的筛选 通道方面的筛选可以用到conv模块结合transformer和cnn的优势transformer能将注意力集中在物体的主体而cnn能实现多通道的特征提取来适应不同域的特征。
2023.5.9下午 对注意力机制的修改从生物的角度去解释提出一种更简单高效的注意力同时能做跨域。 把自注意力改成通道可选择的一个模块
2023.5.11 匈牙利算法能不能用于support set提取得到得到的特征集合和query中提取到的特征集合之间的匹配
2023.5.14晚上 既然transformer的各个层的输出都不一样那我可不可以将各个层输出的patch表示都作为一个分类的结果然后去进行匹配 之前的transformer只是使用最后一层的输出去做分类的决策但是对于小样本任务而言数据集很少那我就更应该充分发掘和利用仅有样本的丰富信息而这个丰富的信息蕴含在transformer 结构的各个block里面而对于每个block的输出只取权重最高的patch进行分类。
为什么是12个block的堆叠而不是一个相同的block重复的使用12次参数量不一样表达能力不一样。每个block都发挥着它的作用。但是具体的作用是什么呢
对patch筛选的一点思考 主体的确比背景重要很多从人类得到启发当我们看一眼主体某个部位我们就能大概的区分出这个部位应该在哪个物体上动物上出现但是看到背景很难推断出是在那个物体动物至少可以肯定的是物体的主体部分的信息是比背景区域重要的。但不能说背景没用。 现在觉得也可以说背景没用我要的类别是猫猫背景是草有什么用呢
2023.5.15中午 对transformer模型的思考 在计算机视觉中基于CNN的模型底层更加关注于图像的纹理和边缘高层更加关注于图像的语义信息那么基于Transformer的模型的底层关注的是什么高层关注的又是什么呢 在输入自注意力的计算之前有对应的patch embedding的操作这个操作相当于对局部信息的一个提取 也会是说有且只有第一层patch embedding层是对局部信息的一个学习后面的层是不断地self-attention的一个堆叠后面的层都在做不断的patch之间的信息的交互区别只在于交互的好坏。 也就是说可以把transformer模型分为两个部分分别是patch局部特征的embedding和patch特征的交互。 那么我该如何改进呢
2023.5.16上午 动机 通道上 Attention is all you need论文中讲模型分为多个头形成多个子空间每个头关注不同方面的信息(是对同一特征到不同的特征空间的映射)。对于不同的类别、不同的域来说关注的信息都是不一样的所以要对head进行筛选。 空间上 有些patch看一眼就知道是什么类别所具有的判别性信息更强而有些patch看一眼就知道不具有判别性的信息比如背景所以要对patch进行筛选。
方法 通道上选头还是调整头 空间上选patch
现有结论头之间的差距是随着层数的加大而变小。差距变小就说明不同头之间的方差在随着层数的增大而减小但是这种随着层数变大不同层头之间的差距在变小这种差距的变小的作用还没有人证明解释。 猜测1.一种可能的解释是它类似一种 noise或者 dropout而不是去关注不同的方面。也就是说无论多少层既然都会出现与众不同的头那么这个些头就是去使得模型收敛效果最优的结果反过来说模型可能认为全部一样的头不会使效果最优至少在梯度下降的方法上。这样的话把这个些头解释为模型的一种 “试探”或者噪声是可能合理的。 猜测2:Transformer 对初始化比较敏感一些初始化点必然导致不同的头但这样解释就很难从直觉上解释了。 在Attention is all you need论文中468个head效果差别都不大。这种差别究竟是多头带来的还是参数量带来的也不确定。
2023.5.16下午 在tranformer训练的过程中使用query的kv去指导support的kv训练能对vit进行优化剪枝减少计算量。
新的transformer 前面用pooling后面用attention同时在attention上面加上query对support的指导。剪枝筛选patch。 为什么前面的用pooling后面用attention 因为前面是比较冗余的局部信息计算自注意力不仅开销大而且会学到一些错误的信息后面的用attention更加适合高层的语义信息的信息的交互同时减少计算量。
资料 1、Raghu et al.[43]比较了ViT和cnn的特征差异发现自关注允许较早地收集全局信息而残差连接极大地将特征从较低的层传播到较高的层。
2023.5.17上午 1.pooling与attention穿插结构并通过做消融实验证明有效 2.在各个层次都要指导support的特征学习 让support朝着query学习各个层级的交互 3.同时support之间有个loss让support拉远 4.各个层次的特征拿出来做最后的分类决策而且这个各个层次的特征应该是多尺度的使用pooling方法实现多尺度。
可以分成好几个小点做消融实验时候做一个大表使用那个在哪个位置打上对钩。 动机解释 人看到某个部分就能大概的分类所以我们既要关注局部信息也要关注于全局信息。
2023.5.17晚上 来自ECCV2022Self-Support Few-Shot Semantic Segmentation灵感 让support朝着query学习这一点可以扩展 support和query之间存在一个外观的gap这个外观的gap的产生有两点原因 1.数据稀少support中的类别很少5way只有5个类别 2.数据多样不确定的新的类别的query的外观各异。 这就要用query去指导support训练
2023.5.18上午 使用指导的方式有很多种 第一种是改变kv矩阵目标跟踪那篇方法 第二种是使用query的表征作为support中自注意计算的query把query的self attention的query作为support的注意力的query 一种是矩阵的拼接一种是直接使用矩阵 或者还有没有其它的方式呢 使用query的k去替换support的k是不是与替换q是一样的
解决的问题就是support 中学不到query的特征通过query的指导学习到判别性的特征。
2023.5.21下午 或者不分开去学习qkv而是query只学习q和support只学习k和v这样不仅能减少参数量而且能加快学习速度。 应该不能只学习query中的q因为要使用query的最后的表征去进行相似度的计算。在学习最后的表征的过程中是要使用qkv的。
2023.5.22晚上 query对support的指导只放在高层只在语义上指导。由于纹理信息和边缘信息根据图像的大小尺度不同是相对的所以不能在底层进行指导会指导出问题。
2023.5.26中午 metaformer将自注意力层换成了池化层达到了不错的效果那我能不能在池化层的每一个阶段再加上池化层这样就能最大限度的减少参数量的同时提取各个层级的多尺度的信息然后再设计一种牛逼的算法进行特征的筛选筛选出最利于分类的特征去进行最终的决策分类。同时要有一定量的参数用于自适应的在各个类、各个域之间微调适应不同的类别不同的域。同时这个调整的参数站整个网络的很大一部分占很大一部分的原因是总的网络的参数量很小所以只需要微调很小的部分参数就能达到不错的效果。 只是pooling感觉还不够需要加上一种具有筛选能力的pooling 先在pooling之前计算一个注意力矩阵然后在进行poolingattentionpooling也就能进一步减少计算量的同时将pooling的位置变成可学习的。 除了attentionpooling的方式有没有其他的方式也能实现attention的效果谱聚类其他的呢 patch之间的knn
2023.5.26下午 5shot的时候shot之间也可以进行注意力。
2023.5.26晚上 我们在进行分类的时候往往只需要具体的某个patch就能判断这个物体是什么类别但是这个patch的具体位置难以估计因此我们就需要提取网络的各个层次各个区域的特征找到最为重要的patch去进行最终的分类决策。 需要对patch进行筛选
2023.5.27下午 都找support set与query中最相似的那不就都相似了吗要找的不仅仅是support set与query中最相似的而且要找support set之间不相似的同时这个不相似的特征能在query中找到 可以query对每个support都找到前5个最相似的然后support image与support image之间进行比较找到最不相似的前3个作为最终的分类决策所使用的patch。 这样能解决相似的类别之间匹配出错的问题比如query是猫support image1是猫的尾巴support image2是狗的尾巴两者都有尾巴就对应了query猫与support1猫和support2老虎都有较高的相似度。同时support1猫和support2老虎的尾巴之间也有较高的相似度。 但是如果选的相似度的位置是query的猫头那么support1猫头和query的猫头有较高的相似度support2的狗头与query的猫头相似度就较低support1猫头与support2的狗头相似度就较低。 这么做的目的就是筛选那些虽然相似度较高但是对分类的判别性产生误导的patch。
总的来说 若query与support1patch1相似度较高 且 query与support2patch1相似度较高 且support1patch1与support2patch2相似度较高 则 不能得出这是一个具有判别性的patch的结论。 若query与support1patch1相似度较高 且 query与support2patch1相似度较高 且support1patch1与support2patch2相似度较低 则 这是一个具有判别性的patch的结论 找这样的多个patch。
举个例子胸腔的X光片其他部位的patch基本都是差不多的相似度很高但是只有胸腔哪一部分的support与query相似度不一样肺炎任务query只与有同样症状的胸腔相似度高。所以要按照上面的方式筛选patch才能得到最具判别性的信息。
2023.5.27晚上 动机每个patch都具有一定的判别性的信息。 最终的分类是多个patch判别性信息的整合。 才能达到最准确的分类决策。
2023-05-29 筛选Patch然后元胞自动机模拟 有些相似度很高的patch不能起到决定性作用 构建一个层级的多尺度网络提取丰富的特征 poling能有效的聚合信息而attention能高效的信息交互所以使用这种交替堆叠的组合。 首先都与query计算相似度找出高的然后再筛选找出support之间不高的。
2023.5.30下午: 注意力权重高的词不一定是最有助于分类的token
2023.7.5思路 1.使用td进行计算不使用加法去进行计算自生成的语义提示。 2.多视角小样本分类 3.cub之所以是细粒度的数据集因为数据集都是鸟鸟与鸟之间是很像的。
2023.7.6 最后一层的梯度对模型的可解释性最强 自我生成的prompt能让注意力学习的更好集中在对应目标物体的主体部分但是注意力高的部分并不一定对分类来说是最重要的还需要进一步的对patch进行筛选于是就利用支持集和查询集之间的关系进行筛选。
2023.7.7 可以通过使用多尺度的卷积来实现patch embedding以此弥补多尺度的问题。
2023.7.9 参考北大Reid的工作尝试将图的思想引入小样本学习。
研二上学期
2023.10.8 匈牙利算法能不能用于support set提取得到得到的特征集合和query中提取到的特征集合之间的匹配 进行patch之间的匹配
2023.10.10 提示学习应用到小样本分类探究提示学习需要微调的参数量参数占比参数位置对小样本分类性能的影响。找出最优的提示学习适用于小样本分类的方法。 可选的微调方式1.只微调bais 2.微调batchnorm的参数或layernorm的参数 3.只微调后几层的参数 4.只微调分类头的参数 5.加上一些提示的信息进行微调。如何选取高效的提示信息 对于小样本分类任务而言要微调多少参数才算好样本数量1-shot和5-shot对应的微调参数量分别是多少。
2023.10.19 微调正则化参数的方法似乎并不可行因为正则化需要的是对数据分布的统计量而小样本学习的数据分布变化较大那么就导致在新的数据域上得不到准确的数据分布。 那么该如何得到准确的数据分布呢
2023.10.25 用aigc生成图片解决小样本问题
2023.10.27 下午 匈牙利算法可以用在support 和 query进行特征匹配多尺度的过程这样做的目的是通过匈牙利算法每个support的能且只能找到与他最匹配的那一个query中的特征而不会多个相似的特征关注于query中的同一个相似的特征这样就能不局限于图片的某一个区域而是同时关注与图片的多个区域然后再利用多个区域的总和相当于考虑到各个区域的特征去进行分类的决策。 只需要和detr一样调用scipy 中的linear-sum-assignment看detr的代码
2023.10.27晚上 自我提示用到检测和分割写一篇期刊
2023.10.28 把大的视觉模型提示学习用到小样本检测和分割
2023.10.29 如果把大模型和人类对比大模型具有十亿甚至百亿级别的参数蕴含着大量的知识人类同样经过几十万年的进化达到今天的智能。人类在小时候需要一个很好的老师去指导他才能激发人类的潜能进行学习和创造并完成各种事业甚至有所成就。提示学习相当于大模型的教师为大模型提供“指导”一个很好的教师是至关重要的大模型本身蕴含的丰富的知识我们怎样去提示大模型并利用甚至挖掘他本身具有的知识正是提示学习所在做的。
2023.10.29晚上 可不可以用一个小的模型去生成准确的提示 prompt然后去指导大的模型的训练如何利用support set中仅有的样本去生成准确的提示是至关重要的。
2023.10.30上午 prompt learning两个关键点 1、prompt插入的位置和数量 2、prompt如何进行初始化 两者都会很大程度上影响模型的结果
2023.11.2 自我提示越大的模型所具有的知识越多自我提示在不同尺度模型上做实验vit base和vit large 并做一个统计图
2023.11.8 模型越大小样本分类的效果越好吗 显然不是的那如何发挥大模型的优势 通过提示学习。 于是我们提出一种新的提示学习的方法用于小样本分类。
2023.11.18 动态网络用到小样本学习中
2023.11.19 利用提示学习提取有助于分类的高频\低频?信息使用傅里叶变换然后利用这一信息去对视觉大模型进行提示在特征层面上进行提示或者调整大模型的网络结构。
2023.12.5 自然语言处理的transformer是处理序列的数据是因为自然语言本身是序列的。人类在理解的时候也是从头往后去阅读去理解。而图像与自然语言不同人类能从图像的整体去观察扫描的是个范围类似卷积迅速找到定位。而视觉的transformer还是将图像变成了序列去处理这是正确的的吗难道不会降低效率吗 但是反过来想人类的视觉系统对于计算机来说就是最优解吗好多工作的idea都是来源于人类理解这个世界的方式审稿人也会同样觉得这种方式是对的难道是源于人类在自然界盲目的自信或许我们本质上在探索的是人类是如何理解这个世界的因为人类本身并不明白这一点很想搞清楚所以我们本质上还是在认识自己。 但是在认识自己的过程中能不能发现更高的智能呢或许能突破文明的界限
CNN只要卷积核足够大我觉得还是能超越Transformer的就像是一个人看一个范围而另一个要逐点的去遍历。
2023.12.5下午 在Simplifying Transformer Blocks的基础上加提示
2023.12.11 提示学习多尺度
2023.12.15 提示生成条件 条件下的动态网络 类似于何恺明的预训练模型生成条件
2023.12.16 动态网络一定可以用到小样本中
2023.12.17 是不是说模型设计的越巧妙模型的迁移性就不好。比如看起来cnn比transformer更加的巧妙但是同样的数据量和trick的情况下transformer的性能要比cnn具有更强的迁移性是因为transformer更加粗暴吗 也就是说transformer的inductive bias归纳偏置更弱他的表示能力更强迁移能力也更强。
transformer解放了平移不变性引入了排列等变性 平移不变性可以简化认为是CBRConvolution-BatchNorm-ReLU模块是平移不变的卷积核在输入特征图的不同部分都是一样的工作Transformer是排列等变的是因为transformer对输入输出的序列顺序是没有要求的它自己通过注意力机制来寻找输入序列内容的相对关系因此这也是输入需要位置编码的原因注入位置的信息。也就是说完全相同的内容在不同位置经过CBR的结果是一样的但是在Transformer中不一样同一个输入序列进行重新排序Transformer的输出序列patch embedding也会同样的重新排序只要一个序列里的内容和位置编码是不变的那么重新排序后的输出序列内容也是不变的。
2023.12.19 将攻击和对抗的思想引入到小样本学习。如果能做成可以投NeurIPS
2023.12.20 将图transformer应用到小样本学习。AAAI2025
2023.12.21想法 我们研究了基于迁移学习模型的尺度大小与小样本学习的性能并不是成正比的关系模型越大表现出的迁移性反而更小。基于这一发现我们提出了一种适用于不同尺度模型的微调方式同时分析了模型参数量的多少与shot之间的关系。 我们提出了适用于任意尺度模型的方法。。。。。 视觉大模型的提示学习for few shot learning
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913281.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!