北京规划建设 杂志 官方网站wordpress做小说网站
news/
2025/9/30 7:44:03/
文章来源:
北京规划建设 杂志 官方网站,wordpress做小说网站,建设企业网站价格,莱芜二中网站这是原版的架构图#xff0c;少了很多东西。 这是我根据源码总结出来的详细版 有几点需要说明的#xff0c;看架构图能看懂就不用看注释了。
#xff08;1#xff09;输入图片必须是 224x224x3 的#xff0c;如果不是就把它缩放到这个尺寸。
#xff08;2#xff09;T…这是原版的架构图少了很多东西。 这是我根据源码总结出来的详细版 有几点需要说明的看架构图能看懂就不用看注释了。
1输入图片必须是 224x224x3 的如果不是就把它缩放到这个尺寸。
2Tranformer要的是嵌入向量的序列大概是SeqLen, HidSize形状的二维数组然后图像是H, W, C的三维数组想把它塞进去必须经过一步转换这是嵌入模块做的事情。
简单来讲就是切成大小为16*16*3的片段Patch然后每个片段都经过一步线性映射转换为长度768的一维向量。这一步在代码中通过一个Conv2d来一次性完成。
我们的这个卷积层包含768 个大小为16*16*3的卷积核步长等于卷积核大小。也就是说它相当于把图像切成16*16*3的片段然后每个片段和每个卷积核相乘并求和得到一个值。每个片段一共产生768个值顺序排列得到一个一维向量就是它的嵌入向量然后所有片段的嵌入向量再顺序排列得到整个图片的嵌入序列就是这样。
3之后会在序列开头添加一个特殊的嵌入向量是CLS这个嵌入向量没有其它意义只代表输出的这个位置的嵌入应该计算为整个图像的类别嵌入。
4之后会添加位置嵌入不是编码因为它是可以学习的也就是不锁定梯度。很多 Tranformer 都是位置嵌入因为它是锁梯度的。
5位置嵌入之后会有个Dropout层在论文原图中没有似乎很多Bert或者GPT变体都会有这个东西。
6之后经过 12 个 TF 块这个块和 Bert 是一样的没有啥魔改。
7TF块之后会有个LayerNorm原图里没有这个也是很多变体里面出现过的。
8因为我们要分类或者说论文中采用分类任务需要取类别嵌入也就是SeqLen维度的第一个元素。
9之后经过一个线性Tanh论文里面说只有预训练时期需要这个迁移的时候可以直接扔掉。
10之后是线性Softmax用于把类别嵌入转化成图像属于各类的概率。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922584.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!