学做网站多少钱百度关键词搜索广告的优缺点
news/
2025/9/27 16:46:02/
文章来源:
学做网站多少钱,百度关键词搜索广告的优缺点,文学网站怎样建设,服务器放网站目录 引言整体结构图方法介绍训练vision vocabulary阶段PDF数据目标检测数据 训练Vary-toy阶段Vary-toy结构数据集情况 引言 论文#xff1a;Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧#xff0c;之前在写论文阅读… 目录 引言整体结构图方法介绍训练vision vocabulary阶段PDF数据目标检测数据 训练Vary-toy阶段Vary-toy结构数据集情况 引言 论文Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧之前在写论文阅读Vary论文阅读笔记文章时正好看到了Vary-toy刚刚发布。
这次咱也是站在了时代的前沿这不赶紧先睹为快。让我看看相比于VaryVary-toy做了哪些改进
整体结构图 从整体结构来看仍然沿用了Vary系列结构。先利用Vary-tiny pipeline训练一个Vision vocabulary之后在pre-train和SFT阶段将new vocabulary与CLIP的Vocabulary相结合来训练Qwen-1.8B模型。
不同于Vary用了Qwen-7B这次用了Qwen-1.8B模型更小对于部署使用更加友好。
这次除了原有的PDF数据外又增加了目标检测的数据集让Vary-toy更加具有通用性。
方法介绍
作者在设计Vary-toy时主要侧重解决以下两个问题
如何基于Vary-tiny pipeline产生一个更加practical vision vocabulary 如何在不损坏Qwen-1.8B模型特征前提下利用new vision vocabulary来使Vary-toy-1.8B产生新的特征
训练vision vocabulary阶段
出发点是
vision vocabulary network是由SAM-base作为初始化模型训练而来的。这样做可以获得SAM对文本的感知能力。但是也存在遗忘SAM中对自然物体目标的感知能力。作者认为只将密集文本的视觉知识写入80M的网络是浪费。
PDF数据 该部分与Vary中工作一致看着量级更大了。最终准备了2M英文文档数据和2M的中文文档数据。PDF来源主要是arXiv、CC-MAIN-2021-31-PDF-UNTRUNCATED和e-books。示例数据如上图。
私以为该部分仍然有很大进步空间。如在提取PDF内容时可以考虑到版面的因素使得内容更加有语义。当然这只是猜测也许作者就是这么做的呢
目标检测数据
为了充分利用来自SAM模型对自然图像的感知能力作者引入了目标检测数据到训练vision vocabulary过程中。所用数据主要来自Object365和OpenImage。
因为部分图像中存在太多的物体这会超出OPT-125M的token数量限制。因此作者做了两步处理
如果图像中物体框数目30个则允许Vary-tiny pipeline过程中的prompt为Detect all objects in this image如果图像中物体框数目30个则更换prompt模板为Detect class1, class2, … in this image.
最终整理出来的目标价检测数据大约有3M条。
训练Vary-toy阶段
Vary-toy结构
Vary-toy主体结构与Vary相同但是有些微小区别
当输入图像( H × W H\times W H×W)进入new vision vocabulary分支时图像会被直resize到1024 x 1024而送入CLIP分支时则中心裁剪为224x224直接将vision vocabulary分支和CLIP分支输出拼起来正好是Qwen-1.8B的输入channel相比于Vary为了让变化小一些作者仍然在vision vocabulary网络后添加了embedding layer
数据集情况
TODO
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/919682.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!