论文阅读：TinyGPT-V 论文阅读及源码梳理对应

论文阅读：TinyGPT-V 论文阅读及源码梳理对应

news/2026/1/10 13:39:45/文章来源:https://blog.csdn.net/shiwanghualuo/article/details/135539715

TODO

有待更新

QFormer作用？

QFormer来自论文BCLI2工作中，用来弥补Frozen Image encoder和Frozen LLM之间的gap。
基于Bert作为初始化的。

推理结构图

prompt

Give the following image: <Img>ImageContent</Img>. "
"You will be able to see the image once I provide it to you. Please answer my questions.

融合方法：
先将图像转为向量。将prompt除Image部分其他部分依次转为向量。
再将两者mix，得到最终向量。

def get_context_emb(self, prompt, img_list):device = img_list[0].deviceprompt_segs = prompt.split("<ImageHere>")assert (len(prompt_segs) == len(img_list) + 1), "Unmatched numbers of image placeholders and images."seg_tokens = [self.llama_tokenizer(seg, return_tensors="pt", add_special_tokens=i == 0).to(device).input_ids  # only add bos to the first segfor i, seg in enumerate(prompt_segs)]seg_embs = [self.embed_tokens(seg_t) for seg_t in seg_tokens]# TODO: 这里具体如何混合在一起的，需要Debug查看mixed_embs = [emb for pair in zip(seg_embs[:-1], img_list) for emb in pair] + [seg_embs[-1]]mixed_embs = torch.cat(mixed_embs, dim=1)return mixed_embs

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/614636.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

小汪，TCP连接和断连夺命6连问你可能扛得住？

小汪，TCP连接和断连夺命6连问你可能扛得住？

目录 TCP三次握手连接和四次挥手断连的几处疑问一、建立连接，为什么是三次握手，而不是二次握手？ 二、为什么每次建立 TCP 连接时，初始化的序列号都要求不一样呢？ 三、断开连接，为什么是四次握手&#x…

阅读更多...

sdbusplus：同步读写property的通用函数

sdbusplus：同步读写property的通用函数

属性的读写，其实函数形式很像，只是参数类型有所不同，可以把这部分抽象出来： //dbus_prop.hpp #pragma once#include <utility> #include <boost/asio.hpp> #include <sdbusplus/asio/connection.hpp> #include <sdbusplus/bus.hpp> #include <…

阅读更多...

机器学习激活函数

机器学习激活函数

激活函数激活函数是人工神经网络中的一个重要组成部分。它们用于向神经网络中添加非线性因素，使得网络能够解决复杂问题，如图像识别、语言处理等。激活函数的作用是决定一个神经元是否应该被激活，也就是说，它帮助决定神经元的输…

阅读更多...

科技顶天，市场立地。璞华科技“顶天立地”的成长之路

科技顶天，市场立地。璞华科技“顶天立地”的成长之路

科技顶天，市场立地。几十年来，我们越来越深刻地认识到，这就是真理，质朴而深刻。尤其在当前特殊的国际国内商业环境中，这一理念不但没有过时，反而恰逢其时。有这么一家企业，一直践行“科技顶天…

阅读更多...

二级C语言备考3

二级C语言备考3

一、单选共40题 （共计40分） 第1题 （1.0分） 题号:6168 难度:易第1章以下叙述中错误的是(). A:.OBJ文件和.EXE文件都是可直接执行的二进制文件 B:用户按规定语法编写的C程序不是二进制文件 C:C源程序经…

阅读更多...

使用阿里云镜像创建一个Spring Boot项目

使用阿里云镜像创建一个Spring Boot项目

由于现在的idea在创建项目时已经不支持Java8版本了，如果我们还想用8版本，可以使用阿里云镜像创建。所以得改变原有的地址为：https://start.aliyun.com springboot版本选择2开头的任意版本的。 1.配置6个依赖 2.改变下载依赖地址下载依赖默认…

阅读更多...

Proteus仿真stm32f103r6输出PWM/正弦波

Proteus仿真stm32f103r6输出PWM/正弦波

资料下载地址：Proteus仿真stm32f103r6输出PWM/正弦波一、仿真图 Proteus仿真stm32f103r6输出PWM/正弦波二、程序 #include "pbdata.h"u16 fre; void RCC_Configuration(void); void GPIO_Configuration(void); void TIM3_Configuration();void Dela…

阅读更多...

动物脚掌“温度升降”体验：ZL-021大小鼠冷热板测痛仪

动物脚掌“温度升降”体验：ZL-021大小鼠冷热板测痛仪

ZL-021大小鼠冷热板测痛仪用于评估动物对疼痛的敏感度。通过将小鼠或大鼠放置在温度可调的热板上，记录它们在板上停留的时间来评估它们对不同温度刺激的反应。优点说明：设备能够明确指示组织损伤情况，同时对动物影响较小，可以反…

阅读更多...

安全三要素与如何实施安全评估？

安全三要素与如何实施安全评估？

一、安全三要素是安全的基本组成元素，分别是机密性（Confidentiality）、完整性（Integrity）、可用性（Availability）。二、如何实施安全评估一个安全评估的过程，可以简单地分为4个…

阅读更多...

学生评教，问卷调查表评价教师统计，python+pandas处理数据

学生评教，问卷调查表评价教师统计，python+pandas处理数据

先上一个结果表格几个关键步骤 1、问卷网站上设置相关题目，条目，最好用评分题目（点击文本选项，但是保存下来的是分值），如图 2、pandas清洗数据，包括unstack，其目的是把所有学生得…

阅读更多...

Spring Boot实现国际化

Spring Boot实现国际化

src\main\resources\i18n\messages_zh_CN.properties message.hello你好，世界！ message.welcome欢迎！ src/main/resources/i18n/messages_en_US.properties message.helloHello World! message.welcomeWelcome! 默认语言 src\main\resources\…

阅读更多...

快速了解VR全景拍摄技术运用在旅游景区的优势

快速了解VR全景拍摄技术运用在旅游景区的优势

豆腐脑加了糖、烤红薯加了勺，就连索菲亚大教堂前都有了“人造月亮”，在这个冬季，“尔滨”把各地游客宠上了天。面对更多的游客无法实地游玩，哈尔滨冰雪世界再添新玩法，借助VR全景拍摄技术对冬季经典冰雪体验项目进行全…

阅读更多...

什么是Modbus协议？

什么是Modbus协议？

Modbus协议是一种在工业自动化领域广泛应用的通信协议，它允许不同设备之间进行可靠的数据交换和控制。该协议最初由Modicon公司于1979年创建，旨在提供一种简单而有效的方法，使PLC（可编程逻辑控制器）和其他自动化设备能…

阅读更多...

AI老照片修复-Bringing-Old-Photos-Back-to-Life

AI老照片修复-Bringing-Old-Photos-Back-to-Life

🏡 个人主页：IT贫道-CSDN博客 🚩 私聊博主：私聊博主加WX好友，获取更多资料哦~ 🔔 博主个人B栈地址：豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频目录 1. AI老照片修复原理-…

阅读更多...

修改idea或者pycharm或者android studio的快捷键，快速跳转到行尾

修改idea或者pycharm或者android studio的快捷键，快速跳转到行尾

ctrl enter这个快捷键是idea默认配置的，就是将光标所在的行切一刀，并且换到下一行。但是在我的开发习惯里面不怎么使用ctrl enter这个快捷键， 反而开发java或者flutter软件需要快速跳转到行尾添加分号 ; ，但是使用end键脱离了我…

阅读更多...

ARM 寄存器

ARM 寄存器

文章目录 ARM 寄存器介绍一、未分组寄存器 R0~R7二、分组寄存器 R8~R14三、程序计数寄存器 R15（PC）四、当前程序状态寄存器 R16（CPSR）管理模式（SVC）用户模式（USR） 汇编里的寄存器名称…

阅读更多...

Java复习_4

Java复习_4

填空题课程推荐的 jdk 下载网址为 jdk.java.net 使用命令行编译程序：javac -d bin stc*.java 使用命令行运行程序： java -cp bin 类名 java 语言标识符：字母、数字、下划线和美元符号，数字不能做首字母 java 语言中标识符区…

阅读更多...

Android 实现集合去重的方法

Android 实现集合去重的方法

方法一：使用HashSet 将集合转换为HashSet。 Set<String> set new HashSet<>(list);将HashSet转换回List。 List<String> uniqueList new ArrayList<>(set);方法二：使用Java 8的Stream API 将列表转换为Stream。 Stream&l…

阅读更多...

YOLOv8-Seg改进：轻量化改进 | MobileNetV3，轻量级骨架首选

YOLOv8-Seg改进：轻量化改进 | MobileNetV3，轻量级骨架首选

🚀🚀🚀本文改进：MobileNetV3的创新点包括：使用自适应瓶颈宽度、借鉴SENet中的Squeeze-and-Excitation机制、引入h-swish激活函数等。 🚀🚀🚀YOLOv8-seg创新专栏：http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研； 1）手把手教…

阅读更多...

JVM 元空间、java中的元空间

JVM 元空间、java中的元空间

JVM 元空间元空间元空间原空间（Meta Space） 用于存放类信息、常量、静态变量、JIT即时编译器百年以后的机器代码等数据等。例如：java.lang.Object类的元信息、Integer.MAX_VALUE等常量。 JDK1.6 HotSpot JVM 使用Method Area方法区存…

阅读更多...

最新文章