20251027周一日记

news/2025/10/27 20:48:28/文章来源:https://www.cnblogs.com/coins30zhl/p/19170097

前些日:
1.周五玩得挺爽,熬到五点多睡的,转天有点遗憾但还是玩得挺爽。见识到了大城市之间的差距。
2.周六回家,出去吃饭;周日在家,出去吃饭。听家人说各有各在拼搏的方向。

今日:
1.早上睡过了,从家回学校,从北门骑回来。回实验室继续看Foundation Models Survey。
2.快两点了,去简单吃点饺子,回来继续看综述,看困了趴会。
3.妈的趴醒了感觉有点感冒,看完了这篇综述总结在下面。晚上和同届哥们一起简单吃点儿,吃完遛遛回实验室。接着调研。
4.调研到了几篇3D assets generation的文章,看起来质量挺高,其中有一篇还是师姐推荐过的,同样列在下面,争取这周看完。

Foundation Models收获感悟
训练好的VLM可以用作解决其他需求或下游任务的基础模型,故而叫做Foundation Model。但这篇定稿于2023年,且没介绍GAN、VAE、Diffusion等,有所局限。
1.基本信息+Related Work
·根据输入的模态基本可以这么分类:文本输入/视觉输入/多态输入
720702f7-7ae6-464d-9186-8628a2bf4a07
·介绍了一些之前的Surveys,侧重点都不一样从文章里用灰色标出来了。其中[28][29]感觉可能有用我还没看。这篇Survey自称厉害之处是综合三种分类和提出了未来挑战展望。
022f45ea-f9f3-47b7-96cc-621b9a251767

2.必要背景
·基础模型定义:以自我监督或半监督的方式在大规模数据上训练的基础模型,可以适应其他几个下游任务。

·四种模型网络基本结构:双编码器(Text encoder+Image encoder),融合(Text encoder+Image encoder),编码器解码器(Text+Image encoder),适应性LLM(Text+Image encoder)。
·两种模型基本损失:对比,生成。学习对齐或根据前tokens预测下个token。

·三种数据集:图-文,部分融合,混合(文中有举例子)。
·微调:提升模型在具体任务中的表现,提升模型特定的能力,教模型解决不同的下游视觉任务。
·提示词工程:基本用于含有LLM的。把视觉数据转换成图-文数据,将视觉-语言模型用于视觉任务。

3.分别开始介绍(这里面介绍了一些好用的数据集、结构等,值得一用)
Part I:文本提示模型
·CLIP:数据规模很大(同样也是缺点),交叉熵损失。
·ALIGN:双编码器结构,用带噪的图像-描述对数据,图像-文本嵌入的余弦相似性通过归一化softmax损失?
·Florence:基础模型应该能够处理从粗到细(空间)、静态到动态(时间)以及从 RGB 到多模态(模态)的表示。
·FLIP:在训练期间屏蔽50~75%的输入像素,减少计算。
·MaskCLIP:随机遮蔽生掩码,蒸馏学习局部语义,交叉熵损失。
·逆缩放定律(inverse scaling law):大的图-文模型可以使用较短的输入标记序列进行有效训练,而不会降低性能。可以在更少的输入tokens上微调模型。
·GPT4:transformer架构,私有数据集,非开源。

Part II:视觉提示模型
·SAM(Segment Anything):对输入图像和提示词向量进行编码,组合进入轻量级掩码解码器中。数据集大。

Part III:混合模型
图像-文本、视频-音频、图像-深度等,这些基于异构模态的方法可以分为两类:将CLIP与异构模态对齐将LLM与这些模态对齐

4.挑战和下一步方向
评估和基准,幻觉,对象幻觉,多模态对齐,Low-rank Adaptation (LoRA),防止攻击,偏见,上下文理解能力,...

3D Assets Generation文章:
PhysX-3D: Physical-Grounded 3D Asset Generation
DiffGS: Functional Gaussian Splatting Diffusion
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment
GenAssets: Generating in-the-wild 3D Assets in Latent Space

VAE/GAN/Diffusion文章:
Synthetic Scientific Image Generation with VAE, GAN, and Diffusion Model Architectures
OmniGen: Unified Image Generation (甚至开源了OmniGen2)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948072.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【通讯协议】IIC

前言 对于各种协议的知识,假如不常用的话还是很容易忘记和生疏的,于是我会在这篇文章重新学习,顺带记录一下,以便下次复习。由于最近要用到 IIC,所以最先复习 IIC 的内容。 网上有关 IIC 的资料很多也很全面,所以…

Robot Queries

题目传送门 前置知识——向量的加减 \((x_1,y_1) \pm (x_2,y_2) = (x_1\pm x_2,y_1\pm y_2)\)。 满足交换律和结合律。 题目大意 有一个在 \((0,0)\) 的点。现在给出 \(n\) 个操作序列 \({f}\),每个指令形如 \((x, y)…

10月27日

今天上午学了统一建模语言和数构,下午学了Java

特殊的数字签名

盲签名 -- 部分盲签名 -- 群签名盲签名 Chaum盲签名协议 协议流程: \[\begin{flalign} &Setup:\\ &\quad p,q = getPrime(safe.bit\_length);n = p * q;Pubkey = (n, e);Pravitekey = d\\ &Sign:\\ &…

CSP-S 40(爆零记)

10.2710.27 赤到了。 第一次爆蛋。 t1 特判没卡掉11个人。 乐死了。 暴力有80pts。 正解: 发现值域很小只有1000,从此入手。 先预处理 1000 以内的素数,发现很少只有168个,空间可开下,这启发我们对于每个素数记录…

javascript构造对象数组向服务器端传输

javascript构造对象数组向服务器端传输客户端发送数据1 $("#saveEnable").click(function () {2 var selectedRows = $(#userTab).datagrid(getSelections);3 4 var users…

102302136 林伟杰 数据采集与融合作业1

目录作业一实验过程及结果-1 心得体会-1作业二实验过程及结果-2 心得体会-2作业三实验过程及结果-3 心得体会-3作业一: 实验过程及结果-1要想爬取到网站中大学的信息,应当先查看该网站中html的结构,通过搜索框搜索&…

TCP/IP协议概述

TCP/IP分层模型是互联网协议套件的基础,它简化了OSI模型,将网络通信过程划分为四个层次。TCP/IP模型的主要目的是提供一个实际可行的网络通信架构,它是互联网和许多其他网络的基础。TCP /IP,是一组不同层次上的多个…

极值定理

若函数 \(f\) 在 \(x = c\) 处有一个局部最大值或局部最小值,则 \(f\) 在 \(x = c\) 处不可导或者 \(f(c)=0\) 。 比如说 \(f\) 在 \(x = c\) 处是个尖角,那么肯定就不可导。 若可导,不妨令是最大值(最小值类似)则…

10.25 CSP-S 模拟赛

Contest CSP-ST1 你脑子呢? 确定的情况即选比 \(a_i\) 小的,记 \(a_i\) 的排名为 \(rank_i\),则答案为 \(\binom{rank_i - 1}{k - 1}\)。 T2 大力分讨。 无论什么情况都有一个直接走到的选项 \(\operatorname{lcm}(…

【CI130x 离在线】如何运行 curl 脚本

在各种大模型的API文档中,经常会用到 curl 工具,那么——如何运行 curl 脚本呢?在Linux平台 对于复杂的代码,建议创建脚本文件:# 创建脚本文件 nano myscript.sh然后执行以下指令 # 在文件中粘贴代码,然后保存退…

日总结 18

Hive 是基于 Hadoop 生态的大数据仓库工具,通过类 SQL 的 HQL 语法简化大规模结构化 / 半结构化数据的离线批处理,底层依赖 HDFS 存储数据,计算引擎支持 MapReduce、Tez、Spark 等;其架构包含用户接口、元数据存储…

一场比赛

题目难度 颜色 分值入门 红 100普及- 橙 150普及/提高- 黄 250普及+/提高 绿 500提高+/省选- 蓝 1500省选/NOI- 紫 3500

这才是真正的AI NAS!极空间私有云Z2Ultra评测

这才是真正的AI NAS!极空间私有云Z2Ultra评测Posted on 2025-10-27 20:02 lzhdim 阅读(0) 评论(0) 收藏 举报一、前言 在NAS以及私有云领域,可能有些老玩家只知道群晖。但实际上根据天猫及京东销售数据统计,极…

新东方第三节课名言作文

开头段:1引入名言(照抄);2概括名言主题(补充一下);3个人立场(证据)A famous and enlihtening saying goes that"Respect others,and you will be respected."This remark convers a thought-provok…

【性能优化必看】CPU耗时飙高?GC频繁停顿?一文教你快速定位!​

本文分享了Java应用性能问题的排查方法,分为CPU飙升和JVM排查两部分。CPU问题排查需从进程到线程递进分析,使用top、jstack等工具定位高负载线程和代码位置。JVM排查则涉及内存溢出、GC异常等场景,通过jstat、jmap等…

​Fedora 37 安装 libicu-71.1-2.fc37.x86_64.rpm 教程(命令行步骤)​

​Fedora 37 安装 libicu-71.1-2.fc37.x86_64.rpm 教程(命令行步骤)​​一、先确认你的系统 这个包是 ​Fedora 37、64位系统(x86_64)​​ 的,所以:你得是 ​Fedora 37​ 系统电脑是 ​64位​ 的(现在大多数都是…

十月阅读_3

“简单工具的力量” 在本章被诠释得淋漓尽致。作者以 “石头剪刀布” 的极简逻辑,隐喻编程中 “基础思维决定复杂问题解法” 的本质。我曾在一个分布式任务调度项目中,因过度依赖第三方框架的复杂配置而陷入困境;后…

学校协同云盘怎么选?2025年10大热门教育网盘推荐与对比

为满足学校在教学、科研与安全合规上的需求,选择合适的协同云盘至关重要。本文深度对比了坚果云与Zoho两款主流方案。坚果云凭借其专业的无感同步、强大的文件历史版本功能以及金融级的公安部等保三级安全认证,在效率…

从神经信号到驾驶安全:Mentalab无线脑电图系统赋能汽车人因研究与HMI优化 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …