详细介绍:构建生产级多模态数据集:视觉与视频模型(参照LLaVA-OneVision-Data和VideoChat2)

news/2025/10/11 17:20:17/文章来源:https://www.cnblogs.com/lxjshuju/p/19135552

构建生产级多模态数据集:视觉与视频模型

一、构建自定义图文数据集
1. 基础结构

LLaVA-OneVision-Data-SAE 的结构

[{
"image": "CLEVR-Math/identity_1040.jpg",
"conversations": [
{
"from": "human",
"value": "\nHint: Please answer the question and provide the final answer at the end.\nQuestion: Subtract all balls. How many objects are left?"
},
{
"from": "gpt",
"value": "The answer is 7"
}
]
}]

在这里插入图片描述

表1:图文对话数据模式
字段名数据类型是否必须描述示例
idString可选样本的唯一标识符,可用于追踪和调试。“image_0001_conv_1”
imageString关联的图像文件名(相对路径)。“0001.jpg”
conversationsList[Object]一个包含多轮对话的列表。[{“from”: “human”, “value”:
“…”}, {“from”: “gpt”, “value”:
“…”}]
conversations.fromString对话发起者的角色。推荐使用"human"和"gpt"以区分用户输入和模型生成。“human”
conversations.valueString该轮对话的具体文本内容。对于第一轮的用户输入,通常包含一个特殊的图像占位符 。“请描述图中的主要物体。\n”
1.2 自定义图片描述信息标注指南

自定义标注的核心是为你的图像生成高质量的 (instruction, output)

任务类型指令模板示例期望输出示例
​简单描述​“描述这张图片。”“一张城市夜景的照片,高楼灯火通明。”
​详细描述​“详细描述图片中的场景、物体和它们的属性。”“照片近处是一杯咖啡,杯上有拉花…”
​视觉问答 (VQA)​“图片中有几只动物?”“两只。”
​推理问答​“这个人为什么穿着雨衣?”“因为正在下雨。”
​多图比较​“比较这两张图片的风格。”“图一更写实,图二更抽象。”
2. 生成高质量的回答(Output)

回答的质量直接决定模型的学习效果。

  • ​准确性​​:回答必须严格基于图像事实,避免幻觉。

  • ​完整性​​:对于复杂问题,回答应覆盖所有方面。

  • ​清晰简洁​​:避免冗余信息,语言流畅,语法正确。

  • 图像占位符:在用户的第一轮提问中,必须包含一个特殊的占位符(如),以在文本中明确指示图像信息的位置。这有助于训练脚本识别和处理多模态输入。

  • 负样本构建:数据集中必须包含模型应该拒绝回答的场景。这对于提升模型的安全性和可靠性至关重要。例如:

    内容缺失:当被问及图片中不存在的物体时,模型应回答无法找到或图中没有该物体。

    不当问题:对于涉及隐私、偏见或有害内容的问题,模型应礼貌地拒绝回答。

3. 数据质量控制
4.标注流程
  • ​预训练模型生成​​:使用 Qwen、Kimi 等模型生成描述或答案,再进行人工审核和修正,是效率较高的方法。

  • ​人工标注​​:人工质检模型标注后的结果,错误地方给出修正。

  • ​合成数据​​:对于特定任务(如图像编辑),可利用大语言模型生成指令,再用文本到图像模型(如Stable Diffusion)生成对应图像,构建三元组数据。

5. 图片存储格式:从JPG到分片Parquet

图片需要将原始的JPG图像和JSON格式的标注,转换为可用于大规模训练的分片式Apache Parquet数据集。整个流程将以Hugging Face datasets库作为核心工具。

工作流程:

  1. **组织图像文件**:将所有JPG图像文件存放在一个目录下,例如 data/images/。
  2. **创建元数据文件**:在data/目录下创建一个名为metadata.jsonl的文件。JSON Lines (.jsonl) 格式要求每一行都是一个独立的、完整的JSON对象。
  3. **关联元数据与图像**:metadata.jsonl中的每个JSON对象都对应一个图像。至关重要的是,每个对象都必须包含一个file_name字段,其值是图像文件相对于metadata.jsonl文件的路径 3。

一个metadata.jsonl文件的行示例如下:

JSON

{"file_name": "images/0001.jpg", "id": "image_0001_conv_1", "conversations": "[{\"from\":
\"human\", \"value\": \"\\n请描述图中的场景。\"},
{\"from\": \"gpt\", \"value\": \"图中展示了一个阳光明媚的午后公园,几个人在草地上野餐。\"}]"}
  1. 使用datasets进行数据摄取与转换

  2. 序列化为分片Parquet

  3. Parquet格式介绍:

卓越的性能:Parquet是一种基于Apache Arrow的列式存储格式 。与行式存储(如CSV或JSON)不同,列式存储允许数据加载器只读取其需要的列。例如,在进行数据探索或调试时,可以只加载文本
conversations列,而完全跳过体积庞大的图像数据,从而实现数量级的读取速度提升。

高效的压缩:Parquet支持多种高效的压缩算法(如Snappy, Gzip, Zstd),能够显著减小数据集的存储体积,从而降低存储成本和网络传输时间。

强大的生态系统兼容性:Parquet是大数据生态系统中的事实标准,与Apache Spark, Dask 18, Pandas等工具无缝集成,极大地简化了下游的数据分析和处理任务。

分片(Sharding)策略:将大型数据集切分为多个较小的Parquet文件(即分片)是一种关键的优化策略。


二、构建用于视频语言模型的数据集

VideoChat2 的训练数据通常以 ​​JSON 格式组织,这是一种灵活且高效的结构化文本格式,非常适合存储大量的多模态训练样本。

2.1. 时间维度标注

原始数据格式展示

[{
"video": "1164/3238737531.mp4",
"conversations": [
{
"from": "human",
"value": "\nHow many children are in the video?\nOptions:\n(A) one.\n(B) three.\n(C) seven.\n(D) two.\n(E) five."
},
{
"from": "gpt",
"value": "(D) two."
}
]
}]
字段名数据类型是否必须描述示例
videoString视频文件的路径​​或唯一标识符。系统会根据此路径加载视频片段“1164/3238737531.mp4”
conversationsList[Object]一个包含多轮对话的列表。[{“from”: “human”, “value”:
“…”}, {“from”: “gpt”, “value”:
“…”}]
conversations.fromString对话发起者的角色。推荐使用"human"和"gpt"以区分用户输入和模型生成。“human”
conversations.valueString该轮对话的具体文本内容。对于第一轮的用户输入,通常包含一个特殊的图像占位符 。“请描述图中的主要物体。\n”

与静态图像不同,视频的核心在于其时间维度。对视频的标注必须能够捕捉随时间展开的动作、事件和场景变化。LLaVA-Video-178K等数据集中的标注就体现了这一点,其描述是叙事性的,捕捉了一系列连续的动作,例如:“一个人……进入画面……蹲下……然后站起来……并离开画面” 。

实现更高级的功能,例如回答“视频的第5秒到第10秒之间发生了什么?”这类问题,需要一种结构化的标注方法。推荐采用一种分段事件的模式,将整个视频的描述分解为一系列带有时间戳的事件片段。

2.2标注指南:

标注员在创建时间描述时应遵循以下原则:

关注动态变化:重点描述动作、对象/角色间的互动,以及场景状态的显著变化。

使用一致术语:对于视频中反复出现的关键对象或人物,使用统一的名称。

按时间顺序描述:严格按照事件在视频中发生的先后顺序进行描述。

明确起止点:为每个独立的事件或动作片段标注清晰的开始和结束时间(以秒为单位)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/934930.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年图书杀菌机生产厂家最新推荐排行榜:聚焦高效杀菌技术与优质服务,优质企业全面盘点自助图书/臭氧图书/消毒图书/图书杀菌机厂家推荐

随着公共阅读需求的不断增长,图书馆、绘本馆等场所的图书流通频次大幅提升,图书卫生安全问题愈发受到重视。读者在借阅过程中,图书易附着细菌、病毒及灰尘,传统清洁方式难以满足高效杀菌需求,优质图书杀菌机成为必…

公网服务器下的dify安装模型插件的相关问题和操作

公网服务器下的dify安装模型插件的相关问题和操作在前面部署好dify后,我发现安装模型插件出现了一些问题,不知道是有关内存的原因还是什么,在安装模型供应商时非常卡顿。 这是finalshell中的状态,不知道如何解决。…

vscode 生成代码片段

https://snippet-generator.app/

MySQL根据表生成实体类

MySQL根据表生成实体类SELECT CONCAT(/// <summary>\n, ///,column_comment,\n ,/// </summary>, public , ( case LOWER(Data_type) when varchar then string when text then string when tinyint then …

2025票务系统最新推荐榜:高效便捷与用户体验俱佳的优质选择

2025票务系统最新推荐榜:高效便捷与用户体验俱佳的优质选择随着旅游业和娱乐业的快速发展,票务系统的市场需求日益增长。高效的票务系统不仅能够提升用户体验,还能帮助企业提高运营效率。为了帮助筛选票务系统品牌,…

千万公众号运营者必看:8 款编辑器核心能力大 PK

千万公众号运营者必看:8 款编辑器核心能力大 PK一、开篇背景:公众号生态下的创作效率革命 截至2025年,微信公众号数量已突破数千万,编辑器市场规模以年均15%增速扩张至10亿元级别。然而80%的运营者仍受三大痛点困扰…

详细介绍:linux基础服务

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

有度新版本:反向登录、文件路径自定义、有度极速版…管理更自主,切换更顺畅

各位有度用户,大家好! 新版本客户端 (10.0.11) 和服务端 (10.0.0) 已经发布,本次更新带来了反向登录、多语言支持、图片查看器多开等功能,并优化了文件存储与知识库体验,旨在让你在不同场景下的沟通协作更顺畅。一…

C#利用委托实现多个窗体间的传值

原文链接:https://zhuanlan.zhihu.com/p/559679569 要实现这样一个功能:父窗体创建了两个子窗体,子窗体1和子窗体2,1产生的数据要在2中显示出来。 因为这两个子窗体本身之间并没有直接关联,他们都是由父窗体new出…

2025常州微弧氧化批发厂家最新推荐榜:技术领先与优质服务双

2025常州微弧氧化批发厂家最新推荐榜:技术领先与优质服务双随着工业技术的不断进步,微弧氧化技术在金属表面处理领域中扮演着越来越重要的角色。微弧氧化技术通过在金属表面形成一层致密的陶瓷膜,不仅提高了材料的耐…

new操作符的手动实现

function myNew(constructor, ...args) { ​ const obj = Object.create(constructor.prototype);// 创建一个新对象并链接到构造函数的原型​const result = constructor.apply(obj, args);// 将构造函数的 this 指向…

JS使用Regex校验出现卡顿

背景 使用vue3+naive ui 开发网站,在写表单校验规则,其中URL校验项使用了regex,表达式写的有问题,在校验某些URL出现卡顿。最后使用浏览器内置URL类的构建函数来校验,放弃了正则。 REGEX探讨 /^(https?:\/\/)?(…

2025舒适轮胎厂家最新推荐榜:静音耐磨,驾驶体验再升级!

2025舒适轮胎厂家最新推荐榜:静音耐磨,驾驶体验再升级!随着汽车工业的不断发展,消费者对轮胎性能的要求也越来越高。除了基本的安全性和耐用性外,静音和舒适性成为了越来越多车主关注的重点。为了帮助大家更好地筛…

2025 净化铝型材十大品牌之一优选,推荐龙新铝业,最快24小时内发货

“车间急等铝材搭隔断,供应商说要等一周?”“刚发现型材精度不够,半导体车间根本用不了!” 在电子、制药等对洁净环境要求严苛的行业,选对净化铝型材堪比 “定海神针”,而交货慢、品质不稳定更是让无数工程负责人…

2025 权威推荐!净化铝型材品牌 TOP5 排行榜:实力厂家精选,品质之选不容错过

2024年国内工业铝型材产量达1170万吨,同比暴涨23.2%,其中净化专用型材需求增速更是突破19%。但繁荣背后暗藏危机:低价产品用回收铝冒充6063-T5原生铝,铁含量超标导致抗腐性骤降;宣称的"1000小时盐雾测试&quo…

关于HashMap

hashMap的底层数据结构是哈希表,哈希表又由数组加链表构成,在执行put操作时,hashMap会根据key进行哈希函数运算,得到他在数组的位置并插入对应链表,如果哈希值相同并且关键字也相同,那么会直接修改原来的value值…

sar(System Activity Reporter 系统活动情况报告)是目前 Linux 上最为全面的系统性能分析工具之一。

sar(System Activity Reporter 系统活动情况报告)是目前 Linux 上最为全面的系统性能分析工具之一。它可以从多方面对系统的资源使用情况进行监控,包括:文件的读写情况、系统调用的使用情况、磁盘 I/O、CPU 效率、…

车辆主动悬架线性最优控制(LQR)系统

车辆主动悬架系统的线性二次型最优控制(LQR)设计,包括系统建模、控制器设计和性能分析 1. 系统动力学模型 1.1 二自由度1/4车辆模型 classdef ActiveSuspensionLQR < handle% 主动悬架线性最优控制系统% 采用二自由…

2025环保/植物/净醛/健康/无味腻子粉厂家推荐榜:专注多场景墙面基底解决方案供应!

随着房地产精装修、旧房翻新改造及商业空间装修领域的快速发展,腻子粉作为墙面找平、美化的核心基底材料,市场需求持续攀升。但行业乱象凸显:部分厂家用劣质碳酸钙、回收胶粉压缩成本,导致腻子粉易开裂、脱粉,墙面…