视频分类——C3D使用

整体比较分散,可能很多源码都需要修改,需要有耐心。

一、数据准备

PS

调研后,上手容易代码比较简洁的是:https://github.com/Niki173/C3D/tree/main

因为源码很多参数都写死到了源码中,没有解耦,并且默认只支持ucf101和hmdb51两个数据集,所以建议最快的方式是将自己的数据集命名为ucf101然后修改对应的参数。以下均以此为前提进行说明。

1、数据组织结构

一般建议是准备原始视频文件,然后源码会自动拆帧为图片,这里以ucf101为例

抽帧前的视频组织形式,不区分train/val/test, 不同类别的视频数据放到不同的文件夹中。

Ucf101

—class_name_1

——video_1

——…

—...

PS:这里要注意视频长度不要过长,因为源码是一次性将一个视频所有帧读到内存然后进行crop指定帧数(16帧)和大小(112),所以也要看你的特征不被crop掉(源码是先缩放到128*171然后随机crop 112*112)

源码处理完后的路径如下,要注意默认源码会按照4帧间隔,6:2:2(近似)分割train/val/test集合。

Ucf101

—train

——class_name_1

———video_frames_dir_1

———…

——...

—val

——class_name_1

———video_frames_dir_1

———…

——…

—test

——class_name_1

———video_frames_dir_1

———…

——...

2、修改数据源和类别数(必选)

https://github.com/Niki173/C3D/blob/main/train.py#L28

建议复用ucf101,只修改对应的num_classes变量的值。

3、修改label信息(必选)

https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L58

源码仅仅实现了ucf101、hmdb51,这里有两种方式,最简单的就是复用ucf101的名字,只不过是自己的数据,然后删除掉源码的“dataloaders/ucf_labels.txt ”文件,让源码自己根据数据重新生成,也可以自己修改这个文件,文件的格式如下:

4、修改视频文件路径(必须)

这里源码的处理逻辑是自动一级一级检查图片帧目录,是否存在,并且会检查第一个类别的第一个视频的图片帧的分辨率是否符合要求。

https://github.com/Niki173/C3D/blob/main/mypath.py

5、修改视频帧尺寸(可选)

逻辑是抽帧的时候resize成这个尺寸,然后训练的时候中心crop成112。源码需要修改两个地方。

1)https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L31

2)https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L105

    6、修改归一化特征值(可选)

    https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L208

     

7、修改是否需要test(可选)

一般现实工程数据较少时或者上线有其他测试集,建议关闭test分割,方式就是注销相关代码,下面标红框。

https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L115

 

https://github.com/Niki173/C3D/blob/main/train.py#L23

https://github.com/Niki173/C3D/blob/main/train.py#L100

注销红框

8、修改抽帧间隔(可选)

默认是4秒。

https://github.com/Niki173/C3D/blob/main/dataloaders/dataset.py#L170

 二、训练超参数

https://github.com/Niki173/C3D/blob/main/train.py#L21

三、网络结构

    1、C3D结构

    2、R(2+1)D结构

    3、区别

    1)R2D模块就是传统的2d卷积,将输入c×l×h×w看作是cl×h×w(把多张当作一整张),只是将2d卷积作用于multi-frames上。

    2)f-R2D,采取R2D相反的方式,分别对每帧做操作,在最后全局池化层在做所有帧的信息融合。

    3)C3D:就是将时间维度单独成一维。网络结构如上面的图。

    4)R3D模块就是前面讲的C3D模块,只不过是放到ResNet网络中。

    5)R(2+1)D:作者设计了2d卷积和1d卷积filter个数的匹配公式。相比于R3D,虽然参数没变,但由于R(2+1)D添加更多Relu激活层,模型的表达能力应该更强,同时也更容易训练优化。

    6)P3D:R(2+1)D更接近P3D-A,把R(2+1)D都设计为相同的block,但P3D的第一层使用的是2d卷积。

    

开源实现

https://github.com/HHTseng/video-classification

https://github.com/kenshohara/3D-ResNets-PyTorch

几个不同网络区别:[论文笔记] C3D | P3D | R2D - 知乎

C3D代码总结(Pytorch)-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/14586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCF-CSP认证 2024年3月 4.化学方程式配平

题解&#xff1a;首先完成数据的读入&#xff0c;然后高斯消元求秩按题意解即可 #pragma GCC optimize(2, 3, "Ofast", "inline") #include <bits/stdc.h> using namespace std; const int maxn 100;using matrix double[maxn][maxn]; using vect…

5.20Git

版本控制工具Git&#xff0c;其他的工具还有SVN 共享代码&#xff0c;追溯记录&#xff0c;存储.c文件 Git实现的功能&#xff1a;回溯&#xff08;以前某个时间节点的数据情况&#xff09;共享&#xff08;大家共享修改&#xff09; Git&#xff1a;80% SVN&#xff…

QT tableWidget详细分析

一.定义 QTableWidget是一个用于显示表格数据的Qt控件&#xff0c;它是一个基于Qt Model/View框架的视图组件。QTableWidget提供了一种简单的方式来展示和编辑表格数据&#xff0c;用户可以通过添加行、列和单元格来构建一个完整的数据表格。 下面是一些QTableWidget的主要特点…

The Missing Semester of Your CS Education(计算机教育中缺失的一课)

Shell 工具和脚本(Shell Tools and Scripting) 一、shell脚本 1.1、变量赋值 在bash中为变量赋值的语法是foobar&#xff0c;访问变量中存储的数值&#xff0c;其语法为 $foo。 需要注意的是&#xff0c;foo bar &#xff08;使用空格隔开&#xff09;是不能正确工作的&…

网工内推 | 香港移动,10年以上数通经验,CCIE,5W-6W

01 香港移动招聘 &#x1f537;招聘岗位&#xff1a;网络工程师 &#x1f537;岗位要求&#xff1a; 需要有10年及以上数通经验&#xff0c;有CCIE 证书&#xff0c;懂技术管理&#xff0c;沟通畅通 &#x1f537;语言要求&#xff1a; 粤语英语 &#x1f537;薪资&#xff1…

基于灰狼优化算法优化RBF(GWO-RBF)的数据回归预测(多输入多输出)

代码原理及流程 基于灰狼优化算法优化多输入多输出&#xff08;MIMO&#xff09;的RBF神经网络的数据回归预测&#xff0c;可以采取以下步骤&#xff1a; 1. 数据准备&#xff1a;准备包含多个输入特征和多个输出目标的数据集&#xff0c;确保数据已经经过预处理和归一化。 …

TCP - 半连接队列和全连接队列

目录 一、半连接队列和全连接队列的概念 二、全连接队列溢出 三、半连接队列溢出 一、半连接队列和全连接队列的概念 1. 半连接队列&#xff1a;服务端收到客户端发送的 SYN 包时&#xff0c;内核会将该连接加入半连接 SYN 队列&#xff0c;并向客户端返回响应 2. 全连接队…

CSS基础(第二天)

Emmet语法 快速生成HTML结构语法 1. 生成标签 直接输入标签名 按tab键即可 比如 div 然后tab 键&#xff0c; 就可以生成 <div></div> 2. 如果想要生成多个相同标签 加上 * 就可以了 比如 div*3 就可以快速生成3个div 3. 如果有父子级关系的标签&#xff0c;可以…

算法刷题笔记 数的范围(C++实现)(二分法重要例题)

文章目录 题目描述题目思路题目代码&#xff08;C&#xff09;题目感想 题目描述 给定一个按照升序排列的长度为n的整数数组&#xff0c;以及q个查询。对于每个查询&#xff0c;返回一个元素k的起始位置和终止位置&#xff08;位置从0开始计数&#xff09;。如果数组中不存在该…

Docker【2】iptables 错误解决

iptables 错误解决 问题说明问题分析解决步骤1. 确保 iptables 模块已加载2. 检查和重启 docker 服务3. 检查 firewalld 状态4. 重置 iptables 规则5. 查看和更新 Docker 配置 总结 问题说明 执行的 docker 命令如下&#xff0c;启动 nginx 并设置宿主机端口 (8080) 与容器端口…

学习Uni-app开发小程序Day25

这一章学习了触底加载更多阻止无效的网络请求、分类列表存入Storage在预览页面读取缓存展示、通过swiper的事件实现真正的壁纸预览及切换 触底加载更多阻止无效的网络请求、load-more样式的展现 前面已经学习了当列表触底后&#xff0c;会继续加载&#xff0c;当到最后一层后…

自动化测试--利用pytest实现整条业务链路测试

​ 概述 前面一章讲解了单个接口的测试&#xff0c;但是实际项目中&#xff0c;因为权限和登录状态的限制&#xff0c;大部分接口没办法直接访问到&#xff0c;这时候我们想访问到一个系统的接口&#xff0c;就需要模拟用户登录拿到用户的token和所拥有的权限之后再将这些信息…

vivado2020.2创建hls仿真工程实现led闪烁

下载vivado2020.2后会有这个出现在桌面 点击进入创建工程&#xff0c;这里注意不要有前面的\我再复制的时候复制错了导致创建失败 按f光标就会跳转到下一个f开头的函数处&#xff0c;要查找其他函数也同理 生成了一个synthesis summary文件 找到目录下生成的.v文件 an 点…

Pod进阶——资源限制以及探针检查

目录 一、资源限制 1、资源限制定义&#xff1a; 2、资源限制request和limit资源约束 3、Pod和容器的资源请求和限制 4、官方文档示例 5、CPU资源单位 6、内存资源单位 7、资源限制实例 ①编写yaml资源配置清单 ②释放内存&#xff08;node节点&#xff0c;以node01为…

【知识蒸馏】多任务模型 logit-based 知识蒸馏实战

一、什么是逻辑&#xff08;logit&#xff09;知识蒸馏 Feature-based蒸馏原理是知识蒸馏中的一种重要方法&#xff0c;其关键在于利用教师模型的隐藏层特征来指导学生模型的学习过程。这种蒸馏方式旨在使学生模型能够学习到教师模型在特征提取和表示方面的能力&#xff0c;从…

有些错误,常犯常新、常新常犯:记录一个使用element-plus的tooltip组件的错误

使用element-plus的tooltip组件&#xff0c;最开始的写法是这样的&#xff1a; <el-tooltipclass"box-item"effect"dark"content"tooltip content" ><el-button v-if"isDisabled" :underline"false" type"pr…

持续总结中!2024年面试必问 20 道 Redis面试题(五)

上一篇地址&#xff1a;持续总结中&#xff01;2024年面试必问 20 道 Redis面试题&#xff08;四&#xff09;-CSDN博客 九、Redis的同步机制了解么&#xff1f; Redis 的同步机制是其复制策略的核心部分&#xff0c;确保数据在主节点&#xff08;master&#xff09;和从节点…

【C语言】程序员自我修养之文件操作

【C语言】程序员自我修养之文件操作 &#x1f525;个人主页&#xff1a;大白的编程日记 &#x1f525;专栏&#xff1a;C语言学习之路 文章目录 【C语言】程序员自我修养之文件操作前言一.文件介绍1.1为什么使用文件1.2文件分类1.3二进制文件和文本文件 二.文件的打开和关闭2.…

桌面藏线大法

1有线改无线&#xff1a; 蓝牙鼠标 蓝牙键盘 蓝牙耳机 2将排插贴到桌子底下 购物软件上搜 3断舍离 不要的电子产品统统扔掉 4 洞洞板和挂钩 这个不用介绍了

爬虫基本原理及requests库用法

文章目录 一、爬虫基本原理1、什么是爬虫2、爬虫的分类3、网址的构成4、爬虫的基本步骤5、动态【异步】页面和静态【同步】页面6、请求头 二、requests基本原理及使用1、chrome 抓包按钮详解1.1 Elements1.2 元素定位器1.3 Network1.4 All1.5 XHR1.6 Preserve log1.7 手机模式1…