一、CIFAR10二进制数据集介绍
1、CIFAR-10数据集
CIFAR-10数据集由10个类别的60000个32x32彩色图像组成,每个类别有6000个图像。有50000个训练图像和10000个测试图像
2、数据集分为五个训练批次和一个测试批次,每个批次有10000个图像
3、data_batch_1.bin 到 data_batch_5.bin 训练集
4、test_batch.bin 测试集
5、这些类别完全相互互斥,汽车和卡车之间没有重叠。汽车包括轿车、SUV,卡车只包括大卡车
6、二进制数据文件内容格式
二进制数据文件包含data_batch_1.bin 到 data_batch_5.bin、test_batch.bin
这些文件中每一个格式如下,数据中每个样本包含了特征值和目标值:
<1x标签> <3072x像素>
...
<1x标签> <3072x像素>
7、格式说明
第一个字节,是第一个图像的标签,它是一个0-9范围内的数字。接下来的3072个字节是图像像素的值。前1024个字节是红色通道值,下1024个是绿色通道值,最后1024个是蓝色通道值
值以行优先顺序存储,因此前32个字节是图像第一行的红色通道值
每个文件都包含10000个这样的3073字节的行图像,但没有任何分隔行的限制。因此每个文件应该完全是30730000字节长