概述
近期正在学习目标检测和语义分割(图像分割),代码小白的我看到某些案例代码繁杂充满细节无处下手,整理思路后决定从处理训练和验证图片作为自定义数据集入手,并写博客记录学习过程。参考示例使用MindSpore框架完成DeepLab v3搭建,并实现车道线检测这样的语义分割场景,因此数据集中的数据部分是车道图片,标签(导师值)对应的是黑底白线的车道线图片。
参考项目链接:车道线检测GitCode
代码逻辑梳理
单个图片转ndarry矩阵为例,基本过程如下:
- 得到图片字节形式:f.read()以rb方式读取jpg文件,得到字节流image_byte
- 得到图片数组(一维)形式:np.frombuffer(image_byte, dtype=np.uint8) 通过frombuffer函数将字节流变为ndarray类型数组(后续np.imdecode只能接收ndarry格式)
- 得到图片矩阵形式:cv2.imdecode(..., cv2.IMREAD_COLOR) 解码ndarry数组,变为IMREAD_COLOR彩色图矩阵(ndarry类型,含通道),可直接送入神经网络。此时形状是H,W,C,即[[[B,G,R], [B,G,R], ...], [...]]
- 注意对于标签图像矩阵,需要将0和255的黑白图像转为二值化0和1,目的是表示分类 0 和 1。参考代码为:label_out = (label_out > 127).astype(np.uint8)
对数据和标签的图片矩阵进一步处理(经典的:scale + standardization + pad + crop,再加概率翻转和矩阵结构变换):
- cv2.resize来缩放并插值。缩放比例按照了一个均值随机的比例(例如np.random.uniform(0.5, 2)),本例interpolation插值方法数据图像采用双三次插值INTER_CUBIC,标签图像采用最近邻插值INTER_NEAREST
- 对数据图像做标准化,不需要对标签图像做。(标准化一般都放在scale和pad中间,因为标准化后不再有“颜色”的物理意义。如果先标准化再resize,resize的插值会不准确,应该在“颜色”有意义时候做插值。)
- 对于尺寸小于512*512的,通过cv2.copyMakeBorder加边框(注意标签label图像所填充值需要和背景色一致,本例为0)
- 对大于512512尺寸的做随机裁剪,最终保证尺寸统一为512512,裁剪方法使用Python中的字符串切片[h1:h1+crop_size, w1:w1+self.crop_size, :],标签部分类似,只是没有通道维度
- 50%概率翻转,数据部分[:, ::-1, :],标签部分由于没有通道维度,直接[:, ::-1]
- HWC转CHW transpose((2, 0, 1),注意transpose返回的是 “视图”(view),不是新数组,所以需要再调用返回值的.copy,而为了保险虽然标签图片没有transpose,也建议最后做.copy()操作。
创建MindRecord格式数据集:
- 读出文件夹所有图片的名称,放入列表变量img_list中,再进行shuffle打乱,用于后续根据名称找到指定数据和标签
- 创建mindspore.mindrecord.FileWriter对象,使用.add_schema关联schema变量(schema字典变量(数据模板),每个字段需要指定数据类型type,如果是张量,还可以指定shape)
- 按照img_list列表中的文件名,rb方式读取所有的数据和标签文件,每个样本的名称、数据字节、标签字节组合成符合schema的一个小字典,最终将所有样本的值都append到一个列表datas中(列表每1000个清空一次),每处理完1000个样本则向之前创建的FileWriter对象中通过.write_raw_data将列表datas中这1000个样本数据写入一次;遍历完不足1000个的数据最后再写入一次
- FileWriter对象.commit(),用于将内存中的数据同步到磁盘,并生成相应的数据库文件。
读取MindRecord数据集(数据集分为了训练和验证数据集,位于不同的文件夹下)
- 实例化MindRecord作为待访问的数据集对象(本例变量名为data_set),实例化时可指定路径、需要的列(例如不需要名称列,只需要数据和标签列)、是否打乱(一般训练打乱,验证不打乱)、线程数量、分布式训练逻辑分片数量等
- 调用MindRecord对象data_set.map(),来指定对数据集变量的操作函数(即上述的将字节处理为矩阵、对矩阵数据进行缩放标准化等)、函数输入输出对应列、线程数量等
- 分别调用data_set.shuffle(创建缓存区,每次取走一个数据后随机填入另一个),data_set.batch(一个epoch分多个batch),data_set.repeat(多个epoch即重复多少次),最后返回处理后的data_set
tip:文中np指的是numpy
2025.11.07