今天没接着死磕调参,转而去了解 CNN 的经典应用场景和轻量化模型。之前一直用 MNIST 手写数字数据集,今天试着跑了个简单的猫狗图片分类 demo,结果发现直接搬用 LeNet-5 的结构完全不行,准确率才 60% 出头,查了资料才知道是数据集复杂度差太多 —— 手写数字是单通道灰度图,猫狗是三通道彩色图,特征更复杂。然后了解到像 LeNet-5 这种早期模型,对付简单任务还行,复杂图像得用更深的模型,比如 AlexNet、VGGNet 这些,不过这些模型层数多、参数量大,我这电脑跑不动,就没实操。又看到了轻量化模型 MobileNet,它用深度可分离卷积代替普通卷积,能大幅减少参数,可惜教程里的代码有点复杂,今天没来得及跑通。