《从卷积核到数字解码：CNN 手写数字识别实战解析》

文章目录

一、手写数字识别的本质与挑战
二、使用步骤
- 1.导入torch库以及与视觉相关的torchvision库
- 2.下载datasets自带的手写数字的数据集到本地
三、完整代码展示

一、手写数字识别的本质与挑战

手写数字识别的核心是：从二维像素矩阵中提取具有判别性的特征，区分 0-9 这 10 个类别。其难点包括：
手写风格多样性：不同人书写的数字（如 “3” 可能有开口或闭口）、笔画粗细、倾斜角度差异大。
位置与尺度变化：数字在图像中的位置（偏上 / 偏下）、大小可能不一致（如 MNIST 数据集中数字存在轻微平移）。
噪声与形变：实际场景中可能存在笔画断裂、污渍等噪声，或扫描时的图像模糊。
传统方法（如 SVM、KNN）依赖人工设计特征（如 HOG、SIFT、几何矩），需专家经验且泛化能力有限；而 CNN 通过自动化特征学习 + 结构化归纳偏置，天然适配这些挑战。

二、使用步骤

1.导入torch库以及与视觉相关的torchvision库

import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

2.下载datasets自带的手写数字的数据集到本地

"""下载测试数据集（包含图片和标签）"""training_data=datasets.MNIST(root='../data',train=True,download=True,transform=ToTensor()
)"""下载测试数据集（包含训练图片+标签）"""test_data=datasets.MNIST(root='../data',train=False,download=True,transform=ToTensor()
)

3、将下载的数据集打包

train_dataloder=DataLoader(training_data,batch_size=64)
test_dataloder=DataLoader(test_data,batch_size=64)

4、指定数据训练的设备

device="cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"print(f"{device}device")

5、定义神经网络框架和前向传播

class NeurakNetwork(nn.Module):     #通过调用类的形式来使用神经网络，神经网络的模型nn.moudledef __init__(self):super().__init__()  #继承父类的初始化self.flatten=nn.Flatten()   #将二位数据展成一维数据self.hidden1=nn.Linear(28*28,128)   #第一个参数时有多少个神经元传进来，第二个参数是有多少个数据传出去self.hidden2=nn.Linear(128,256)self.out=nn.Linear(256,10)      #输出必须与标签类型相同，输入必须是上一层神经元的个数def forward(self,x):    #前向传播，指明数据的流向，使神经网络连接起来，函数名称不能修改x=self.flatten(x)x=self.hidden1(x)x=torch.relu(x)     #激活函数，torch使用relu或者tanh函数作为激活函数x=self.hidden2(x)x=torch.relu(x)x=self.out(x)return x

6、初始化神经网络并将模型加载到设备中

model = NeurakNetwork().to(device)      #将刚刚定义的模型传入到GPU中

7、定义模型训练的函数

def train(dataloader,model,loss_fn,optimizer):model.train()       #告诉模型，即将开始训练，其中的w进行随机化操作，已经更新w，在训练过程中，w会被修改"""pytorch提供两种方式来切换训练和测试的模式，分别是model.train()和model.eval()一般用法是，在训练开始之前写上model.train()，在测试时写上model.eval()"""batch_size_num=1for X,y in dataloader:      #其中batch为每一个数据的编号X,y=X.to(device),y.to(device)   #将训练数据集和标签传入cpu和gpupred=model.forward(X)loss=loss_fn(pred,y)    #通过交叉熵损失函数计算loss#Backpropagation  进来一个batch的数据，计算一次梯度，更新一次网络optimizer.zero_grad()   #梯度值清零loss.backward()     #反向传播计算得到的每个参数的梯度值woptimizer.step()    #根据梯度更新网络w参数loss_value=loss.item()  #从tensor数据中提取数据出来，tensor获取损失值if batch_size_num%100==0:print(f"loss:{loss_value:>7f}[number:{batch_size_num}]")batch_size_num+=1

8、定义测试的函数

def test(dataloader,model,loss_fn):size=len(dataloader.dataset)num_batches=len(dataloader)model.eval()test_loss,correct=0,0with torch.no_grad():for X,y in dataloader:X,y=X.to(device),y.to(device)pred=model.forward(X)test_loss+=loss_fn(pred,y).item()correct +=(pred.argmax(1)==y).type(torch.float).sum().item()a=(pred.argmax(1)==y)b=(pred.argmax(1)==y).type(torch.float)test_loss/=num_batchescorrect/=sizeprint(f"Test result:\n Accurracy:{(100*correct)}%,AVG loss:{test_loss}")

9、初始化损失函数创建优化器

loss_fn=nn.CrossEntropyLoss()   #创建交叉熵损失函数对象，适合做多分类optimizer=torch.optim.SGD(model.parameters(),lr=0.01)   #创建优化器，使用SGD随机梯度下降

10、调用训练和测试的函数，完成训练一次测试一次

train(train_dataloder,model,loss_fn,optimizer)  #训练一次完整的数据，多轮训练
test(test_dataloder,model,loss_fn)

11、训练20轮，测试一次

epochs=20
for epoch in range(epochs):train(train_dataloder,model,loss_fn,optimizer)print(f"epoch{epoch}")
test(test_dataloder,model,loss_fn)

三、完整代码展示


"""手写数字识别"""
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor"""下载测试数据集（包含图片和标签）"""training_data=datasets.MNIST(root='../data',train=True,download=True,transform=ToTensor()
)"""下载测试数据集（包含训练图片+标签）"""test_data=datasets.MNIST(root='../data',train=False,download=True,transform=ToTensor()
)
print(len(training_data))"""展示手写图片，把训练集中的前59000张图片展示一下"""
from matplotlib import pyplot as plt
figure=plt.figure()
for i in range(9):img,label=training_data[i+59000]figure.add_subplot(3,3,i+1)plt.title(label)plt.axis("off")plt.imshow(img.squeeze(),cmap='gray')a=img.squeeze()
plt.show()train_dataloder=DataLoader(training_data,batch_size=64)
test_dataloder=DataLoader(test_data,batch_size=64)device="cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"print(f"{device}device")"""self参数理解:在类内部开辟出了一个共享空间，所有被定义在这片空间的参数都能够使用self.参数名来调用"""class NeurakNetwork(nn.Module):     #通过调用类的形式来使用神经网络，神经网络的模型nn.moudledef __init__(self):super().__init__()  #继承父类的初始化self.flatten=nn.Flatten()   #将二位数据展成一维数据self.hidden1=nn.Linear(28*28,128)   #第一个参数时有多少个神经元传进来，第二个参数是有多少个数据传出去self.hidden2=nn.Linear(128,256)self.out=nn.Linear(256,10)      #输出必须与标签类型相同，输入必须是上一层神经元的个数def forward(self,x):    #前向传播，指明数据的流向，使神经网络连接起来，函数名称不能修改x=self.flatten(x)x=self.hidden1(x)x=torch.relu(x)     #激活函数，torch使用relu或者tanh函数作为激活函数x=self.hidden2(x)x=torch.relu(x)x=self.out(x)return xmodel = NeurakNetwork().to(device)      #将刚刚定义的模型传入到GPU中
print(model)def train(dataloader,model,loss_fn,optimizer):model.train()       #告诉模型，即将开始训练，其中的w进行随机化操作，已经更新w，在训练过程中，w会被修改"""pytorch提供两种方式来切换训练和测试的模式，分别是model.train()和model.eval()一般用法是，在训练开始之前写上model.train()，在测试时写上model.eval()"""batch_size_num=1for X,y in dataloader:      #其中batch为每一个数据的编号X,y=X.to(device),y.to(device)   #将训练数据集和标签传入cpu和gpupred=model.forward(X)loss=loss_fn(pred,y)    #通过交叉熵损失函数计算loss#Backpropagation  进来一个batch的数据，计算一次梯度，更新一次网络optimizer.zero_grad()   #梯度值清零loss.backward()     #反向传播计算得到的每个参数的梯度值woptimizer.step()    #根据梯度更新网络w参数loss_value=loss.item()  #从tensor数据中提取数据出来，tensor获取损失值if batch_size_num%100==0:print(f"loss:{loss_value:>7f}[number:{batch_size_num}]")batch_size_num+=1def test(dataloader,model,loss_fn):size=len(dataloader.dataset)num_batches=len(dataloader)model.eval()test_loss,correct=0,0with torch.no_grad():for X,y in dataloader:X,y=X.to(device),y.to(device)pred=model.forward(X)test_loss+=loss_fn(pred,y).item()correct +=(pred.argmax(1)==y).type(torch.float).sum().item()a=(pred.argmax(1)==y)b=(pred.argmax(1)==y).type(torch.float)test_loss/=num_batchescorrect/=sizeprint(f"Test result:\n Accurracy:{(100*correct)}%,AVG loss:{test_loss}")loss_fn=nn.CrossEntropyLoss()   #创建交叉熵损失函数对象，适合做多分类optimizer=torch.optim.Adam(model.parameters(),lr=0.01)   #创建优化器，使用Adam优化器#params:要训练的参数，一般传入的都是model.parameters（）
#lr是指学习率，也就是步长#loss表示模型训练后的输出结果与样本标签的差距，如果差距越小，就表示模型训练越好，越逼近于真实的模型
train(train_dataloder,model,loss_fn,optimizer)  #训练一次完整的数据，多轮训练
test(test_dataloder,model,loss_fn)epochs=20
for epoch in range(epochs):train(train_dataloder,model,loss_fn,optimizer)print(f"epoch{epoch}")
test(test_dataloder,model,loss_fn)