一、residual结构

优点:
 (1)超深的网络结构(突破1000层)  
 
 (2)提出residual模块  
 
 (3)使用Batch Normalization加速训练(丢弃dropout) 
 
 
解决问题: 
 
(1) 梯度消失和梯度爆炸 
 
(2) 退化问题,即层数深效果反而不好 
 
 
右图对比左图, 可以减少计算的参数 
 
 
二、 
 
 
 
option B 可以使实线部分的输入矩阵和输出矩阵shape不同 
 
 
三、Batch Normalization 
 
 
 
四、网络结构图 
 
