CH3
-  激活函数意义 
 增强网络表达能力,引入非线性因素
 连续可导的非线性函数
 尽可能简单
 导数的值域要在合适的范围内
-  为什么会发生梯度消失 
 误差传播的迭代公式为:
 其中需要用到激活函数的导数,而激活函数的导数值小于1时,误差经过每一层传递都会不断衰减,当网络很深的时候,梯度会消失。
-  损失函数的种类 
 绝对值损失函数
 交叉熵损失函数
 平方损失函数
-  梯度下降方法 
 梯度下降:全批次
 随机梯度下降:每一次随机选择一个数据计算梯度
 mini-batch:结合两者
 异同:计算效率,更新频率,样本划分,目标
-  如何解决梯度消失和过拟合 
 选择合适的激活函数,用复杂的们结构代替激活函数,残差结构
 正则化解决过拟合
-  CNN 
 由卷积层、子采样层、全连接层交叉堆叠而成
-  与DNNqubie 
-  DNN训练方法 
 BP
-  RNN的训练方法 
 BPTT
-  BPTT和BP的区别 
 BPTT损失函数定义为每一个时刻的损失之和,它会在每一个时间步长内叠加所有对应的权重梯度
-  GNN如何解决邻接节点个数不确定 
 将目标节点的特征更新为其自身特征和邻居特征的组合。
-  GNN卷积步骤:1.Aggregation 2.Transformation 
 在最后一层(K层)得到每个结点的表示后,可以根据任务将其代入任何损失函数,然后用梯度下降法训练参数
-  GNN训练方法 
 卷积,然后在最后一层得到每个节点的表示后,根据任务将其带入任何损失函数,邻接节点特征聚合 ,transformation引入非线性
相较于DNN,CNN,RNN有什么优点?
- DNN,CNN输入输出定长,RNN处理变长问题效率更高
- DNN,CNN无法处理时序相关的问题
CNN各层的作用是什么
- 卷积层:通过卷积操作减少参数
- 池化层:通过采样减少网络规模
- 全连接层:将池化层的单元平化
GNN和CNN的区别
- 卷积思想 - 核心相同:两者都利用卷积操作从输入中提取特征。
- 共享权重:CNN在特定区域共享卷积核参数,GNN在邻域节点中共享权重,减少参数量。
- 特征聚合:两者都通过聚合局部特征(局部连接)生成全局信息。
 
- 目标: - 两者均试图降低模型复杂度,同时保留尽可能多的关键信息。
 
- 训练方法: - 均通过梯度下降法优化损失函数(如交叉熵损失)。
- 使用类似的反向传播(BP)算法来更新权重。
 
LSTM VS GRU
 门结构不同
 LSTM:输入门+遗忘门+输出门
 GRU:更新门+重置门
 模型参数不同
 GRU比LSTM更加简单,参数更少
 对memory 的控制不同
 LSTM: 用output gate 控制,传输给下一个unit。
 GRU:直接传递给下一个unit,不做任何控制。