实用指南：TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 自动微分和梯度

锋哥原创的TensorFlow2 Python深度学习视频教程：

https://www.bilibili.com/video/BV1X5xVz6E4w/

课程介绍

本课程主要讲解基于TensorFlow2的Python深度学习知识，包括深度学习概述，TensorFlow2框架入门知识，以及卷积神经网络（CNN），循环神经网络（RNN），生成对抗网络（GAN），模型保存与加载等。

TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 自动微分和梯度

学习这节课之前，大家要会基本的微积分知识。

在 TensorFlow 2 中，自动微分（automatic differentiation）是计算梯度的一种技术，它用于优化模型参数，比如在训练神经网络时通过梯度下降法更新参数。

自动微分（Autodiff）和梯度的定义和关系

梯度是指函数对其输入变量的导数，它描述了函数在某点的变化速率。在机器学习中，梯度通常指的是损失函数对模型参数（如权重）的导数。
自动微分 是一种通过计算图来自动求取梯度的技术。TensorFlow 2 通过 tf.GradientTape 来实现自动微分，它可以追踪操作并计算梯度。使用这种方式，可以高效地进行反向传播，进而计算损失函数对每个参数的梯度。

如何理解这个过程：

正向传播：在训练过程中，首先会通过模型的前向计算（正向传播）得到预测输出和损失。
自动微分：然后，TensorFlow 2 使用 tf.GradientTape 跟踪这个过程，以便在反向传播时可以自动计算每个参数的梯度。
反向传播：通过反向传播算法（backpropagation），自动微分计算损失函数相对于模型参数的梯度（即每个参数的偏导数）。

一个简单的示例：

import tensorflow as tf

# 定义一个简单的函数
def f(x):   return x ** 2

# 使用 GradientTape 自动计算梯度
x = tf.Variable(3.0)
with tf.GradientTape() as tape:   y = f(x)  # 正向计算 f(x) = x^2

# 计算 f(x) 对 x 的梯度
grad = tape.gradient(y, x)
print(grad)

运行结果：

tf.Tensor(6.0, shape=(), dtype=float32)

开发一个简单线性模型：

解决一个机器学习问题通常包含以下步骤：

获得训练数据。
定义模型。
定义损失函数。
遍历训练数据，从目标值计算损失。
计算该损失的梯度，并使用optimizer调整变量以适合数据。
计算结果。

为了便于说明，在本指南中，您将开发一个简单的线性模型, f(x)=x∗W+b, 其中包含两个变量: W (权重) 和 b (偏差)。

这是最基本的机器学习问题：给定 x 和 y，尝试通过简单的线性回归来找到直线的斜率和偏移量。

这里用到数据可视化，我们先安装下matplotlib库

pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

以及jupyter notebook

pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple

1，数据准备

from matplotlib import pyplot as plt
import tensorflow as tf

# 设置matplotlib使用黑体显示中文
matplotlib.rcParams['font.family'] = 'Microsoft YaHei'

# 正确的权重和偏置
TRUE_W = 3.0
TRUE_B = 2.0

NUM_EXAMPLES = 201

# 在区间[-2, 2]内生成NUM_EXAMPLES个均匀分布的数值点
x = tf.linspace(-2, 2, NUM_EXAMPLES)
x = tf.cast(x, tf.float32)


def f(x):   return x * TRUE_W + TRUE_B


# 生成随机噪声数据
noise = tf.random.normal(shape=[NUM_EXAMPLES])

# 计算y
y = f(x) + noise

plt.plot(x, y, '.')
plt.show()

运行结果：

2，定义模型

class MyModel(tf.Module):   def __init__(self, **kwargs):       super().__init__(**kwargs)       # 将权重初始化为5.0，偏置初始化为0.0       # 在实际应用中，这些参数应该被随机初始化       self.w = tf.Variable(5.0)       self.b = tf.Variable(0.0)
   def __call__(self, x):       return self.w * x + self.b


model = MyModel()

# 输出模型参数
print("Variables:", model.variables)

运行输出：

Variables: (, )

3，定义损失函数

损失函数衡量给定输入的模型输出与目标输出的匹配程度。目的是在训练过程中尽量减少这种差异。定义标准的L2损失，也称为“均方误差”:

# 定义损失函数（均方误差）
def loss(target_y, predicted_y):   return tf.reduce_mean(tf.square(target_y - predicted_y))

plt.plot(x, y, '.', label="数据")
plt.plot(x, f(x), label="真实值")
plt.plot(x, model(x), label="预测值")
plt.legend()
plt.show()

print("当前损失值: %1.6f" % loss(y, model(x)).numpy())

在训练模型之前，您可以可视化损失值。使用橙色绘制模型的训练数据真实值，使用蓝色绘制模型预测数据。

4，定义训练循环

训练循环按顺序重复执行以下任务：

发送一批输入值，通过模型生成输出值
通过比较输出值与输出（标签），来计算损失值
使用梯度带(GradientTape)找到梯度值
使用这些梯度优化变量

定义训练模型：

# 定义训练模型，参数是一个可调用的模型、输入、输出和学习率。..
def train(model, x, y, learning_rate):   with tf.GradientTape() as t:       # GradientTape自动跟踪可训练变量       current_loss = loss(y, model(x))
   # 使用GradientTape计算关于权重W和偏置b   dw, db = t.gradient(current_loss, [model.w, model.b])
   # 减去按学习率缩放的梯度   model.w.assign_sub(learning_rate * dw)   model.b.assign_sub(learning_rate * db)

tape.gradient 方法用于计算某个张量相对于另一个张量的梯度。

tape.gradient(target, sources, unconnected_gradients=tf.UnconnectedGradients.NONE)

参数说明：

target:
- 目标张量，即你想要计算梯度的结果张量，通常是一个标量（如损失函数值）。
sources:
- 来源张量，通常是你希望对其求梯度的变量（如模型的权重）。它可以是一个张量、一个张量列表或一个张量的集合。
unconnected_gradients (可选):
- 用于处理图中没有连接的变量的方式。可以有三个选项：
  - tf.UnconnectedGradients.NONE（默认值）：忽略没有连接的梯度。
  - tf.UnconnectedGradients.ZERO: 将未连接的梯度视为零。
  - tf.UnconnectedGradients.WARNING: 如果存在未连接的梯度，则会抛出警告。

返回值：

tape.gradient 返回一个张量或张量列表，表示对应来源张量的梯度。如果 sources 是多个张量，它将返回一个梯度列表。

要查看训练，您可以通过训练循环发送同一批次的 x 和 y，并观察 W 和 b 如何变化。

# 实例化一个模型
model = MyModel()

# 定义变量，收集W值和b值的历史数据，以便后续绘图
weights = []
biases = []
# 训练10轮
epochs = range(10)


# 定义一个报告函数
def report(model, loss):   return f"W = {model.w.numpy():1.2f}, b = {model.b.numpy():1.2f}, loss={loss:2.5f}"


# 定义一个训练循环
def training_loop(model, x, y):   for epoch in epochs:       # 使用单个大批次更新模型       train(model, x, y, learning_rate=0.1)
       # 在我更新之前追踪权重和偏置       weights.append(model.w.numpy())       biases.append(model.b.numpy())       current_loss = loss(y, model(x))
       print(f"第{epoch + 1:2d}轮:")       print("    ", report(model, current_loss))

5，进行训练

current_loss = loss(y, model(x))

print(f"开始:")
print("    ", report(model, current_loss))

training_loop(model, x, y)

运行输出：

开始:    W = 5.00, b = 0.00, loss=10.10720
第 1轮:    W = 4.46, b = 0.38, loss=6.28441
第 2轮:    W = 4.07, b = 0.69, loss=4.10408
第 3轮:    W = 3.78, b = 0.93, loss=2.85083
第 4轮:    W = 3.57, b = 1.13, loss=2.12463
第 5轮:    W = 3.42, b = 1.28, loss=1.70038
第 6轮:    W = 3.30, b = 1.41, loss=1.45049
第 7轮:    W = 3.22, b = 1.51, loss=1.30211
第 8轮:    W = 3.16, b = 1.59, loss=1.21331
第 9轮:    W = 3.12, b = 1.65, loss=1.15977
第10轮:    W = 3.09, b = 1.71, loss=1.12726

6，权重和偏置演变可视化

plt.plot(epochs, weights, label='模型演变权重', color='blue')
plt.plot(epochs, [TRUE_W] * len(epochs), '--',        label="真实权重", color='blue')

plt.plot(epochs, biases, label='模型演变偏置', color='red')
plt.plot(epochs, [TRUE_B] * len(epochs), "--",        label="真实偏置", color='red')

plt.legend()
plt.show()

运行结果：

7，模型性能可视化

plt.plot(x, y, '.', label="数据")
plt.plot(x, f(x), label="真实值")
plt.plot(x, model(x), label="预测值")
plt.legend()
plt.show()

print("当前损失值: %1.6f" % loss(model(x), y).numpy())

经过训练，明显接近真实值。只要进行足够的训练，就越接近真实值。

总结：

梯度是损失函数对模型参数的导数。
自动微分 是一种计算梯度的技术，TensorFlow 2 通过 tf.GradientTape 来实现这一点。
通过 tf.GradientTape，你可以很方便地计算出任何函数（如神经网络损失函数）相对于其参数的梯度，这样可以直接用于优化算法（如梯度下降法）来训练模型。