基于遗传算法优化BP神经网络(GA-BP)的数据回归 基于GA优化BP神经网络的数据回归 代码可以随意修改输入和输出代码可以选择模型的训练集个数 数据存储用的是 excel (方便修改数据),代码注释详细,完全适合新手学习。
调神经网络参数有多折磨人?试过遗传算法优化BP吗?今天咱们直接上代码,手把手教你怎么用遗传算法给BP神经网络找最佳初始参数,数据存在Excel里随便改,训练集个数自己定,小白也能秒上手。
先看数据怎么处理。咱们用pandas直接读Excel表格,第一列到倒数第二列是特征,最后一列是输出值。这里我故意留了数据缩放的接口,万一遇到量纲差异大的数据记得开箱即用:
import pandas as pd from sklearn.preprocessing import MinMaxScaler data = pd.read_excel('dataset.xlsx').values input_data = data[:, :-1] # 倒数第二列之前都是输入 output_data = data[:, -1].reshape(-1,1) # 最后一列是输出 # 数据归一化,新手注意这个scaler要复用 scaler_x = MinMaxScaler() scaler_y = MinMaxScaler() X = scaler_x.fit_transform(input_data) Y = scaler_y.fit_transform(output_data)接下来是重头戏遗传算法。咱们把神经网络的初始权重和阈值编码成染色体,种群规模设20,迭代10次(实际项目可以调大)。适应度直接用神经网络预测的均方误差,误差越小适应度越高:
# 遗传算法核心参数 DNA_SIZE = 10 # 每个染色体包含10个参数(根据网络结构调整) POP_SIZE = 20 CROSS_RATE = 0.8 MUTATION_RATE = 0.003 N_GENERATIONS = 10 def get_fitness(pop): # 把种群中的每个DNA解码成网络参数 fitness = [] for dna in pop: # 这里用随机数模拟实际训练过程,真实代码需替换为神经网络训练 # model = build_model(dna) # pred = model.predict(X_train) # loss = mean_squared_error(y_train, pred) loss = np.random.rand() # 占位符,实际要用真实loss fitness.append(1/(loss + 1e-5)) # 防止除零 return np.array(fitness)交叉变异怎么实现?这里有个小技巧——用numpy的向量操作代替循环,速度直接快十倍。注意变异要控制幅度,别让参数飞了:
def crossover(parent, pop): if np.random.rand() < CROSS_RATE: i = np.random.randint(0, POP_SIZE, size=1) cross_points = np.random.randint(0, 2, size=DNA_SIZE).astype(np.bool) parent[cross_points] = pop[i, cross_points] return parent def mutate(child): for point in range(DNA_SIZE): if np.random.rand() < MUTATION_RATE: child[point] += np.random.normal() return child最后整合成完整的训练流程。把遗传算法找到的最佳参数灌给BP网络,你会发现训练收敛快多了。这里用Keras搭建网络,注意输入输出层节点数要改的话直接改第一层和最后一层的units数就行:
from keras.models import Sequential from keras.layers import Dense def build_bp(dna=None): model = Sequential() model.add(Dense(units=6, activation='relu', input_dim=3)) # input_dim改成你的特征数 model.add(Dense(units=1)) if dna is not None: # 如果传入了遗传算法优化的参数 model.set_weights(dna_to_weights(dna)) # 需要实现DNA解码函数 model.compile(optimizer='adam', loss='mse') return model # 训练示例 best_dna = ga_optimize() # 执行遗传算法优化 model = build_bp(best_dna) history = model.fit(X_train, y_train, epochs=500, verbose=0)跑完代码别忘反归一化输出结果,要不看到0-1之间的数值该懵了。画个预测值和真实值的对比图,效果一目了然:
# 结果反归一化 y_pred = scaler_y.inverse_transform(model.predict(X_test)) y_true = scaler_y.inverse_transform(y_test) # 画个酷炫的对比图 plt.plot(y_true, 'r', label='True') plt.plot(y_pred, 'b--', label='Predict') plt.legend() plt.show()遇到显存不足怎么办?把batch_size调小到16或32。训练时间太长?适当减少隐层神经元数量。代码里所有关键参数都做成了变量,改起来就像调空调温度一样简单。
最后说个实战经验:遗传算法迭代次数别超过50,种群规模控制在20-50之间效果最佳。有时候单纯用遗传算法优化的模型可能还不如随机搜索,这时候试试把遗传算法的变异率调高,说不定有奇效。