深入探索Mamba模型架构与应用 - 商品搜索 - 京东
DeepSeek大模型高性能核心技术与多模态融合开发 - 商品搜索 - 京东
由于大气运动极为复杂,影响天气的因素较多,而人们认识大气本身运动的能力极为有限,因此以前天气预报水平较低 。预报员在预报实践中,每次预报的过程都极为复杂,需要综合分析,并预报各气象要素,比如温度、降水等。现阶段,以往极少出现的极端天气现象越来越多,这极大地增加了预报的难度,如图11-20所示。
图11-20 天气预报
本小节将使用Jamba完成天气预测,即在给定天气因素下,预测城市是否下雨。
1. 数据集的准备
这里作者准备了来自澳大利亚多个气候站的日常共15万条收集[wy1] [晓王2] 的数据,如图11-21所示。
图11-21 澳大利亚天气数据集前5条内容
其中的变量解释如下所示。
- Location 获取该信息的气象站的名称
- MinTemp 以摄氏度为单位的低温度
- MaxTemp 以摄氏度为单位的高温度
- Rainfall 当天记录的降雨量,单位为mm
- Evaporation 到早上9点之前的24小时的A级蒸发量(mm)
- Sunshine 白日受到日照的完整小时
- WindGustDir 在到午夜12点前的24小时中的强风的风向
- WindGustSpeed 在到午夜12点前的24小时中的强风速(km/h)
- WindDir9am 上午9点时的风向
- WindDir3pm 下午3点时的风向
- WindSpeed9am 上午9点之前每10分钟的风速的平均值(km/h)
- WindSpeed3pm 下午3点之前每10分钟的风速的平均值(km/h)
- Humidity9am 上午9点的湿度(百分比)
- Humidity3am 下午3点的湿度(百分比)
- Pressure9am 上午9点平均海平面上的大气压(hpa)
- Pressure3pm 下午3点平均海平面上的大气压(hpa)
- Cloud9am 上午9点的天空被云层遮蔽的程度,这是以oktas来衡量的,这个单位记录了云层遮挡天空的程度。0表示完全晴朗的天空,而8表示完全是阴天
- Cloud3pm 下午3点的天空被云层遮蔽的程度
- Temp9am 上午9点的摄氏度温度
- Temp3pm 下午3点的摄氏度温度
- RainToday 今日是否有雨
- RainTomorrow 明日是否有雨
通过观察可以发现,这个特征矩阵由一部分分类变量和一部分连续变量组成,其中云层遮蔽程度虽然是以数字表示的,但是其本质却是分类变量。大多数特征都是采集的自然数据,比如蒸发量、日照时间、湿度等,而少部分特征则是人为构成的。还有一些是单纯表示样本信息的变量,比如采集信息的地点,以及采集的时间。
在我们知道了数据情况后,下一步就是确定目标标签,简单来说,就是我们的标签:明天下雨吗?目标特征RainTomorrow表示明天是否会下雨,即是或否。
2. 特征的选择与程序实现
在特征选择过程中,我们需要根据目标精准地挑选最合适的特征进行计算。以天气为例,我们推测昨天的天气状况可能会对今天的天气状况有所影响,同样,今天的天气状况也可能影响明天的天气状况。换言之,在样本之间,随着时间的推移,是存在相互影响的。然而,传统的算法往往只能捕捉到样本特征与标签之间的关系,即列与列之间的联系,而无法把握样本与样本之间的关联,也就是行与行之间的联系。
要让算法能够理解前一个样本标签对后一个样本标签的潜在影响,我们需要引入时间序列分析。时间序列分析是通过将同一统计指标的数据按其发生的时间顺序排列,以数列形式呈现出来。其主要目的是依据历史数据预测未来趋势。但据作者了解,时间序列分析通常适用于单调且唯一的时间线,即它一次只能预测一个地点的数据,而无法同时预测多个地点,除非进行循环操作。然而,我们的时间数据并非单调或唯一的,尤其是在抽样后,数据的连续性也可能被破坏。我们的数据混杂了多个地点和不同时间段的信息,这使得使用时间序列分析来处理问题变得相当复杂。
那么,我们可以尝试另一种思路。既然算法擅长处理的是列与列之间的关系,我们是否可以将“今天的天气影响明天的天气”这一因素转换为一个具体的特征呢?实际上,这是可行的。
我们注意到数据中有一个特征列名为RainToday,表示当前日期和地区的降雨量,即“今日的降雨量”。基于常识,我们认为今天是否下雨很可能会影响明天的天气状况。例如,在某些气候区域,一旦开始下雨,可能会持续数日;而在另一些地方,暴雨可能来得快,去得也快。因此,我们可以将时间对气候的连续影响转换为“今天是否下雨”这一特征。这样,我们可以巧妙地将原本样本间(行与行之间)的联系转换为特征与标签之间的联系(列与列之间)。
下面将使用其中6个特征'Location'、'WindGustDir'、'WindDir9am'、'WindDir3pm'、'Date'和'RainToday'完成对明日天气的预测。代码如下:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as npdef preprocessing(df, index):labels = set([])for label in df[index]:labels.add(label)labels = list(labels)# print(labels)column = df[index]df.drop(axis=1, columns=index, inplace=True)if 'RainT' in index:temp = column.map(lambda x: labels.index(x))elif index == 'Date':temp = column.map(lambda x: x[5] if x[6] == '/' else x[5:7])else:temp = column.map(lambda x: labels.index(x) + 1)df.insert(0, index, temp)return dfdef get_dataset(location): # 获取数据集df = pd.read_csv(location)# df = df[['Location', 'MinTemp', 'MaxTemp', 'Rainfall', 'Evaporation', 'Sunshine', 'WindGustDir', 'WindGustSpeed',# 'WindSpeed9am', 'WindSpeed3pm', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm',# 'Cloud9am', 'Cloud3pm', 'Temp9am', 'Temp3pm', 'RainToday', 'RainTomorrow']]df = df.dropna() # 去除包含缺失值的行# 用整数标签代替字符串型数据for label in ['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm', 'Date', 'RainToday', 'RainTomorrow']:df = preprocessing(df, label)# Date列格式转换date = df['Date'].astype(float)df.drop(axis=1, columns='Date', inplace=True)df.insert(2, 'Date', date)# 删除相关系数过低的数据for key in df.corr()['RainTomorrow'].keys():if (df.corr()['RainTomorrow'][key] < 0.1) & (df.corr()['RainTomorrow'][key] > -0.1):df.drop(axis=1, columns=key, inplace=True)return dfdf = get_dataset('./weatherAUS.csv')
df_list = df.values.tolist()
feature = df.drop(['RainTomorrow'], axis=1).values.tolist()
label = df['RainTomorrow'].values.tolist()feature = np.array(feature)
label = np.array(label)
可以看到,我们使用Pandas抽取了6个特征作为训练特征,而RainTomorrow作为预测值被记录。数据量的多少读者可以打印完成。
下面将生成数据整理成PyTorch数据读取格式为模型训练做准备,代码如下:
import torch
from torch.utils.data import Dataset, random_splitclass TextSamplerDataset(torch.utils.data.Dataset):def _ _init_ _(self, feature = feature, label = label):super()._ _init_ _()self.feature = torch.from_numpy(feature)/4.self.label = torch.from_numpy(label).int()def _ _getitem_ _(self, index):return self.feature[index],self.label[index]def _ _len_ _(self):return len(self.label)dataset = TextSamplerDataset(feature,label)# 定义分割比例
train_ratio = 0.9
val_ratio = 0.1# 计算每个分割的数据量
total_size = len(dataset)
train_size = int(train_ratio * total_size)
val_size = int(val_ratio * total_size)# 进行数据分割
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])
在这里,TextSamplerDataset作为数据的文本读取类,对结果进行整合,并且由于特征值普遍较大,因此在计算时我们采用除以4的方法对其进行修正。random_split的作用是将完整的数据集按9:1的比例划分为训练集与测试集。
3. 天气预测模型的实现
对于天气预测模型的实现,我们将使用Jamba作为计算核心完成预测模型,而在输入的部分,由于输入的是一个1D数据,首先需要对其维度进行调整,整理成一个新的2D向量,从而进行后续的计算。
而输出层我们采用一个全连接层,将输入向量计算后整理成一个二分类,从而对结果进行预测。完整的天气预报模型如下:
class PredicateWeather(torch.nn.Module):def _ _init_ _(self,jamba_dim = 384,jamba_head = 6,feature_num = 13):super()._ _init_ _()self.feature_num = feature_numself.linear = torch.nn.Linear(feature_num,feature_num * jamba_dim)self.jamba = model.Jamba(dim=jamba_dim,attention_head_num=jamba_head)self.logits_layer = torch.nn.Linear(feature_num * jamba_dim,2)def forward(self,x):x = self.linear(x)x = einops.rearrange(x,"b (f d) -> b f d",f = self.feature_num)x = self.jamba(x)x = torch.nn.Flatten()(x)x = torch.nn.Dropout(0.1)(x)logits = self.logits_layer(x)return logits
4. 天气预报模型的训练与验证
最后,我们将使用模型在澳大利亚天气数据集上完成预测任务。在这里,我们可以同时对损失值和正确率进行监测,并通过tqdm类具体实现,代码如下:
import torch
from tqdm import tqdm
import weather_predicate
import get_weather_datasetfrom torch.utils.data import DataLoadermodel = weather_predicate.PredicateWeather()batch_size = 256
device = "cuda"model = model.to(device)# 创建数据加载器
train_loader = DataLoader(get_weather_dataset.train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(get_weather_dataset.val_dataset, batch_size=batch_size, shuffle=False)import torch
optimizer = torch.optim.AdamW(model.parameters(), lr = 2e-4)
lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer,T_max = 6000,eta_min=2e-6,last_epoch=-1)
criterion = torch.nn.CrossEntropyLoss()for epoch in range(24):correct = 0 # 用于记录正确预测的样本数量total = 0 # 用于记录总样本数量pbar = tqdm(train_loader,total=len(train_loader))for feature,label in pbar:optimizer.zero_grad()feature = feature.float().to(device)label = label.long().to(device)logits = model(feature)loss = criterion(logits.view(-1, logits.size(-1)), label.view(-1))loss.backward()optimizer.step()lr_scheduler.step() # 执行优化器# 计算正确率_, predicted = torch.max(logits.data, 1) # 得到预测结果total += label.size(0) # 更新总样本数量correct += (predicted == label).sum().item() # 更新正确预测的样本数量accuracy = 100 * correct / total # 计算正确率pbar.set_description(f"epoch:{epoch +1},accuracy:{accuracy:.3f}%, train_loss:{loss.item():.5f}, lr:{lr_scheduler.get_last_lr()[0]*1000:.5f}")# 测试模型
model.eval()
test_correct = 0 # 用于记录正确预测的样本数量
test_total = 0 # 用于记录总样本数量
with torch.no_grad():for feature, label in val_loader:feature = feature.float().to(device)label = label.long().to(device)logits = model(feature)# 计算正确率_, predicted = torch.max(logits.data, 1) # 得到预测结果test_total += label.size(0) # 更新总样本数量test_correct += (predicted == label).sum().item()# 更新正确预测的样本数量test_accuracy = 100 * test_correct / test_total # 计算正确率print(f"在测试集上的准确率为:{test_accuracy}")
在这里,我们同时完成了模型的训练以及对结果的预测,并且在划分的验证集上获得了对结果准确率的验证,如下所示:
epoch:1,accuracy:69.912%, train_loss:3.56852 100%|██████████| 199/199 [00:26<00:00, 7.60it/s]
epoch:2,accuracy:74.985%, train_loss:3.15288 100%|██████████| 199/199 [00:26<00:00, 7.64it/s]
...
epoch:24,accuracy:82.689%, train_loss:0.4148 100%|██████████| 199/199 [00:26<00:00, 7.48it/s]在测试集上的准确率为:84.36724565756823
可以看到,经过24轮的预测,在训练集上我们获得了82.69%的准确率,而将模型和训练参数迁移到验证集上,我们获得了84.37%的准确率。当然,从训练集上的结果来看,此时可能还没有充分完成特征的训练,模型仍旧除于“欠拟合”状态,还需要继续训练,这一点有兴趣的读者可以继续尝试完成。