Datawhale 春训营新能源预测(数据处理)

news/2025/10/23 9:36:48/文章来源:https://www.cnblogs.com/GPVI/p/19159626

[!NOTE] 数据背景介绍
数据来自 比赛举办方: 主要数据是 三个天气数据源nwp1 nwp2 nwp3,以及历史发电功率数据

新能源预测(数据处理)

1. NWP 数据

1.1 nwp数据

nwp 数据 -- NWP代表数值天气预报(Numerical Weather Prediction),通过python 第三方库netCDF4 来对nwp 数据进行读取,并转换为方便处理的csv 格式。

结构示例:


🔢 维度 Dimensions
------------------------------
time: size = 1
channel: size = 8
lead_time: size = 24
lat: size = 11
lon: size = 11📊 变量 Variables
------------------------------
time: shape = (1,), dtype = int64
channel: shape = (8,), dtype = <class 'str'>
data: shape = (1, 24, 8, 11, 11), dtype = float64
lat: shape = (11,), dtype = int64
lon: shape = (11,), dtype = int64
lead_time: shape = (24,), dtype = int64dimensions: ('lead_time',)
📅 原始 time 值: [0]
⏱ 原始 lead_time 值: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
📆 解析后的起始时间: 2024-01-01 16:00:00

各个数据源 chanel 包含的天气信息

[!NOTE] 官方解释
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。

怎么理解这个解释嘞?

数据首先是时间序列(0-23),每个小时的每个特征 有11 * 11 的分布,例如下边这样

Feature Table

变量名称 NWP 模型 1 NWP 模型 2 NWP 模型 3 中文解释
ghi ✔️ ✔️ ✔️ 全球水平辐照度
poai ✔️ ✔️ ✔️ 平面总辐射
sp ✔️ ✔️ 地表温度
msl ✔️ 平均海平面气压
t2m ✔️ ✔️ ✔️ 2米高度温度
tcc ✔️ ✔️ ✔️ 总云量
tp ✔️ ✔️ ✔️ 降水量
u100 ✔️ ✔️ ✔️ 100米高度处的东风分量
v100 ✔️ ✔️ ✔️ 100米高度处的北风分量

✔️ 表示该模型包含此变量。

1.2 处理nwp数据

从每个气象预报文件(格式为 DATE.nc)中提取24小时的预报数据,并对每个小时内的8个气象变量进行空间平均计算(即在经纬度维度上取平均值)。最终生成一个形状为 (24, 8) 的二维数组 daily_data,表示每天24小时、每个小时中8个变量的空间平均值。

完成前置数据处理后,依次进行以下操作:

  1. 检查缺失值(NaN)
  2. 归一化处理(Normalization)
  3. 将结果保存为CSV文件
  4. 特征工程
    • 通过u/v100 计算wind_speed ,并作为新的feature 添加到数据中。
    • 由于每个站点的发电功率对每个feature的依赖不同,因此针对不同站点其用于训练的特征不同。
      • 通过baseline来获取不同站点的feature importance 信息,根据importance信息来筛选feature 见Table 1。同时计算三个数据源中ghi,poai,wind_speed的平均值保存为train_means.csv 和 test_means.csv。

Table 1 :Features used for each station.

Station Features
1 wind_speed, wind_direction
2 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
3 wind_direction, t2m, wind_speed, tcc, tp
4 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
5 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
6 ghi
7 ghi
8 ghi, time, wind_direction, t2m, tp
9 poai
10 wind_speed, wind_direction, poai, t2m, tp, tcc, sp

2. Target数据

总共10 个target 数据,是训练集对应的发电功率数据。

其中每个站点的target数据,是该站点2024 年的发电功率数据,其中数据的统计步长为15分钟,共35136 条数据。

2.1 数据处理:

  • 清除异常数据,对nan数据进行线性插值处理。
  • 将其数据步长更改为1h。(四个只保留整点数据)
  • 保存为csv文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/943954.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

权威调研榜单:实验用超细粉碎机实力厂家TOP7榜单好评深度解析

在科研实验与工业研发领域,实验用超细粉碎机作为材料前处理的核心设备,其性能优劣直接关系到研究成果的准确性与可靠性。本文基于专业市场调研数据,从企业规模、技术专利、品质管控、行业应用案例等多维度进行深度解…

AI股票预测分析报告 - 2025年10月23日

AI股票预测分析报告 - 2025年10月23日body { font-family: "Microsoft YaHei", "Segoe UI", Tahoma, Geneva, Verdana, sans-serif; line-height: 1.6; color: rgba(51, 51, 51, 1); max-width: 1…

智能化时代下,企业DevOps平台的选型突围:谁在真正驱动业务价值?

数字化转型中,DevOps平台从工具自动化转向价值赋能。本文对比主流DevOps产品,国产DevOps平台具备价值流可视化、AI赋能及安全合规能力,适配云原生趋势,契合信创DevOps需求,助力企业提升研发效能。在数字化转型的深…

2025年10月deepseek排名优化推荐:主流机构对比排行榜

引言与现状分析 当用户在搜索框输入“deepseek排名优化”时,往往面临三重焦虑:一是生成式引擎迭代快,上周有效的方法本周可能失效;二是服务商宣传口径趋同,难以判断真实技术深度;三是预算有限,却担心低价方案留…

异常值检测算法学习

1. 基于分布的异常检测 1.1 3σ准则 (3-Sigma Rule) 原理:基于正态分布假设,认为距离均值3个标准差之外的数据点为异常值 数学表达式: python def three_sigma_detection(data):mean = np.mean(data)std = np.std(d…

取方案

取方案对于取方案: 跑两遍,第一遍取值,第二遍取方案

SQL Server 2008 R2 升级补丁需要注意的问题

安装了sqlserver2008r2-kb3045314-x64.exe后无法再安装sqlserver2008r2-kb3045316-x64,并且sqlserver2008r2-kb3045314-x64.exe安装后的版本高于sqlserver2008r2-kb3045316-x64, 我猜测是微软将两个补丁的名称顺序弄…

Maven的使用(Leo)

Maven Maven构建生命周期的核心阶段clean:清理项目编译、打包生成的输出文件(如 target 目录 ) validate:校验项目必要信息、依赖是否完整 compile:编译项目主代码(一般是 src/main/java 里的 Java 文件 ) test…

数字化实战:医疗器械行业售后工程师如何借CRM实现高效运维​

北京某三甲医院手术室走廊,晨光透过玻璃窗洒在消毒设备上。赵工抓起工牌走向电梯,口袋里的手机震动了一下,这是他今天收到的第一条设备预警通知。1、7:30 AM | 出发前的设备体检 作为一家国内头部医疗器械企业的售后…

2025年10月geo优化服务商推荐:知名机构评测列表

引言与现状分析 当品牌方在2025年第四季度规划来年预算时,“如何在生成式引擎里被看见”成为CMO例会的高频议题。DeepSeek、豆包、通义千问、元宝、Kimi的日活总和已突破4.3亿,传统SEO流量出现两位数的环比下滑,而G…

pg数据库表的大小

SELECT table_schema || . || table_name AS table_full_name, pg_size_pretty(pg_total_relation_size(" || table_schema || "." || table_name || ")) AS sizeFROM information_sch…

20251020_QQ_Cipher

倒序Rev,Base64,异或XOR,字符串Tags:倒序Rev,Base64,异或XOR,字符串 0x00. 题目 题目表述 A3O9Uzb1gzbox2O5kDNoVDOo1Db6kWao5mb8oDP8Qza4YnasF2a 如果能够倒带到最初的起点 如果能够补全不圆满 如果能有128种选择 总有…

高压差分探头PKDV508E使用常见问题与解决方案

高压差分探头在电力电子、开关电源、变频器等众多领域是必不可少的测量工具,尤其在浮地测量和高共模噪声抑制等场景下表现出色。PKDV508E作为一款具有100MHz带宽、800Vpk高压测量能力的差分探头,被广泛应用于研发、调…

好拼|免费在线拼图工具上架谷歌商店啦 - ops

在刚刚过去的两个月,我沿着中国东南沿海自驾了一大圈,那段时间几乎所有的精力都投入到了山川大海与人文美食之中,没怎么更新我的免费在线拼图工具,后台有不少朋友催更。这不,一回到家我就马不停蹄地开始了新一轮更…

基于MATLAB/Simulink的光照强度模型构建方法

一、基础光照模型实现 1. 恒定光照模型适用场景:简化分析或基准测试实现步骤: % 添加常量模块 add_block(simulink/Sources/Constant, Solar_Irradiance); set_param(Solar_Irradiance, Value, 1000); % 设置为标准光…

地中海、双肩包、格子衫?从业9年程序员聊聊真实的程序员是什么样子

你印象中的程序员,是不是这样的?不可否认,这确实是程序员的一种状态,并且现在依然存在。但其实这并不能代表大多数程序员,作为一名工作了 9 年的程序员,有必要跟大家聊聊真实的程序员是什么样子。 其实每个行业都…

2025年10月geo公司推荐:主流排行榜与避坑指南

引言与现状分析 当“2025年10月 geo公司”被输入搜索框,背后往往是三类真实焦虑:预算有限的成长型品牌担心“投错供应商”,头部企业担心“多平台算法不同步导致形象割裂”,而转型中的制造企业更担心“专业内容无法…

2025年10月又红又痒用什么产品推荐:口碑排行五款精华评价

入秋以后,昼夜温差拉大,办公室空调与户外冷风交替,皮肤屏障最容易“报警”:洗完脸紧绷、出门两分钟就泛红、夜里莫名刺痒。很多人第一反应是“换更厚重的面霜”,却越涂越闷,红痒不减。皮肤科门诊数据显示,每年9…

2025年10月美白精华产品推荐榜:临床验证数据排行

国庆一过,紫外线强度虽降,但夏季累积的色斑、暗沉开始显形,不少用户把“美白”列入十月护肤重点。后台高频提问集中在三点:敏感肌能否用、多久见效、会不会反黑。国家药监局2024年化妆品注册备案年报显示,美白淡斑…

RJ45

RJ45RJ45 连接器的英文全称为 Registered Jack 45RJ45 连接器的英文全称为 Registered Jack 45,主要应用于局域网(LAN,Local Area Network)连接。该连接器具有 8 个触点,对应的 8 条线缆通过双绞线构成 4 组差分对…