【数据集】时空特征融合的风电机组故障诊断数据集

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。

⛳️座右铭:行百里者,半于九十。

📋📋📋本文内容如下:🎁🎁🎁

⛳️赠与读者

👨‍💻做科研,涉及到一个深在的思想系统,需要科研者逻辑缜密,踏实认真,但是不能只是努力,很多时候借力比努力更重要,然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览,免得骤然跌入幽暗的迷宫找不到来时的路,它不足为你揭示全部问题的答案,但若能解答你胸中升起的一朵朵疑云,也未尝不会酿成晚霞斑斓的别一番景致,万一它给你带来了一场精神世界的苦雨,那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许,雨过云收,神驰的天地更清朗.......🔎🔎🔎

💥第一部分——内容介绍

时空特征融合的风电机组故障诊断数据集

摘要:本文详细介绍了用于风电机组故障诊断的数据集,该数据集基于爱尔兰某风电场3MW风电机组的SCADA数据构建。阐述了数据集的构建过程,包括数据筛选、异常值处理、特征提取与归一化等步骤,同时说明了数据文件的具体字段信息以及样本制作和划分方式。此外,还对实验中采用的关键方法进行了小结,为风电机组故障诊断研究提供了全面的数据支持和方法参考。

一、引言

风电机组故障诊断对于保障风电场的稳定运行和提高发电效率至关重要。准确的故障诊断能够及时发现机组潜在问题,减少停机时间,降低维修成本。本文所构建的数据集旨在为风电机组故障诊断研究提供丰富且可靠的数据基础,同时介绍实验中采用的创新方法,以提升故障诊断的准确性和有效性。

二、数据集构建

(一)原始数据来源

采用爱尔兰某风电场3MW风电机组的SCADA数据对所提方法的诊断效果进行验证。该数据集记录了2014年5月1日至2015年4月9日的数据,共计49027条样本,对应的故障数据集记录了2014年5月14日至2015年1月15日的数据,共计553条样本,采样间隔均为10min,包含63个监测变量和6种运行状态。所有运行状态及分配的标签如下表所示:

运行状态标签
[具体运行状态1][对应标签1]
[具体运行状态2][对应标签2]
…………
[具体运行状态6][对应标签6]

(二)数据筛选

将SCADA数据集与故障数据集合并,筛选从第一条故障样本前24h到最后一条故障样本后24小时内的所有样本作为实验数据。此筛选策略确保了实验数据包含故障发生前后的完整信息,有助于更准确地分析故障特征和进行故障诊断。

(三)异常值处理

在保留所有故障样本的前提下,采用异常值检测方法对数据进行异常值识别与剔除。首先删除风速小于等于0、有功功率小于等于0和转速小于等于[具体阈值,原文未明确给出,可根据实际情况补充]的数据。定义邻域半径ε∈{ 0.02,0.03,0.04,0.05,0.06 } 和最小相邻点数np∈{ 6,7,8,10,12 },构成25种参数组合。

将参数组合带入带噪声基于密度的空间聚类(density based spatial clustering of application with noise,DBSCAN)对数据进行分类。在此期间,基于多层感知机分别训练一个回归模型和二分类模型。回归模型输入为风速,输出为有功功率,将模型的均方误差定义为预测误差epn;二分类模型的输入为风速和有功功率,输出为DBSCAN聚类后的数据标签,并将模型的F1得分定义为分类准确率ac。由此,每个参数组合会得到两个相应的评价指标epn、ac。

按照epn递增顺序排列,取ac第1个极大值处所对应的参数组合 (epn = 0.02,ac = 6 ,此处原文参数可能有误,ac一般取值范围在0 - 1之间,需确认准确值) 作为DBSCAN的最佳参数组合。最后,使用该参数组合对初步处理的SCADA数据进行异常值剔除,最终样本数量为30415个。

(四)特征提取与归一化

对处理后数据进行特征子集的提取,并使用Z - score标准化进行归一化。Z - score标准化能够将不同量纲的特征数据转换为具有相同分布的数据,消除特征之间的量纲差异,提高模型的训练效果和诊断准确性。

三、数据文件

数据集文件为支撑数据 - 机组数据.xlsx。其中数据表包含的字段如下:

(一)时间相关字段

时间步

(二)振动相关字段

机舱振动X_最大值
机舱振动X_最小值
机舱振动X_平均值
机舱振动Y_最大值
机舱振动Y_最小值
机舱振动Y_平均值
传动链振动_最大值
传动链振动_最小值
传动链振动_平均值

(三)风速与风向相关字段

3秒平均风速_平均值
30秒平均风速_平均值
300秒平均风速_平均值
3秒平均风向_平均值
30秒平均风向_平均值
300秒平均风向_平均值

(四)转速相关字段

风轮转速_最大值
风轮转速_最小值
风轮转速_平均值
发电机转速_平均值
转子频率_最大值
转子频率_最小值
转子频率_平均值

(五)温度相关字段

风轮侧主轴承温度_最大值
风轮侧主轴承温度_最小值
风轮侧主轴承温度_平均值
风轮侧主轴承温度_平均值.1
齿箱侧主轴承温度_平均值
机舱发电机后轴承温度_平均值
机舱发电机前轴承温度_平均值
机舱发电机线圈U1温度
机舱发电机线圈U2温度_平均值
机舱发电机线圈V1温度_平均值
机舱发电机线圈V2温度_平均值
机舱发电机线圈W1温度_平均值
机舱发电机线圈W2温度_平均值
齿轮箱高速轴承温度_平均值
机侧IGBT温度_平均值
网侧IGBT温度_平均值
水冷入口温度_平均值
水冷入口温度_平均值.1
水冷出口温度_平均值
水冷出口温度_平均值.1
齿轮箱油温_平均值
轮毂温度_平均值
机舱温度_平均值
机舱温度_最大值
机舱温度_最小值
机舱温度_平均值.1
机舱外温度_最大值
机舱外温度_最小值
机舱外温度_平均值
机舱柜内温度_平均值
机舱柜内温度_最大值
机舱柜内温度_最小值
机舱柜内温度_平均值.1
塔基柜内温度_最大值
塔基柜内温度_最小值
塔基柜内温度_平均值
塔基温度_最大值
塔基温度_最小值
塔基温度_平均值
轮毂温度_最大值
轮毂温度_最小值
轮毂温度_平均值.1

(六)功率相关字段

电网有功_最大值
电网有功_最小值
电网有功_平均值
电网无功_最大值
电网无功_最小值
电网无功_平均值

(七)其他相关字段

偏航速度_最大值
偏航速度_最小值
偏航速度_平均值
变桨轴1位置_最大值
变桨轴1位置_最小值
变桨轴1位置_平均值
变桨轴2位置_最大值
变桨轴2位置_最小值
变桨轴2位置_平均值
变桨轴3位置_最大值
变桨轴3位置_最小值
变桨轴3位置_平均值
电网频率1_最大值
电网频率1_最小值
电网频率1_平均值
电网频率2_最大值
电网频率2_最小值
电网频率2_平均值
电网频率3_最大值
电网频率3_最小值
电网频率3_平均值

(八)故障标签字段

fault_code

数据集共包含92个原始特征字段,最后一列fault_code为故障标签。数据集采用双向标注策略,该策略的前向区域和后向区域均设为3个时间步长,得到的各故障状态样本数量如下表所示:

故障状态样本数量
[故障状态1][对应数量1]
[故障状态2][对应数量2]
…………
[故障状态6][对应数量6]

随后,通过步长为1的时空窗口制作时空矩阵样本。在所有实验中,时空窗口的时间跨度与特征的数量一致,确保模型能够均匀地学习时空多尺度特征。经过上述处理,时空矩阵样本总量为30394个,从中选取所有故障样本和3000个随机正常样本,最终数据集样本数为4081个,训练集与测试集划分比例为8:2。

四、实验小结

(一)改进的序贯注意力特征选择方法

综合考虑特征变量间的信息交互作用,在风电机组故障诊断领域引入改进的序贯注意力特征选择方法。该方法能够自动筛选出对故障诊断最具影响力的特征,减少冗余特征对模型训练的干扰,提高模型的诊断效率和准确性。

(二)时空矩阵样本集构建

考虑各种运行状态在局部时间内的数据特征,为加强模型对时空特征挖掘的效果,构建了时空矩阵样本集。通过时空窗口制作样本,使模型能够同时学习到数据在时间和空间上的特征信息,更全面地捕捉故障特征,提升故障诊断的准确性。

(三)针对电气类故障的GCNN设计

针对电气类故障的瞬时突变特性,设计了融合全局感受野结构与卷积遗忘门机制的GCNN。通过扩大卷积核感知范围并选择性保留关键突变信息,实现对故障发生时刻的快速定位,显著提升了模型对电气类故障的敏感性与诊断准确性。该模型能够及时捕捉到电气故障的瞬时变化,为故障的快速处理提供有力支持。

(四)面向机械类故障的WBSN设计

面向机械类故障的缓变特性,WBSN在建模时间序列前后向依赖关系的基础上,引入加权机制对前后向序列进行自适应融合,从而更充分地捕捉故障长期演化过程中的细微趋势变化,增强对缓变型故障的早期识别能力。该模型能够提前发现机械故障的潜在迹象,为机械部件的及时维护和更换提供依据,避免故障的进一步恶化。

五、结论

本文构建的时空特征融合的风电机组故障诊断数据集,为风电机组故障诊断研究提供了丰富且可靠的数据支持。通过详细的数据处理流程和合理的样本制作与划分方式,确保了数据集的质量和可用性。同时,实验中采用的改进特征选择方法、时空矩阵样本集构建以及针对不同类型故障设计的模型,为提高风电机组故障诊断的准确性和有效性提供了新的思路和方法。未来的研究可以进一步优化模型结构,探索更多的特征提取方法,以进一步提升风电机组故障诊断的性能。

📚第二部分——运行结果

🎉第三部分——参考文献

文章中一些内容引自网络,会注明出处或引用为参考文献,难免有未尽之处,如有不妥,请随时联系删除。(文章内容仅供参考,具体效果以运行结果为准)

🌈第四部分——本文完整资源下载

资料获取,更多粉丝福利,MATLAB|Simulink|Python|数据|文档等完整资源获取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1137677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

串口通信常见问题解答:新手入门必读

串口通信常见问题解答:新手入门必读 你有没有遇到过这样的场景?STM32烧录程序后,串口助手一片空白;ESP8266明明发了AT指令,却像石沉大海;两个单片机接在一起,数据对不上号……别急,这…

Qwen2.5-7B vs ChatGLM4实战对比:数学与编程能力全面评测

Qwen2.5-7B vs ChatGLM4实战对比:数学与编程能力全面评测 1. 背景与评测目标 随着大语言模型在科研与工程领域的广泛应用,开发者对模型的数学推理能力和代码生成质量提出了更高要求。阿里云最新发布的 Qwen2.5-7B 模型,在编程与数学领域宣称…

Qwen2.5-7B中文处理能力:本土化应用的突出优势

Qwen2.5-7B中文处理能力:本土化应用的突出优势 1. 技术背景与核心价值 随着大语言模型在多语言理解与生成任务中的广泛应用,中文场景下的语义理解、文化适配和本地化表达成为衡量模型实用性的关键指标。阿里云推出的 Qwen2.5-7B 模型,作为 Q…

【质量评估】基于正则化逻辑回归的微芯片质检预测模型研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Qwen2.5-7B商业文案生成:营销内容自动化

Qwen2.5-7B商业文案生成:营销内容自动化 1. 引言:大模型驱动的营销内容自动化新范式 1.1 营销内容生产的挑战与机遇 在数字化营销时代,企业对高质量、高频率、多语言内容的需求呈指数级增长。传统人工撰写方式不仅效率低下,且难…

Qwen2.5-7B与Gemini对比:多语言任务GPU效率评测

Qwen2.5-7B与Gemini对比:多语言任务GPU效率评测 1. 背景与评测目标 随着大语言模型在多语言场景下的广泛应用,如何在有限的GPU资源下实现高效推理成为工程落地的关键挑战。本次评测聚焦于阿里云开源的Qwen2.5-7B与Google Gemini(Pro版本&…

Qwen2.5-7B法律咨询应用:常见问题自动解答

Qwen2.5-7B法律咨询应用:常见问题自动解答 1. 引言:为何选择Qwen2.5-7B构建法律咨询助手? 在法律服务领域,用户常面临大量重复性、基础性的法律问题咨询需求,如“劳动合同解除的赔偿标准”、“交通事故责任划分依据”…

开源大模型选型指南:Qwen2.5-7B是否适合你的业务场景?

开源大模型选型指南:Qwen2.5-7B是否适合你的业务场景? 在当前大语言模型快速演进的背景下,企业与开发者面临的核心挑战之一是如何从众多开源模型中选择最适合自身业务需求的技术方案。阿里云推出的 Qwen2.5-7B 作为 Qwen 系列最新迭代成果&a…

Qwen2.5-7B部署省成本:按需算力+镜像免配置方案实测

Qwen2.5-7B部署省成本:按需算力镜像免配置方案实测 1. 引言:大模型落地的现实挑战与新思路 随着大语言模型(LLM)在自然语言理解、代码生成、多轮对话等场景中的广泛应用,企业与开发者对高性能模型的需求日益增长。阿里…

一文说清多线程/单线程/逻辑核心,让你少走弯路

前阵子翻出台双路Xeon E5-2680 v4的老机器,盯着任务管理器里那56个线程格子,突然就琢磨过来:好多兄弟对“多核利用”“高性能架构”的理解,还停在十年前的老路子上。1. 56个线程格子,不代表能跑快56倍 不少人看任务管理…

Qwen2.5-7B部署节省成本:按小时计费GPU方案实战

Qwen2.5-7B部署节省成本:按小时计费GPU方案实战 1. 背景与挑战:大模型推理的成本瓶颈 随着大语言模型(LLM)在实际业务中的广泛应用,如何高效、低成本地部署高性能模型成为企业关注的核心问题。Qwen2.5-7B作为阿里云最…

Qwen2.5-7B如何提升吞吐量?批量推理部署优化指南

Qwen2.5-7B如何提升吞吐量?批量推理部署优化指南 1. 背景与挑战:从单请求到高并发的推理瓶颈 随着大语言模型(LLM)在实际业务中的广泛应用,推理服务的吞吐量成为决定用户体验和系统成本的核心指标。Qwen2.5-7B 作为阿…

Qwen2.5-7B成本优化实战:中小企业低成本部署完整指南

Qwen2.5-7B成本优化实战:中小企业低成本部署完整指南 1. 引言:为何选择Qwen2.5-7B进行低成本部署? 随着大语言模型(LLM)在企业服务、智能客服、内容生成等场景的广泛应用,如何以最低成本实现高性能模型的本…

Packet Tracer使用教程:三层交换机配置深度剖析

三层交换实战入门:用Packet Tracer搞定跨VLAN通信你有没有遇到过这样的情况?公司里财务部和人事部都连在同一台交换机上,但彼此却ping不通——不是网线问题,也不是IP配错了,而是因为它们被划分到了不同的VLAN。这其实是…

狂揽1.5k Star!别再裸写项目了,这个全栈框架让你3分钟上线应用

每次我有个绝妙的 Side Project 想法时,一腔热血总会被现实浇灭。我不想从零开始搭建用户系统、配置数据库、接入支付、设置邮件服务……这些重复的脏活累活,往往会消耗掉我 80% 的精力。一个残酷的现实是,大部分独立开发项目都死在了起跑线上…

GeeLark 12月功能更新合集

新建环境 ・支持自定义设置云手机设备名称 自动化 ・「 Instagram AI 养号」模板支持设置关键词 ・ 「 TikTok 发布图集」支持带货 ・ 增加浏览器自动化模块,支持导入 GAL 阅读更多👉又更新了 看看怎么个事? ・ 循环任务支持随机发布时间…

Qwen2.5-7B新闻媒体应用:热点文章自动生成系统搭建

Qwen2.5-7B新闻媒体应用:热点文章自动生成系统搭建 随着大模型技术的快速发展,自动化内容生成已成为新闻媒体行业提升效率、实现智能化转型的重要路径。传统新闻采编流程依赖人工撰写与编辑,响应速度慢、人力成本高,尤其在应对突…

Qwen2.5-7B GQA设计:28头查询4头键值的高效实现

Qwen2.5-7B GQA设计:28头查询4头键值的高效实现 1. 引言:为何GQA成为大模型注意力优化的关键? 随着大语言模型参数规模持续攀升,传统多头注意力机制(MHA)在推理阶段面临显存占用高、解码延迟大的瓶颈。尤…

基于风光储互补微电网建模与仿真分析(Simulink仿真实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

告别Slack!我用3分钟,为团队搭了个无限用户的聊天平台

我们团队之前一直在用 Slack,但随着团队规模扩大,它的账单也变得越来越“刺眼”。每个月为聊天工具支付一大笔费用,对于一个成长中的团队来说,实在有些肉疼。更重要的是,所有的聊天记录和文件都存在别人的服务器上&…