首页 > 技术 > 雾计算

基于雾计算和随机森林的变压器温度监测及故障预测 | 根据雾值表计算雾值

人阅读 2023-05-19 04:08:02

【基于雾计算和随机森林的变压器温度监测及故障预测 | 根据雾值表计算雾值】lot物联网小编为你整理了的相关内容,希望能为你解答。

接着上篇继续介绍

2.2数据预处理

(1)去噪和分割

数据采集上来后,由于某些信号对低电平和高电平频率噪声敏感,可使用有限脉冲响应(FIR) 滤波器去除噪声,参加公式1:

N是滤波器,并且 ci,i=0→N 表示滤波器的系数。输出信号用于特征提取和值归一化,以便协助预测框架。

另一个重要步骤是数据分割,某些数据在采集时间区段内存在重叠或非重叠,可基于滑动窗口,对非重叠部分进行数据分割,以实现不同的时间间隔的连续数据检索。

采集到的原始数据中,对于少量异常数据可直接删除或丢弃,异常数据若数量较多,需对传感设备进行检查是否有损害或故障;对于少量缺失值,可默认用0进行填充。

对于风力数据,按照风力风速等级进行转换提取出风力特征值如表1所示:1~2级设为0;3~4级设为1;5~6级设为2;7~8级设为3;9~10级设为4;11~12级设为5。

表1. 风力特征取值表

对于日射强度数据,可根据日射强度区间进行特征取值,结果如表2所示。

表2. 日射特征取值表

(3)特征提取和归一化

特征提取主要是将原始采集数据转换为描述业务特征的特征向量,一般可大致分为时域和频域特征。

1)时域特征:用于提取描述信号特征的统计测量值,比如统计变压器箱体历史最高温度或区域平均温度。表3为时域特征常用计算公式:

表3. 时域特征计算公式列表

2)频域特征:对于分析对变压器故障预测有很大影响的重复性数据很重要,可通过将原始信号采用快速傅里叶变换转换为频域特征。让具有区间T ∈(0, a )的连续函数f ( x )定义为周期α:

从频域数据中,可提取能量、熵、分箱分布和峰值之间的时间等特征:1.能量:平方FFT 幅度之和用于计算能量特征;2.熵:熵区分具有相同能量特征值的活动。熵被计算为FFT 分量的归一化熵;3.分箱分布:分箱分布是通过估计FFT的直方图来计算的,可通过确定值的范围并通过计算特定范围内值的分数来实现。

2.3数据融合

(1)数据级融合

完成数据采集和预处理后,可对同构测温数据即可按如下方法进行数据融合:

设 = { 1, ..., }是传感器、Γ = { 1, ... , } 是相应的权重,使得∑ = 1在传感器正常工作的假设下,系统的输出计算为: = { 1 1, ..., }.

如果传感器在运行中出现故障,系统的输出将调整为:

′={ 1 ,... } (4)

其中γi是工作传感器,为简单起见,所有传感器的权重均匀分布,即工作传感器的权重为1/n。当传感器发生故障时,来自传感器的数据将被丢弃。从其他传感器接收到的数据被输入到更新的配置(方程式1)以进行数据融合。例如,如果某温度传感器不可用,则为其他传感器的输出分配更新的权重,以用于适应的融合设置。

(2)随机森林特征融合

随机森林是不同决策树的集合,可被认为是一个多路分类器,其中每棵树都是以某种形式的随机化生长的。随机森林的核心思想是将单个树获得的预测值进行整合。这种策略使随机森林成为一个强大的预测模型。假设T表示树的集合,C1和C2是类标签,L和I表示树的叶子节点和内部节点的集合。给定树的每个叶节点都用后验概率标记一个类,而每个内部节点负责找到最佳拆分。

随机森林中的随机化概念应用于学习过程中的两个不同阶段。首先,随机选择训练数据样本,确保每棵树使用不同的子集生长。其次,在每个内部节点,随机选择特征以找到最佳分割,提高了随机森林的稳定性。此外,树的数量和最大深度等其他参数也会影响随机森林的性能。在这种方法中,每棵树都是一棵二叉树,并使用自上而下的方法构建。在每个内部节点,有两种选择最佳分割特征的方法,即(i)随机选择和(ii)贪婪选择。参见公式10,对于预测任务,需通过将测试数据传输到每个单独的树,直到到达叶节点,并计算后验概率的平均值以获得测试数据的最终预测值。

设定 = { 1, ..., } 是随机变量的集合,并且 ={ 1, ..., } 是响应的集合。函数 (x)= [Y | X=X]预测随机变量X的响应Y。数据集中的记录 = {( 1. 1), ..., ( , )} [0,1]d×的ℝ-值是独立的对形式(X,Y),其中 [ 2] < ∞. 使用无限随机森林来计算f∞,n:[0,1]d⟶ℝ 对于f,对于数据集D。对于P个随机树的集合,集合中第k个树在点x 处的预测值为f n (x, Δj ),其中e Δ1, ..., Δ是数据集D的独立随机变量。通过聚合各个树的输出来获得统一的有限森林:

对于所有x∈[0,1]d,d上Δ的期望为 Δ,根据大数定律表明,有限森林情况几乎是等价于无限情况,即: ∞, (x)= Δ[ (x,Δ)]。

2.5特征选择

特征选择是数据预处理中一项非常重要的任务,通过特征选择可从所有可用特征中选择最佳特征集,并有助于减少训练模型的方差,从而减少训练模型的计算成本,避免过拟合问题。文章提出采用基于相关的特征选择CFS(Correlation-based Feature Selection)方法[25],使用基于相关性的重要性分数来预测特征的重要性,从而找到与预测任务相关的最优特征子集,计算公式如下:

其中iScore是子集S 的重要性得分,r cf是响应-特征相关性,r ff表示特征-特征相关性。重要性分数用于选择最重要的特征σ,并忽略不相关的特征,否则会增加分类错误率。CFS 离散数字特征并计算对称不确定性以估计特征之间的关系。熵用于测量特征中的杂质。公式7和8给出了两个离散随机变量的熵和条件熵X和Y。

熵和信息增益用于估计每个特征对分类任务的有用性。信息增益计算如下:

由于信息增益偏向具有较低熵的特征,因此使用对称不确定性对值进行归一化,如下所示:

CFS 计算响应变量和特征之间的相关性;并且基于相关值,使用贪心搜索算法计算特征的最优子集。最佳特征子集被输入到变压器风险故障的预测算法中。

3 总结

在本文中,我们提出了一种基于雾计算和随机森林结合的变压器采集温度及相关特征数据进行故障风险预测模型。该模型基于边缘物联装置构建了雾计算节点进行本地数据采集和模型计算,构建了典型云-边-端的物联网架构。并通过数据级融合将同源温度传感器数据进行融合计算,提高了准确性和鲁棒性。在模型中采用了随机森林算法进行了特征提取和变压器过热故障预测评估分析,实验仿真结果证明,文章提出的预测模型满足了设计要求,对变压器过热故障具有较好的预测准确率及实用性,基本实现了变压器实时状态下的测温数据采集和过热故障预测分析,较大提高了变压器运行状态评估和安全运行管理能力。

在未来的工作中,可持续提高模型的准确性,在实际应用中尽可能收集变压器更多的历史故障和正常数据,使得模型尽可能覆盖所有情况的特征,并且可以定期一个月对模型训练一次,及时更新模型,不断提高模型的准确性。此外,可将模型采集数据和特征可扩展到测温以外的范畴,比如油色谱数据、电压电流数据等,结果更多的原因可进一步提高模型对故障预测的准确率。同时,文章研究成果可推广到其他同类型的设备故障预测和安全状态评估中,在物联网应用领域中有较好的推广意义。

以上内容为【基于雾计算和随机森林的变压器温度监测及故障预测 | 根据雾值表计算雾值】的相关内容,更多相关内容关注lot物联网。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com