摘要:将深度学习概念应用到电缆早期故障识别中,提出结合S变换与堆叠自动编码器(SAE)的电缆早期故障识别方法。通过对故障相电流进行S变换,将获得的S变换模时频矩阵分为低、中和高频段。求取对应频段的能量熵和奇异熵等特征量,并组成特征向量后,将时频域特征向量作为SAE网络的输入,经过预训练和参数微调,得到最优训练参数。利用构建好的网络从输入数据中挖掘有用信息,从大量扰动中识别电缆早期故障。仿真结果表明,与传统模式识别方法相比,所提方法的精度更高。
关键词:电缆;电缆早期故障;S变换;奇异熵;能量熵;深度学习;堆叠自动编码器
0 引言
电缆是电力系统输配电线路中的重要设备,其故障过程为渐进过程,可分为电缆缺陷、电缆早期故障和电缆永久性故障3个阶段。电缆在安装后受到土壤、水分和机械应力的影响,随着运行时间的增加,会在电缆中形成缺陷,极易出现局部放电、水树枝和电树枝现象,使电缆绝缘水平逐渐降低,但并未造成绝缘击穿。随着局部放电的增强,电缆缺陷变为早期故障。电缆早期故障概念首先在文献[1]中被提出,也被称为自清除故障。本文在分析已有研究成果的基础上[1-9],将电缆早期故障总结为:由于电缆绝缘水平的恶化产生局部放电,局部放电后期使电缆发生间歇性绝缘击穿,不能引起保护动作跳闸,但可能引起电缆永久性故障的一种重复性瞬时故障。准确检测和识别电缆早期故障,可以消除潜在故障隐患,在永久性故障发生前更换电缆,提高供电可靠性。因此,对电缆早期故障进行准确识别具有实际的意义。
对于电缆早期故障的特征,文献[2-4]进行了相关研究。由于电缆早期故障多发生在电缆接头,文献[2]通过电缆接头故障时记录的馈线电压和电流波形,对电缆早期故障特征进行分析。文献[3-4]同时记录了电缆早期故障和由早期故障导致的永久性故障波形,分析后发现在永久性故障前会重复出现早期故障。因此电缆早期故障的特征可归纳为:电缆中同一相发生永久性故障的先兆;通常发生在电压峰值时刻;按故障持续时间长短可分为半周期早期故障和多周期早期故障,前者持续时间约为1/4个周期,后者持续时间约为1~ 4个周期[5];不会引起保护装置动作;多为单相接地故障。
电缆早期故障的特征决定了其电压和电流波形,故障多发生在电压峰值附近,是因为此时电缆绝缘体上的电压应力最大[4],更容易造成绝缘击穿。当电缆发生早期故障时,电缆中出现间歇性电弧,使故障相电流瞬时增大,同时使故障相电压迅速下降,非线性高奇次谐波的存在使得故障相电压波形类似于失真的方波[3]。但电弧的持续时间很短,电弧电流会在交流电流过零点自动熄灭,早期故障被清除,电缆电流和电压重新恢复正常。
目前针对电缆早期故障的检测识别已有大量研究[5-9]。文献[5]利用小波变换对电流信号进行分解,通过发生故障时的能量和均方根值检测过电流扰动,再利用设定的阈值识别电缆早期故障。但由于电缆中类似过电流扰动很多,误检测率高。文献[6]采用人工神经网络方法,对电容投切信号和电缆早期故障信号进行谐波分析,选取时域特征向量,通过构造人工神经网络分类器进行分类识别。文献[7]结合小波变换和灰色关联分析方法,利用小波判据对电缆中的过电流扰动进行检测,并构造了时域特征向量和参考样本,通过计算两者之间的灰色关联度,判定关联度最大的信号为电缆早期故障。文献[8]将电弧电压引入对电缆早期故障的检测中,假设早期故障为电弧故障,利用电弧电压畸变的特点,计算了故障电压总谐波畸变率,将故障电压总谐波畸变率与参考值进行比较,判断是否为电缆早期故障。文献[9]利用高压电缆具有金属护套的特点,假设电缆护套为单端接合,通过单端护套电流的总和来检测早期故障。现有的分析方法中,小波变换容易受噪声影响,文献[8]和文献[9]分别以电弧故障和电缆护套单端接合假设为前提,在实际电力系统运行过程中,条件变化可能导致上述方法不再适用。
现代电力系统中信号采集装置的大量安装为实现录波数据分析、提取电缆早期故障信号提供了可能,如故障录波仪、电能质量监测仪等,可以准确地记录扰动波形,通过分析扰动波形数据和深度学习,可以识别电缆早期故障。深度学习网络是含有多个隐藏层的网络结构,相比传统模式识别方法[10-14] 可以更深入地进行数据挖掘,发现隐藏特征,目前已经广泛应用于故障的检测中[15-17],并取得了较好的效果。
本文基于对电缆过电流扰动的研究[8],将深度学习引入早期故障识别中,提出一种堆叠自动编码器SAE(Stacked AutoEncoder)与S变换相结合的电缆早期故障识别算法。由于早期故障信号经过S变换后空间维数高、数据量大,本文对S变换后求得的模时频矩阵进行进一步的处理,提取S变换能量熵SEE(S-transform Energy Entropy)和S变换奇异熵SSE(S-transform Singular Entropy)等特征量,利用SAE网络对特征量进行建模,将特征量作为网络的输入,最后完成对电缆早期故障和其他过电流扰动(如电容投切、恒定阻抗故障和变压器激磁涌流引起的过电流扰动)的分类识别。将本文算法与传统模式识别方法进行比较,结果证明本文算法具有更高的故障识别准确率。
1 基于S变换的特征提取
S变换解决了短时傅里叶变换中窗口宽度和高度固定不变的问题,具有良好的频率和时间分辨率,且不易受噪声的干扰,非常适合对电缆早期故障和其他过电流扰动信号进行分析。
1.1 S变换
Stockwel在1996年将短时傅里叶变换与小波变换相结合,提出了S变换[18]的思想。对于一个连续时间信号g(t),其对应的S变换为:
S(τ,f )=
exp(-j2π ft)dt
(1)
其中,τ为时间,表示控制高斯窗口在时间轴上位置的参数; f为频率。
S变换函数与傅里叶变换函数具有一定的关系,这使得S变换可以利用g(t)的傅里叶变换G(f)来达到快速运算的目的。其关系式如下:
S(τ,f )=G(σ+f)exp
×
exp(j2πστ)dσ f≠0
(2)
设g[iT](i=0,1,…,S-1)表示以T为采样间隔对连续时间信号g(t)采样得到的离散时间序列(其中,S为总采样点数),则可以得到该序列的离散傅里叶变换为:

(3)
其中,s1为离散后的采样点,s1∈[0,S)。
令式(2)中的f=s1/(ST)、τ=s2T(s2为离散后的采样点,s2∈[0,S)),可以得到离散时间序列g[iT]的S变换为:

(4)
通过对信号进行S变换,可以得到S变换矩阵,它是一个复时频矩阵,矩阵的列表示时间、行表示频率。
1.2 特征的提取
对信号的S变换矩阵取模,获得模时频矩阵,但变换后的矩阵仍然具有很大数据量和信息量,在将其直接输入SAE网络的过程中,可能引起训练时间过长等问题,不利于进行分类识别,因此可对原始数据进行处理,提取初始特征向量。由于电缆早期故障信号在不同频段的信息不同,对选取的样本进行S变换后,令S变换模时频矩阵为M×N阶矩阵H,其中第i行第j个元素为Hij,按照H的行数将矩阵分为低频段、中频段和高频段[19]。本文基于熵的理论和奇异值分解理论,分别对不同频段的矩阵进行分析,提取用于识别电缆早期故障的初始特征向量,再利用SAE网络进一步挖掘初始特征向量中的隐藏信息。
熵由香农在1948年引入信息论中,它利用统计的特征表示信号的不确定性。令矩阵H在不同频率i和不同时刻j下的信号能量为表示频率为i时所有时刻的能量之和。为了表示信号在低、中、高频段的能量分布情况,本文基于S变换模时频矩阵H分别计算3个频段上的SEE,定义如式(5)所示。

(5)


其中,为信号的总能量;d=l、d=m、d=h分别对应低、中、高频段。
利用SSE衡量低、中、高频段信号的复杂程度。根据奇异值分解理论,可将低频段的矩阵Hl∈RMl × N(其中,Ml=M2-M1)转化为一个对角矩阵Λ,其奇异值分解为:
Hl=UΛV T
(6)
其中,U和V分别为Ml×Ml阶和N×N阶正交矩阵;Λ的对角线元素为奇异值λk(k=1,2,…,Ml),可以表示对应时间和频率上信息量的大小。相应地,低频段的SSE ESl定义如下:

(7)
同理,可以计算中、高频段的SSE ESm和ESh。
由于矩阵经过奇异值分解后获得的奇异值是衰减的,利用式(8)、(9)分别表示不同频段的信息量大小。
L1=λlmax-λmmax
(8)
L2=λmmax-λhmax
(9)
其中,L1为低频段与中频段最大奇异值之差;L2为中频段与高频段最大奇异值之差。当信号越集中于某一频段时,该频段有最大的奇异值。
同时选取矩阵H的低、中、高频段模最大值 Hlmax、Hmmax、Hhmax作为特征量,组成包含11个时频域特征量的向量X。
X={EEl,EEm,EEh,ESl,ESm,ESh,Hlmax,Hmmax,
Hhmax,L1,L2}
(10)
利用大量的扰动波形数据进行故障识别需要从原始数据中提取有效的初始特征量。因此本文拟采用S变换对信号进行处理,提取初始特征量,将提取出的这11个初始特征量作为SAE网络的输入,通过深度学习,获得更高层次和抽象的特征,进而实现电缆早期故障的识别。
2 SAE介绍
深度学习作为深层的神经网络[20],相对于传统的浅层网络,可以无限堆叠,通过增加网络的隐藏层数目,以及逐层初始化和提取特征,实现复杂高维函数的表示,提高分类和预测的准确性。目前深度学习模型有深度置信网络、卷积神经网络和SAE[21]等。本文主要研究SAE在电缆早期故障识别中的应用。

图1 AE结构图
Fig.1 Structure of AE
2.1 自动编码器
自动编码器[22](AE)的结构是一个3层神经网络,包括输入层、隐藏层和输出层,如图1所示。AE的训练过程由编码过程和解码过程构成,当数据输入AE网络后,该网络就自动进行编码操作,将输入数据X∈Rn×1编码成Y∈Rm×1,Y再经过解码操作变成Z∈Rn×1。在实际训练中,输出相当于是输入的复现,AE的编码和解码过程可分别用式(11)和式(12)表示。
Y=f1(W1X+b1)
(11)
Z=f2(W2Y+b2)
(12)
其中, f1和f2为激活函数,本文采用的是sigmoid函数;Y为隐藏层;Z为输出层;W1和W2分别为编码矩阵和解码矩阵;b1和b2为偏置向量。
2.2 代价函数
在网络的训练过程中,要选择一个目标函数体现模型性能的优劣,其中涉及对目标函数的优化。在深度学习过程中,AE的训练目标是尽可能地使输出Z等于输入X,通常采用均方误差构造代价函数,即:
(13)
求解该代价函数,获得表征输入信号特征Y的参数(W,b)。
选择的激活函数为sigmoid函数时,由于其输出映射在0~1之间,因此在训练过程中,当神经元输出为1时,表示被激活;当神经元输出为0时,表示未被激活。当隐藏层数目较多时,为了使大多数情况下隐藏层神经元不被激活,可以采用稀疏性限制。假设yj(xi)表示隐藏层第j个单元的激活量,则隐藏层第j个单元的平均激活量为:

(14)
在对AE网络进行训练的过程中,希望大多数隐藏层神经元处于抑制状态,因此平均激活量应该接近于一个为0的常数ρ(稀疏性参数)。为了实现这一约束,考虑在神经网络的代价函数中加入稀疏惩罚项。考虑稀疏性约束的代价函数如式(15)所示。
sparse(W,b)=
(15)

(16)
其中,α为稀疏性参数;m为隐藏层神经元总数目;KL表示KL(Kullback-Leibler)散度,当时,有
当
时,则KL散度会随两者差异的增大而增大。
2.3 SAE的构建和训练
SAE是由多个AE堆叠形成的深度学习网络,由1个输入层、多个隐藏层和1个输出层构成。SAE的输入层来自于第1层AE的输入层X1,第1层AE训练完后获得的隐藏层输出Y1用作第2层AE的输入层,也构成SAE的第1个隐藏层;第2层AE训练完后获得的隐藏层输出Y2用作第3层AE的输入层,也构成SAE的第2个隐藏层。依此类推,最后一层的AE的输出层作为SAE的输出层,从而构建出SAE深度网络。图2为一个由3个AE堆叠形成的SAE网络。

图2 SAE生成过程
Fig.2 Process of constructing SAE
SAE的训练过程包括有监督训练和无监督训练2个过程。无监督训练过程为预训练过程,通过无标记数据从第1层开始训练整个网络,得到各层网络的参数;无监督训练过程为从输出层到输入层的有监督训练,通过有标记数据对第1步获得的参数进行微调,提高网络的识别性能。在SAE的训练过程中,采用随机梯度下降法,通过式(17)和式(18)完成对参数θ=(W,b)的更新。
sparse(W,b)
(17)
sparse(W,b)
(18)
其中,β为训练过程中的学习率,它决定了参数更新的速度;上标l表示SAE网络层数;为第l层的第j个单元与第l+1层第i个单元之间的权重参数;
为第l+1层第i个单元的偏置项。
2.4 基于softmax的分类识别
在本文中,输出类别只包含2类,即电缆早期故障和非电缆早期故障(其他过电流扰动),是一个二元分类问题。训练完SAE网络后,采用softmax回归对输出结果进行分类识别。训练集由{(x1,y1),(x2,y2),…,(xn,yn)}组成,xi为输入样本;yi为对应输入样本xi的标签,取值为0或1,yi=1表示电缆早期故障,yi=0表示非电缆早期故障。对于输入的测试集数据xi,可利用函数计算它属于每种类别yi=j(j=0,1)的概率值p(yi=j|xi),此时假设函数为:

(19)
其中,θ1和θ2分别为softmax回归模型中第1种和第2种类别对应的输入参数。
3 基于SAE网络的电缆早期故障识别
本文基于SAE和S变换提出一种深度学习的方法,利用SAE网络,从电缆众多的过电流扰动中,识别电缆早期故障,具体流程如图3所示。

图3 基于S变换和SAE的算法流程图
Fig.3 Flowchart of proposed method based on S transform and SAE
a. 在PSCAD/EMTDC中搭建仿真模型,获得不同扰动的样本数据。由于在设备发生故障时,电流波形的变化更为明显。在实际运行中,选择变电站端馈线测量电流作为原始数据。样本数据包括半周期电缆早期故障和多周期电缆早期故障,及其他不属于电缆早期故障的过电流扰动,如变压器激磁涌流、恒定阻抗故障、电容器投切引起的过电流扰动等。
b. 对获得的样本数据在MATLAB中进行S变换,求得各种情况下的S变换模时频矩阵,计算对应的11个特征量。
c. 通过无监督的预训练和有监督的微调完成SAE网络的搭建。预训练可以学习到输入信号的复杂非线性变换,微调过程可提高网络的识别精度,这2个过程保证了SAE网络可以从原始输入信号中挖掘有效特征,并且建立输入信号与实际类别的非线性映射关系。
d. 利用测试样本和softmax回归来测试训练好的SAE网络的性能,输出分类识别结果。
4 算例分析
4.1 实验和数据样本构造
本文用于验证所提出方法的数据集在PSCAD/EMTDC系统中获得,搭建了25 kV无支路电缆故障线路模型如图4所示(图中,D为设置的故障距离),采样频率为10 kHz。

图4 电缆线路故障模型
Fig.4 Model of cable line with fault
在电网中,除电缆早期故障外,还存在其他过电流扰动类别,在仿真中考虑了变压器激磁涌流、恒定阻抗故障、电容器投切。仿真样本分布情况如表1所示。不同早期电缆故障和过电流干扰下的馈线电流波形图如图5所示,其与文献[2-4]中现场记录的电缆早期故障波形一致。由于图5中的所有故障或干扰类型都会造成电流增大,因此采用第1节所提出的基于S变换的特征提取方法,提取波形的11个初始特征量,并对它们全部进行归一化处理,限制在[0,1]范围内。
4.2 评估模型性能的指标
表1 仿真样本分布情况
Table 1 Distribution of simulation samples


图5 不同电缆早期故障和过电流干扰下的馈线电流波形图
Fig.5 Feeder current waveforms under different cable incipient faults and over-current interferences
表2 电缆早期故障识别混淆矩阵
Table 2 Mixing matrix of incipient cable fault detection

为了评估模型的性能,对于本文中出现的二元分类问题,以混淆矩阵的形式表示按照实际类别和通过实验分类得到的类别结果。表2是电缆早期故障类型识别的混淆矩阵,表中TP、TN和FP、FN分别为电缆早期故障和非电缆早期故障样本分类正确和分类错误的数量。
通过表2可以得到以下评估模型性能的指标。
a. 准确率Paccuracy:实验分类类别和实际类别一致的样本占总样本的比例。

(20)
b. 精确率Pprecision:实验分类为电缆早期故障的样本中,实际类别为电缆早期故障的样本所占的比例。

(21)
c. 召回率Precall:实验分类且实际类别为电缆早期故障样本占所有实际类别为电缆早期故障样本的比例。

(22)
d. F1评价指标:由于实际情况中要进行分类的类别可能存在不平衡的问题,仅靠准确率评估是不行的,于是引入F1评价指标[23],它表示精确率和召回率的调和均值,如式(23)所示。

(23)
e. ROC曲线是利用分类的真正率TPR(True Positive Rate)和假正率FPR(False Positive Rate)作为坐标轴,利用图形化的形式来表示分类方法的准确率的高低,曲线与坐标轴的面积(AUC)可以用于表示分类模型准确率的高低。
4.3 与其他分类器的比较
本节采用相同的训练和测试样本,将本文方法与支持向量机(SVM)[10]法、K近邻(KNN)算法[11]、集成学习(JC)法[12]和随机森林(RF)算法[13]进行比较。
图6为本文方法、SVM法、KNN算法、JC法[12]和RF算法[13]的ROC曲线。从图6可以看出,本文方法的曲线与坐标轴的面积最大,准确率更高,分类效果比其他方法更好。

图6 不同方法的ROC曲线
Fig.6 ROC curves of different methods
表3为具体的比较结果,从表中可以得出本文方法的Paccuracy可达到98.8%,比JC法、SVM法、KNN法分别高出12.1%、25.5%、31.3%;RF利用了多个决策树投票得出最后的分类结果,比其他3种模式识别方法更好,但与本文的方法相比,仍有一定的差距。本文方法还具有更高的F1(98.5%)、Pprecision(98.7%)、Precall(98.9%)和AUC(0.974),比其他4种传统模式识别方法更优越。这是因为SAE可以通过多特征的变换自动地从初始特征向量中学习到更有价值的信息,能在众多过电流扰动中准确识别出电缆早期故障。
表3 不同方法的比较结果
Table 3 Comparison among different methods

4.4 网络参数的影响
理论上,训练SAE网络时,迭代次数越多,最后得到的误差会更小,因此本节考虑了深度学习模型训练过程中迭代次数的影响,如图7所示。由图可见,当迭代次数小于2 000次时,准确率很低,只有58.3%;此后随着迭代次数增加,准确率上升,当次数为6 000时,准确率已经为91.7%,当次数大于10 000 时,准确率为98.8%,之后不再变化,因此本文取迭代次数为10 000次。

图7 迭代次数对结果的影响
Fig.7 Impact of iterations number on results
4.5 利用S变换提取特征的优点
与直接利用原始数据作为SAE网络的输入相比,本文方法基于S变换与熵理论,提取了初始时频域特征向量,最大的优点是使输入数据的维数和SAE网络的复杂程度降低,减少了仿真时间。采用相同的SAE网络测试基于S变换提取的特征和原始数据,结果如表4所示。
表4 提取特征向量与原始时域数据的比较结果
Table 4 Comparison between extracted eigenvector and original time-domain data

从表4中可见,本文提出的先提取初始特征向量的方法在仿真时间和准确率方面都优于直接对原始数据进行处理的方法,证明了本文方法的有效性和可行性。
5 结论
本文将S变换与SAE相结合,提出一种深度学习方法识别电缆早期故障。在PSCAD/EMTDC系统中搭建25 kV无支路电缆故障线路模型进行仿真研究,结论如下:
a. 本文所提电缆早期故障识别的特征提取方法,结合S变换模时频矩阵与熵理论,获得了11个时频域特征量,解决了电缆早期故障信号维数大和信息量复杂的问题,更有利于SAE网络的分类;
b. 本文提出了一种SAE和S变换相结合的电缆早期故障识别方法,与传统模式识别方法相比,其准确率可达98.8%;
c. 本文方法与直接运用原始数据作为SAE网络输入的方法相比,仿真时间仅需后者的10%,准确率较后者高8.6%。
本文研究证明了深度学习方法在电缆早期故障识别中应用的可能性,为该领域的相关研究提供了新思路。本文基于仿真信号进行分析,为了使所提方法在实际中得到运用,还需使用大量实测波形数据进行分析验证。