摘 要 为便于运维人员及时准确判断高压电缆缺陷类型,提出了一种基于关联规则和竞争凝聚算法的高压电缆缺陷识别模型。该方法基于现有在线监测、离线试验和运维系统等数据,利用关联规则挖掘出不同缺陷类型与状态数据的关联关系,并建立电缆缺陷关联规则库;针对现有关联规则算法只能处理布尔型数据局限,采用竞争凝聚算法对连续型数据进行离散化处理;最后通过实例对所提的模型进行分析验证,仿真结果表明该模型识别准确率高、求解效率高、解释性好,有助于运维人员对电缆进行及时动态的维护管理。
关键词 高压电缆 缺陷识别 关联规则 竞争凝聚算法
随着城市化进程的加快推进,高压电缆具有不占用地面空间、供电可靠性高等优势,已经广泛应用于城市110 kV及以上高压线路中[1,2]。由于生产制造、施工安装、运行环境等诸多因素,高压电缆在运行过程中不可避免的发生缺陷[3,4],给电力系统的可靠运行带来潜在的安全风险。因此,为了避免电力系统由于高压电缆缺陷引起的故障,需要对高压电缆缺陷识别进行研究。
目前关于电缆缺陷识别的研究主要围绕局部放电进行研究,文献[5]利用非下采样剪切波变换域增强方法对电缆局放信号图进行识别,用以判断电缆的缺陷类型;文献[6]研究了不同频率振荡波电压对电缆缺陷的局部放电特性,并利用BP神经网络进行缺陷的模式识别;文献[7]提出了基于超声法的局部放电特征参数提取方法,并利用支持向量机进行缺陷识别。以上研究利用局部放电对电缆绝缘方面的缺陷识别是一个行之有效的方法,但是除此之外,高压电缆还存在外护套损失、接头发热等多种类型的缺陷,仅依靠局放的特征难以识别多种缺陷类型。
随着在线监测技术在高压电缆运维管理中广泛应用,局部放电、护层环流以及电缆温度等电缆主要状态特征量已实现数据的实时采集、传输和存储[8]。此外,运维人员日常电缆检修也积累了大量的离线数据,因此可考虑对现有的数据进行分析,建立高压电缆的缺陷识别模型。电缆的缺陷识别实际上是一个分类问题,目前广泛采用的分类方法有神经网络、支持向量机等[9,10],但是这些方法解释性差,运维人员难以理解状态变量与缺陷之前的关联关系。关联规则通过对数据间的关系进行建模和描述,挖掘数据项中的关联规律,具有求解效率高、易于理解等优点。但是现有的关联规则算法如Apriori算法、FP树频繁项集算法[11,12],只能处理布尔型数据,因此需要对连续型数据进行离散化处理。常用的离散化方法有等宽法、等深法和聚类法[13],等宽法在数据分布不均匀时会造成数据丢失;等深法在需要对属性进行排序,在处理大量数据时需要耗费大量时间;聚类法在进行离散化处理时考虑了数据的分布特征,能够有效反映数据的实际情况。竞争凝聚(competitive agglomeration, CA) 算法[14]综合了分层聚类和划分聚类的优点,能够在迭代过程中不断改变类别的数目,最终找到最优的聚类个数。
基于以上分析,将在线监测、离线试验和运维等数据应用于高压电缆缺陷识别,利用关联规则挖掘出电缆状态数据与缺陷之间的关联关系,建立高压电缆缺陷识别关联规则库;针对关联规则算法只能处理布尔型数据的缺陷,提出基于CA算法的连续型数据离散化方法。最后通过实例对算法的有效性进行验证。
1 高压电缆缺陷类型和状态指标关联性分析
1.1 高压电缆缺陷类型划分
高压电缆的缺陷类型很多,主要根据《电力电缆及通道检修规程》[15],结合实际运行经验,从缺陷发生的部位对其进行分类,具体如表1所示。
表1 高压电缆缺陷类型
Table 1 Defect types of high-voltage cable
高压电缆发生缺陷时,其特征会直接反映在相关的状态数据上,因此必须选择合适的状态指标用来表征高压电缆内在变化。
1.2 高压电缆状态指标选取
高压电缆的状态数据包含在线监测数据、离线试验数据、运维数据和环境参数等多源信息。结合广东电网珠海供电局高压电缆运维经验,典型高压电缆在线监测装置布局如图1所示,状态数据集如图2所示。
图1 高压电缆在线监测装置布局
Fig.1 On-tine monitoring layout of high-voltage cable
图2 高压电缆在线监测装置布局及状态数据
Fig.2 State data of high-voltage cable
局部放电和护层环流传感器主要安装在电缆终端和中间接头的接地线上,而电缆温度采用分布式光纤测得。根据在线监测获得的实时数据,并结合其他来源数据,构成电缆的状态数据集。当高压电缆状态出现异常时,其状态数据相比正常状态也会发生变化。然而,对于部分可直接反映电缆缺陷状态的单个状态量不予考虑。如外护套直流耐压试验,若电缆在试验过程中发生击穿,显然电缆已不能正常运行。此外,接地系统异常可根据接地系统试验结果直接判断,与其他状态变量无关;重载/过载告警、故障跳闸信息与缺陷同时记录的样本极少,故不考虑该指标。结合以上分析,选取的状态指标如表2所示。
1.3 电缆状态数据与缺陷关联性分析
高压电缆在运行过程中,受到运行工况、外界环境等多种因素的影响,可能发展成为缺陷状态,在数据层面表现为状态数据异常。以下分析高压电缆不同缺陷与状态数据的关联。
外护套损伤:外护套绝缘电阻,护层环流、温度。
电缆金属护层、铠装变形、破损:屏蔽层电阻、护层环流、温度。
表2 高压电缆状态指标
Table 2 State index of high-voltage cable
主绝缘电阻异常:主绝缘电阻、介质损耗因数、局部放电、温度。
设备线夹发热:温度。
终端绝缘套管破损:温度、绝缘电阻、局部放电。
接头变形、破损:护层环流、局部放电、温度。
接头发热:局部放电、温度、护层环流、主绝缘电阻。
根据以上分析可知,电缆的某种缺陷状态会伴随多个状态指标发生变化;同样地,一个状态指标的变化也可能对应多种缺陷类型。因此,确定高压电缆缺陷类型与状态指标的关联关系是对其缺陷状态识别的前提。
2 高压电缆缺陷识别方法
2.1 关联规则算法
关联规则是挖掘事务数据集各项的内在联系的数据挖掘方法,可定义为:设T={t1, t2, …, tm}为事务数据库,tk为T中的第k件事务,I={i1, i2, …, in}是二元属性的集合,其中的元素称为项,记D为事务数据库T的样本,|D|为D中的总事务数,对任意k,tk⊆I;X与Y均为I的子集,并且X∩Y=Ø,X与Y的关联规则表示为X⟹Y。
支持度和置信度是关联规则中2个核心的概念。关联规则X⟹Y的支持度S(X⟹Y)定义为含X和Y的事务数和总事务数的比值,而置信度C(X⟹Y)为包含X和Y的事务数与X的事务数的比值。支持度和置信度的计算式为
(1)
关联规则的目的在于挖掘出可信且有意义的规则,当支持度和置信度达到了设定的最小阈值,此时认为该关联规则为强关联规则。满足最小支持度的项集称为频繁项集,包含k个项的频繁项集成为k-频繁项集。Apriori算法是最常用的关联规则算法之一,其运算过程主要包括以下2步。
(1)通过多次迭代,寻找样本中不小于最小支持度的项集,即频繁项集。
(2)计算所有频繁项集的置信度,并根据最小置信度的值,确定强关联规则。
由于关联规则处理的是布尔型数据,对于数值型特征无法处理,因此需要对连续型数据进行离散化处理。
2.2 连续数值离散化
竞争凝聚算法将划分聚类和层次聚类的优点结合,通过足够数量的类别进行初始化,然后通过迭代动态调整类别的数目,进而得到最优的数据区间划分。
设E={e1, e2, …, eN}为样本空间,N为样本数量,V={v1, v2, …, vC}为聚类中心的集合,C为类别数量,则聚类算法的优化目标可表示为
(2)
式(2)中:为第j个样本点对第i类的隶属度,U=[uij]C×N为隶属度矩阵,并满足:
(3)
式(2)由两部分组成,左半部分用来确定聚类簇的大小和形状,右半部分为一个偏移项,用来寻找最佳的类别数量,偏移项参数α为
(4)
根据拉格朗日乘数法,式(2)中隶属度和聚类中心的更新公式可表示为
(5)
式(5)中:表示第i类的基数;可表示为
(6)
根据上述更新公式,结合给定的样本数据,通过不断迭代,最终获得每个连续变量的类别数量C、各区间的聚类中心V以及隶属度矩阵U。对于每个样本,根据聚类中心和隶属度矩阵找到隶属度最大的类别,进而对该数据进行归类。
2.3 高压电压缺陷识别流程
高压电缆缺陷识别通过状态数据与缺陷进行关联匹配实现,示意图如图3所示。通过对输入数据进行离散化处理获得布尔型数据,然后用关联规则对离散数据匹配找到对应的状态结果。
高压电缆缺陷识别方法包括关联规则挖掘和规则匹配2个主要过程,具体如图4所示。
图3 高压电缆关联匹配示意图
Fig.3 Schematic of high-voltage cable association and matching
图4 高压电缆缺陷类型识别流程图
Fig.4 Flow chart of high-voltage cable defect type identification
高压电缆缺陷识别的具体步骤如下。
(1)根据历史统计数据,建立高压电缆缺陷样本库。
(2)对于连续性状态指标样本,采用竞争凝聚算法对其进行离散化处理,获得聚类中心和隶属度函数。
(3)设定最小支持度和置信度的阈值,作为搜索频繁项集的依据。
(4)利用Apriori算法挖掘出满足支持度和置信度阈值的频繁项集,并根据这些频繁项集建立高压电缆缺陷识别的关联规则。
(5)将来自在线监测、离线测试的待测数据中的连续状态指标,代入到隶属度函数中,计算最大隶属度,从而获得该状态指标的所属类别。
(6)将获得布尔型数据与获得的关联规则进行比对,确定高压电缆的缺陷类型。
3 实例分析
图5 高压电缆训练和测试样本数据
Fig.5 High-voltage cable training and test sample data
以广东电网珠海供电局220 kV高压电缆为例,根据高压电缆在线监测数据、离线试验数据以及运维检修记录,对表2所列的状态指标数据进行分析。现有缺陷记录数据总共500条,将其中的400条记录作为训练样本集,剩余的100条记录作为测试集。在线监测和环境数据如图5所示,数据点1~95、96~130、131~208、209~276、277~332、333~390、391~500分别为缺陷类型F1~F7的样本。训练样本集各种缺陷类型对应的样本数分别为:外护套损伤80条,电缆金属护层、铠装变型、破损30条,主绝缘电阻异常60条;设备线夹发热50条,终端绝缘套管破损40条;接头变形、破损50条,接头发热90条。训练样本集用来挖掘出缺陷与状态数据的关联规则库,而测试集用于检验规则的有效性。设置最小支持度为0.02,最小置信度为0.7。
3.1 连续状态数据离散化结果
由于大部分状态指标为连续型数据,利用竞争凝聚算法对样本集中所有连续型数据进行离散化处理。表3为状态指标的类别数和聚类中心。
表3 状态指标数据离散化结果
Table 3 Discretization results of state index data
从表3可以得到,经过离散化后的连续型状态数据被分为3~6类,处于不同缺陷状态的电缆,其状态指标所属的类别存在差异。
3.2 高压电缆缺陷识别关联规则库
根据状态指标的离散化结果以及每一个样本对应的缺陷类型,利用Apriori算法搜索频繁项集,共挖掘出41条关联规则,建立高压电缆缺陷识别的关联规则库如表4所示。
3.3 算法验证
为了验证算法的有效性,测试集中存在一组数据为{13.2, 4.9, 1 254, 189, 28.2, 1.2, 4 024.5, 0.102, 1.1, 0.08, 256.8, 1, 0.08, 5.32, 22.4, 33.1, 0.32, 21.1, 0},利用隶属度函数对各状态指标进行分类,对应的类别为{2, 3, 5, 3, 3, 2, 3, 2, 3, 2, 3, 2, 2, 1, 1, 1, 1, 2, 1},对比发现,该类别与关联库中的16号规则一致,因此认为该缺陷类型为F5,即终端绝缘套管破损。
为了进一步分析算法的准确性,利用测试集对样本的准确率进行测试,图6给出了本算法与人工神经网络(ANN)、支持向量机(SVM)缺陷识别准确率和求解时间的对比,计算机配置为Intel Core i5 7500@3.4 GHz,内存为24 GB。
从图6可以看出,本算法在求解准确率上高于ANN和SVM,不仅能够充分地挖掘出状态数据与缺陷的关联关系,并且可解释性强,容易被运维人员理解和接受。此外,本算法在求解效率上也明显优于其他两种常用的方法。
表4 高压电缆缺陷识别关联规则库
Table 4 Association rule library of high-voltage cable defect identification
图6 不同算法缺陷识别准确率和计算耗时
Fig.6 Accuracy and computation time of defect recognition of different algorithms
4 结论
本文提出了基于关联规则和竞争凝聚算法的高压电缆缺陷识别方法,并通过实例对算法进行测试验证,仿真结果表明:
(1)CA算法能够有效的对连续数据进行离散化处理,获得最优的类别数和聚类中心。
(2)通过关联规则挖掘出状态数据与缺陷状态之间的关联关系,并建立相应的关联规则库,运维人员可根据实际数据判断电缆的缺陷类型,并进行针对性的检修操作。
(3)本算法在缺陷识别准确率和求解效率上均优于ANN和SVM,并且可解释信强,易于运维人员理解。