设计应用

基于机器学习的电网设备故障综合研判分析

作者:刘周斌1,何 颋2,李沁园1,胡晓哲2,项 翔2,袁永军2,王海峰2
发布日期:2019-11-25
来源:2018智能电网增刊

0  引言

    随着大数据、云计算、物联网、移动互联网等新一代信息通信技术的快速发展,智能终端产品层出不穷,新技术、新产品、新应用等不断涌现。移动智能终端设备及应用通过丰富多样的功能满足人们各式各样的需求,从各个方面改变着人们的日常工作与生活。

    近年来,国家电网公司紧紧抓住新一代信息通信技术快速发展为智能电网生产方式及管理模式变革带来的契机,积极推进智能电网建设,密切跟踪新技术发展趋势,开展关键技术攻关,面向“十三五”,充分发挥信息通信在智能电网中的核心技术作用,统筹推动智能电网技术变革和创新发展,未来要形成一大批成功应用、成效显著的技术成果,为坚强智能电网持续创新发展奠定了坚实基础。

    随着国民经济的不断发展和人民生活水平的日益提高,社会用电负荷也随之快速增长,与此同时,对电网公司的供电可靠性和停电时间等重要指标也提出了更高的要求。特别是对于配网抢修工单的派发,要求及时快速、准确判断。目前工单派发多数基于人工派单,或者系统向所有抢修队派单由抢修队抢单,工单的派发策略不够合理,存在一定的主观因素,这在一定程度上影响了派单的及时性以及后续抢修工作的完成效果。

1  技术架构

    基于大数据产业链的定义,大数据的关键技术既包括数据分析技术等核心技术,也包括数据管理、数据处理、数据可视化等重要技术,技术架构图如图1所示。

lzb-t1.gif

    数据抽取技术:对集成信息系统数据库中的海量各类数据进行数据抽取,实时存入本系统数据仓库中,数据主要用于分析,数据设计按照面向业务设计原则进行设计。本系统数据来源于PMS数据、95598工单数据、在线监测数据、线路巡视数据、辅助监控数据、历史故障数据、线路监拍数据、实时负荷数据、APP使用数据等,经过数据抽取、数据清洗转换、数据加载三个过程生成用于工单自动派发。数据是通过数据抽取工具从各集成系统中自动定期抽取,抽取的数据针对不同业务要求进行过滤,过滤掉脏数据和不完整数据形成可用于用电分析的数据。

    数据分析技术:故障综合预警预判,对大量需求数据进行数据准备、规律寻找和规律表示,挖掘的主要任务有数据关联、聚类、分类等,以此实现各类故障的预测,为提高电网的运维检修水平提供技术支持。

    数据服务技术:为展示客户端提供数据访问服务,数据服务内嵌内存缓存数据库,用于提高数据访问性能。通过数据服务提供的多种分析数据输出方式接口,为实时展现当前各类电网设备可能发生的故障情况提供支撑。

    数据展现技术:数据的全方位、多角度展现。以热力图的方式,基于GIS展现电网设备故障风险。

    系统安全:安全架构针对系统的具体业务特点,按照管理信息内、外网分离的安全要求建立起强健的信息安全防范体系,有效保护系统的信息安全,防范黑客和非法入侵者的攻击。

    系统应用的安全体系可分为技术层面的安全和管理层面的安全两个部分。技术层面的安全设计主要包括应用安全、数据安全、系统安全、网络安全、物理安全等,其中应用安全是业务安全防护体系的核心。管理层面的安全主要包括安全组织及人员保证、安全管理制度、安全技术规范、安全考核及监督等内容。

2  数据架构

    大数据是体量巨大具有高价值的结构化、半结构化和非结构化数据。通过对大数据处理技术将这些数据转化为业务需要的数据模型,发现大数据中的“信息”和知识,为行业内外提供大量的高附加值的内容增值服务。

    大数据对数据特性、数据来源、数据获取方式、数据获取频率等不同角度对数据进行分类、规划、设计、部署,其数据架构如图2所示。

lzb-t2.gif

3  故障预警预判模型

    基于对历史故障原因的深入分析,将故障分成大类,针对每类故障再划分为子类,针对每个子类故障,根据支撑数据类型及维度的不同,选择不同的机器学习方法计算其可能发生故障的概率,进而推算出可能发生故障的综合概率以及最有可能发生故障的类型,实现对故障的预警预判。

lzb-t3.gif

3.1  故障因素分析

    基于对历史故障原因的分析,大致将故障分成如下5大类:电网设备自身故障、自然因素、外力因素、运维不当、其他因素。针对每类故障,同时将故障细分成小类:

    针对电网设备自身故障,可以细分为架空导线故障、电缆故障、柱上设备故障、箱变故障、配电室故障、开关柜故障、环网柜故障、JP柜故障、电缆分支箱故障、杆塔故障、绝缘子故障、避雷器故障、其他设备故障。

    针对自然因素,可以细分为雷击、强风、洪水、地震、山体滑坡、雨雪冰冻。

    针对外力因素,可以细分为盗窃、建设施工、车辆、外部火灾、外部异物。

    针对运维不当,可以细分为树障、鸟害等小动物、消缺不及时、巡检不到位、过负荷、过电压。

3.2  分类建模

    针对每一大类故障,分别建立对应的数据模型。

3.2.1  电网设备因素导致故障预测模型

    针对设备故障,从设备实时监测数据、运行数据、设备制造厂商、设备运行年限、设备历史故障次数等维度,针对历史故障信息,建立电网设备自身故障预测模型。例如,针对环网柜设备,实时监测数据包括:温度、湿度、局放、电缆温度、母线桩头温度、避雷器放电次数、烟雾浓度等维度,运行数据包括电压、电流等维度,设备制造厂商包括厂商名称、设备批次等维度。

    为了产生可视化的分类规则,避免了线性回归事先假定的线性关系不符合实际造成较大误差的情况,避免对函数形式事先进行假设而产生的假设误差,使得产生的模型具有可解释性,故采用树形模式进行建模,同时,为了减少需要调整参数、提高分类速度、高效处理大样本数据、实现特征因素的重要性估计、很好地处理类别变量、提高抗噪声能力、提高泛化能力,使得模型对新样本具有更强的适应性,在决策树的基础上,选择随机森林方法进行建模。

    随机森林回归的基本思路是:首先利用自助抽样法,从原始数据中抽取N个样本,且每个样本容量都与原始数据集相通;然后对N个样本分别建立N课树,得到N个结果,最后对这N个结果取平均值得到最终的预测结果。

    电网设备自身故障随机森林模型由N棵树组成,{F1(X),F2(X),……,FN(X)},其中X={x1,x2,……,xM}是故障的M维特征向量。结果会产生B个预测结果。对于回归问题预测值为所有以树预测结果的平均。算法流程如下:

    (1)原始数据含样本量为32 859,应用bootstrap方式抽样选择500个样本集,构建500棵决策树。每次抽样未被抽到的样本构成OOB(out of bag)样本作为随机森林的验证样本。

    (2)样本中变量个数为15,每一棵决策树每一个节点随机选择k个变量进行基尼指标计算,确定合适的变量得到合适的划分。使用随机森林做回归时,通常取k=P/3。本模型每次划分选择5个变量。

    (3)每一棵决策树生长到最大,无需进行剪枝,重复上述步骤直到生成500棵决策树。

通过上述步骤,建立得到电网设备自身故障随机森林模型,将OOB样本输入随机森林模型得到故障预测精度。

    随机森林可以给出变量重要性排序,据此得出营销故障发生的重要预测变量。其次,通过依次删除预测变量的方式计算方差解释性差值,得到变量的重要性排序。删除某个变量后解释性差值变化越大,证明这个变量越重要;解释性差值变化越小,证明这个变量越不重要。

    预测变量如表1所示:

lzb-b1.gif

    为提高准确性,随机森林运行10次得到方差解释性,如表2所示:

lzb-b2.gif

    方差平均解释性为85.12%。

    逐个删除变量方差解释性如表3所示:

lzb-b3.gif

    方差解释性变化如表4所示:

lzb-b4.gif

    因此,对故障的发生贡献影响因素最大的三个变量分别为温度、湿度和局放。

    通过bootstrap抽样,未被抽到的样本组成了K个袋外数据,构成OOB样本。将入袋样本作为测试集,将袋外样本作为验证集,衡量预测精度。随机森林每一次bootstrap抽样,会产生不同的OOB样本,不同的OOB样本会得到不同的预测精度。为保证预测准确性,对10次bootstrap得到的袋外数据计算预测误差并取平均,得出预测精度平均为79.3982%,满足要求。

3.2.2  自然因素导致故障预测模型

    在自然因素中,雷击、强风、洪水、地震、山体滑坡、雨雪冰冻等,多与故障的产生呈现一定的线性关系,采用线性回归方法对故障进行预测。选取特征X={x1,x2,……,xn}分别为:2小时内雷击次数、平均风速、最大风速、洪水等级、地震等级、山体滑坡等级、覆冰厚度等,进行建模,预测值y为发生故障的概率。将自然因素特征X映射到故障发生概率y函数为:

    lzb-gs1.gif

    选取71 982条历史数据作为训练集,用来训练特征系数向量,损失函数为:

    lzb-gs2.gif

    采用小批量随机梯度下降(MSGD)方法,将损失函数最小化以得到特征系数向量,MSGD方法随机采样一个批量的样本进行梯度计算,在保证算法收敛的同时,也提高了收敛速度。

    选取一个batch大小为10的训练样本,每次迭代计算一小批样本的误差来进行梯度下降;

    lzb-gs3.gif

    最终当两次迭代的结果小于设定值,则完成求解,得出模型。

3.2.3  外力因素导致故障预测模型

    外力因素为盗窃、建设施工、车辆、外部火灾、外部异物等。选取特征值为是否发生盗窃、施工距离、电压等级、车辆数量、是否发生外部火灾、是否存在外部异物等。其中盗窃、车辆数量、外部火灾、外部异物等参考历史数据中的平均值,施工距离可以依靠设备附近监拍装置图像获取。涉及特征量多为离散数据,选取决策树方法进行建模。特征的选择依靠信息增益比进行计算。

    针对历史数据,首先计算是否发生盗窃、施工距离、电压等级、车辆数量、是否发生外部火灾、是否存在外部异物等特征的信息增益:

    其中信息增益为:

    lzb-gs4.gif

    计算各特征的内部信息为:

    lzb-gs5.gif

    计算通过信息增益比为:

    lzb-gs6.gif

    通过比较得出信息增益比最大的特征,依据此特征进行划分,划分后再次计算其他特征的信息增益比,再进行划分,直到信息增益比小于阈值,完成模型的训练。

3.2.4  运维不当导致故障预测模型

    运维不当因素包括树障、鸟害等小动物、消缺不及时、巡检不到位、过负荷、过电压。选取特征值为周围是否存在树障、是否存在鸟害等小动物、缺陷发生时间、是否按计划完成巡检、负荷值、电压值。同外力因素导致故障预测模型类似,选择C4.5决策树进行建模。

3.3  综合建模

    完成上述模型建立后,可获取上述4类原因导致故障的概率,分别为P1、P2、P3、P4,根据历史故障数据可以计算各类因素导致故障的权重,计为a1、a2、a3、a4,最终故障预判模型为:

    故障发生概率P=a1×P1+a2×P2+a3×P3+a4×P4

4  技术实现路线

    本系统技术实现路线如下:数据收集及存储、数据分析、数据挖掘技术以及可视化展现4个部分。

4.1  数据收集与存储

    (1)电力系统数据

    PMS系统中的数据主要包含电网设备信息、检修计划等,抢修人员根据抢修工单信息,获取PMS中的电网设备及刚性计划等,本系统对PMS系统中的数据不做存储,仅进行实时调用。

    95598数据主要包含:电话服务记录、多媒体服务记录、95598服务记录、其他服务信息、语音记录、客户档案信息、部门人员信息、公共信息共8类数据,其中95598服务记录:主要包括业务受理信息、处理信息、流程信息等内容。以业务受理信息为例,按每天250条受理工单计算,年增91 250条记录,容量约870 MB。

    在线监测数据主要包含:架空导线、电缆、柱上设备、箱变、配电室、开关柜、环网柜、JP柜、电缆分支箱、杆塔、绝缘子、避雷器。本系统获取各类设备的历史及实时数据。共存储57 GB数据。

    巡视抢修信息的数据主要包含:巡视抢修工单信息,图片、音视频信息等。本系统保存所有巡视、抢修工单信息。按每月1.2 GB计算,年增长量为15 GB。

    电网GIS平台数据主要包含:地图切片数据,路网数据,重要设备的CPS坐标信息。本系统对电网GIS平台中的数据不做存储,仅进行实时调用。

    辅助监控数据主要包含变电站、环网柜等设备温湿度、油色谱数据、微水、气压等数据。本系统获取各类设备的历史及实时数据。共存储7.5 G信息。

    历史故障信息主要包括故障的基本信息、文本信息以及图片、音视频等数据。本系统一次性抽取400 G故障信息。

    线路监拍数据为杆塔上监拍装置拍摄的图像信息。本系统获取各类设备的历史及实时数据。共存储189 G信息。

    实时负荷数据为开关的电压、电流等数据。本系统获取各类设备的历史及实时数据。共存储3.4 G信息。

    APP使用数据主要包括APP的使用日志信息,按照每月500 M计算,年增长量为6 G。

    (2)外部数据

    气象数据主要为网格化的气象数据,包括温度、湿度、风力、最高气温、最低气温、台风预警、山火预警等。网格大小约为16平方公里。本系统对气象数据不做存储,仅进行实时调用。

    路况信息主要为路径导航数据、道路拥堵情况数据、临时封堵与管制信息等。本系统对路况信息不做存储,仅进行实时调用。

    网络舆情数据主要为主流社交媒体中电力相关的舆情信息。本系统对网络舆情数据不做存储,仅进行实时调用。

    (3)数据收集

    数据采集方法有数据复制、ETL、OGG、ESB等,可以根据实际业务选择采集方法,采集所要分析的数据集。对数据存储可以根据读写效率、存储成本、存储管理的不同运用选择存储方法,例如分布式关系数据库、分布式文件存储系统、分布式内存数据库、分布式NoSql数据库等。

4.2  数据分析

    大数据分析是运用大数据分布式计算方式结合分析模型对初始数据进行数据分析。大数据处理的方式有基于实时计算的流计算、内存计算、CEP复杂事件处理计算以及非实时计算的Map/Reduce处理方式等,计算方式可以根据实际业务的需要来选择。在数据分析过程中,首先对初始数据进行轻度加工,形成分析型数据,然后通过分析模型的应用,得到分析结果数据并形成价值服务数据,如图4所示。

lzb-t4.gif

4.3  数据挖掘技术

    (1)决策树

    决策树(Decision Tree)是一种非常成熟的、普遍采用的数据挖掘技术。之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中,决策树最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。另外,决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。

    (2)聚类分析

    聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。

    (3)关联规则

    关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。

    (4)回归分析

    回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在客户全面感知数据分析中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。

    多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。

4.4  可视化展现

    大数据应用基于准备数据,依据分析模型,分析统汇出结果,需要对分析结果进行可视化展现以及验证。

    数据可视化展现实现面向客户、面向服务人员、面向管理人员、面向决策人员的大数据结果可视化展示。根据业务数据集的特征和潜在结构选择合理的可视化模型,主要模型有多维可视化模型(散点图、线形图、柱形图、饼形图)、特殊的地形和层次可视化模型(地图和树型图),以及混合模型(图文说明图、动态效果图)等。可视化的技术有适合强交互多数据展示的Flex、强交互多动画展示的Flash、强交互动态展示的Silver Light、强交互多图文展示的Html5等。

    数据可视化验证可以从验证业务数据集的逻辑转换和验证业务假设进行验证,验证其分析结果是否符合预期或者是否可以依据分析结果做出预判等。根据验证结果也可以不断调整和完善大数据应用中各个业务的分析模型。     

参考文献

[1] 施文波,俞君杰,李校骁,等.电力GIS系统的设计与实现[J].现代电子技术,2015,38(21):155-158.

[2] 张婷.GIS系统在供电局配电网中的应用探讨[J].城市建设理论研究(电子版),2014,(7).

[3] 徐建.基于GIS的电力配网系统探讨[J].低碳世界,2015,(26):90-91.

[4] 谢炯,额尔敦,李欣,等.电力生产GIS服务平台的研究与设计[J].电力信息与通信技术,2013,11(9):85-89.

[5] 蒋锦霞,庄晓丹,梅峰,等.配网生产抢修指挥平台设计及应用[J].电力信息化,2013,11(5):57-61.

[6] 姚楠,陈哲,刘玉林,等.基于GIS的电网气象灾害监测预警系统的研制[J].电力信息化,2013,11(3):41-45.

[7] 崔巍,王本德.电力抢修监控调度系统开发和应用[J].电力系统自动化,2002,26(19):64-67.

[8] 郭建成,钱静,陈光,等.智能配电网调度控制系统技术方案[J].电力系统自动化,2015,(1):206-212.

[9] 翁颖钧,朱仲英.地理信息系统技术在电力系统自动化中的应用[J].电力系统自动化,2003,27(18):74-78.

[10] 刘友波,刘洋,刘俊勇,等.基于Hadoop架构的电力系统连锁故障分布式计算技术[J].电力系统自动化,2016,40(7):90-97.

[11] 夏可青,陈根军,李力,等.基于多数据源融合的实时电网故障分析及实现[J].电力系统自动化,2013,(24):81-88.

[12] 陈春,王业平,崔毅敏,等.电网故障信息系统中的故障分析与判断[J].电力系统自动化,2011,35(19):97-100.

[13] 林颖,郭志红,陈玉峰,等.基于卷积递归网络的电流互感器红外故障图像诊断[J].电力系统保护与控制,2015,(16):87-94.

[14] 李雨舒,李明珍.无人值班变电站遥控常见故障的分析与处理[J].电力系统保护与控制,2009,37(18):145-146.

[15] 李涛,吴冰,潘磊,等.应急指挥中心信息接入方法研究[J].电力信息化,2012,10(11):38-42.

[16] 张尚谟,王永红,华侃,等.应急指挥中心多级音视频互联的研究及应用[J].电力信息化,2012,10(5):33-36.

[17] 李啸东,渠毅,郝小龙,等.电网全景展现与运行指挥系统的应用[J].电力信息化,2012,10(1):90-94.

[18] 曾东,王法,许金明,等.基于输电状态监测平台的巡检系统研发及应用[J].电力信息化,2011,09(11):96-99.



作者信息:

刘周斌1,何  颋2,李沁园1,胡晓哲2,项  翔2,袁永军2,王海峰2

(1.国网浙江省电力有限公司电力科学研究院,浙江 杭州310007;2.国网浙江杭州市富阳区供电有限公司,浙江 杭州311400)

此内容为AET网站原创,未经授权禁止转载。
机器学习 故障诊断