设计应用

PMS2.0系统健康度模型及对策分析

作者:刘逸逸1,孙家骏2,石 磊3,秦 峰3
发布日期:2019-11-21
来源:2018智能电网增刊

0  引言

    国家电网公司设备(资产)运维精益管理系统(Power Production Management System 2.0, PMS2.0)是“三集五大”体系建设中的“大检修”体系内容, 支撑运维检修全过程精益化管理和电网资产的全寿命周期管理, 覆盖国网公司运维检修业务, 贯穿生产管理全过程, 更大范围地实现数据共享和业务融合。

    PMS2.0 为总部、省公司二级部署, 总部、省公司和地市(县)公司三级应用部署在省公司的应用, 同时支撑省公司、省检修公司和地市(县)公司的运检业务,并在地市公司部署电网资源数据代理服务, 以提高地市公司电网资源应用效率和可靠性,部署在国网公司总部应用, 与省公司进行纵向贯通, 支撑国网范围内的总部上层应用。

    作为运检业务条线最重要的生产管理系统,如何保障系统健康稳定运行成为信息通信部门的一项重要工作,信息系统运维是一项系统工程,探索系统健康运行方法,量化系统健康水平对系统运维具有重要积极意义。

1  系统健康度衡量办法    

    图1为PMS2.0物理部署视图:

lyy-t1.gif

    从图1我们可以分析出PMS2.0系统由应用服务器集群、数据库集群以及外围的ISC、BPM平台组成。这些服务通过网络交换机、负载均衡器、磁盘阵列连接起来,形成一套庞大的系统。

    按照从整体到局部,从宏观到微观的分析方法,PMS2.0系统的健康情况取决于应用服务器、数据库、ISC、BPM以及基础设施的健康情况。这些应用服务、数据库服务和基础设施的健康情况可以通过观察其关键性能、可靠性指标得到,比如数据库服务器的CPU利用率、表空间大小,应用服务器(WebLogic)的JVM可用内存大小、线程数、JDBC连接池可用连接等。

    服务的健康情况对于系统整体健康影响程度不一样,比如PMS2.0应用服务器通过负载均衡器提供给最终用户访问,当一台应用服务器出现故障,F5负载均衡器将后续请求转发给其他健康的应用服务器,而如果一台生产数据库出现故障,由于两台生产数据库组成RAC集群,用户仍然可以查询操作业务数据,但由于只有一台数据库提供服务,系统健康受到较大影响。

    同样地,服务的不同指标对服务的健康度影响大小也存在差异,例如Oracle数据库实例处于停止状态的影响远远大于表空间利用率大于90%对系统健康的影响。

    综合以上因素,我们可以推导出系统健康度模型,在下一章节详细阐述。

2  系统健康度模型

    指标项(M):是指度量服务运行情况、反映服务各方面水平的值,一般服务具有多个指标项。本文中指标项用字母M来表示。例如对Weblogic应用服务,活动会话数、JVM堆内存使用比率、总线程数、空闲线程数、挂起等待线程数都是其指标项。目前IT服务指标采集和监控手段非常多,并且不同服务、设备指标采集监控也不尽一样,但已经非常成熟了。

    指标项状态(MS):指表示指标项的正常或者异常状态,根据指标项的具体内容,将指标项的值定义在不同的区间用以反映指标项的正常或者异常。例如可以定义WebLogic的JVM堆内存使用比率大于等于95%时,该指标状态为异常,反之则为正常。本文中指标项状态用MS表示,分为正常和异常两种情况,正常用0表示,异常用1表示。   

    指标权重(MW):指标权重反映指标对服务的影响程度,权重越大则指标对服务影响越大,权重越小则影响越小。本文中指标权重用MW表示,MW的值为从0到1的有理数(包括0和1)。

    指标项健康度(MH):指标项健康度反映指标项的健康情况,它受到指标项状态和指标权重的影响,当指标项状态为0时,指标项健康度为1,当指标项状态为1时,指标权重越大则指标越不健康,本文中指标项健康度用MH表示。指标项健康度的计算公式如下:

    lyy-gs1.gif

    假设JVM堆内存使用比率的健康权重为 MW = 0.7, JVM堆内存使用比率超过95%时,状态值MS=1(异常),则CPU利用率的健康度MH=1-1×0.7=0.3,也就是30%的健康度。

    服务健康度(SH):服务的健康度取决于健康度最低的指标项,即服务健康度由该服务所有的指标项健康度决定,本文用符号SH表示服务健康度。一个系统可用比作一个由多块木板组成的木桶,系统的瓶颈和健康程度用木桶效应阐述:当盛水量(业务访问量)越来越多,木桶的盛水高度(系统瓶颈和健康度)取决于其中最短的那块木板。也就是说服务的健康度取决于指标项健康度最低的指标。因此我们得到服务健康度的计算公式如下:

    lyy-gs2.gif

    服务权重(SW):服务权重反映服务对业务系统运行的影响程度,服务权重越大说明服务对业务系统的影响程度越大,反之越小,本文中用SW表示服务权重。SW的值为从0到1的有理数(包括0和1)。

    例如,在PMS2.0系统中,两台数据库服务器组成的RAC共享存储损坏对业务系统产生的影响是致命的,因此可以设定数据库服务器的服务权重SW=1(即100%);

    服务影响度(FD) :服务影响度是指服务的健康度对业务系统造成的影响,服务的服务影响度值越大,说明服务对业务的健康度影响越大,反之则影响越小。本文中用FD表示服务影响度,具体描述如下:

    lyy-gs3.gif

    SH为服务健康度,SW为服务权重。           

    例如,在PMS2.0系统中,假设应用服务器的健康度SH=0 (即0%健康),应用服务器的服务权重为SW=1(即100%,表示应用服务器宕机对PMS2.0系统的影响是严重的), 则可以得出应用服务器的服务影响度FD=(1- 0)×100%=1。

    系统健康度(H) :通过PMS2.0物理拓扑图我们可以得知,PMS2.0系统由多个应用服务器、数据库和外围相关平台组成,系统的健康度由系统所包含的服务健康度所决定,根据木桶效应,系统的健康度取决于系统中所包含服务的最大服务影响度,也就是说最不健康的服务(服务影响度最大)决定了系统的健康度。本文中以H表示系统健康度,其计算公式如下:

    lyy-gs4.gif

    FD为服务影响度。

    通过以上推导我们得到了系统健康度模型,从而可以量化系统健康水平。

3  健康度模型验证

    在系统健康度模型定义基础上,我们可以知道系统健康度计算过程:

    (1)识别出组成系统的服务,定义服务权重;

    (2)分析出影响这些服务健康的指标项、定义指标项权重、定义决定指标项状态的项阈值;

    (3)通过监控系统或者服务自带的指标监测工具得到指标项状态,根据第式(1)计算出指标项健康度;

    (4)根据式(2)计算出各个服务的健康度;

    (5)根据式(3)计算出各个服务的影响度;

    (6)根据式(4)计算出系统健康度。

    根据这个计算过程,并参考PMS2.0物理架构图,我们可以模拟出PMS2.0某个时刻的健康度,为了能更直观地显示系统健康度计算过程,对组成服务以及服务指标做了简化,如表1所示。

lyy-b1.gif

    通过表1中的计算,可以看到当Oracle数据库1的磁盘利用率以及WebLogic1、WebLogic2的CPU利用率出现异常情况时,PMS2.0的健康度只有28%,系统运维人员必须立刻进行处理,否则将会系统用户造成巨大影响。

4  对策分析

    可视化的能力代表了运维的能力,可视化的程度越高,运维的能力越高。根据以上对健康度模型的分析,应构建各配置项关联关系,定义影响因子模型,在监控系统中呈现PMS2.0系统的业务视图,可实现对业务系统运维态势的可视化展现及故障原因分析定位。

    在具体运维层面上,应深入贯彻国网公司和省公司的精益化、扁平化的管理理念,借鉴国际上的相关理论体系,通过标准的信息服务支撑系统。 实现统一运维入口、统一运维规范和流程,通过有效的问题、故障闭环管理机制,责任分工明确,具体到人,使出现故障时能够快速响应,有效排除。

5  结束语

    本文以国家电网PMS2.0系统为基础,构建了一种系统健康度模型,并给出了验证实现的计算过程,针对PMS2.0健康度模型还给出了具体的对策分析,为将来结合电力系统的监控系统,构建实际的PMS2.0健康度监控系统提供了理论和实践依据,通过健康度监控系统可以更有效地保障系统健康运行。本文提出的健康度模型也适用于电力其他业务应用系统。

参考文献

[1] Mostafa Mohamed AlShamy,ITSM implementation methodology based on ITIL V3,LAP LAMBERT Academic Publishing,2012年08月.

[2] 翰纬IT服务管理文库,中国IT服务管理指南(第二版),北京大学出版社,2012年02月.

[3] 韩晓光,系统运维全面解析:技术、管理与实践,电子工业出版社,2015年11月.

[4] 罗文,信息系统运维管理咨询与监理服务,人民邮电出版社,2014年09月.




作者信息:

刘逸逸1,孙家骏2,石  磊3,秦  峰3

(1. 国网上海市电力公司信息通信公司,上海 200122;2. 国网上海市电力公司市南供电公司,上海 200122;

3. 上海安言信息技术有限公司,上海 200050)

此内容为AET网站原创,未经授权禁止转载。
业务系统 健康度 监控 云计算 运维监控