福建水产设备联盟

实战Practice丨 央行数据中心如何实现电力容量精细化管理

金融电子化 2020-03-28 10:10:19

本文节选自《金融电子化》2018年2月刊

作者:中国人民银行金融信息中心 刘鹏鹏 肖鑫



编 者 按


本文介绍了中国人民银行数据中心是如何通过新技术优化了机柜功率核算方式、实现了在线设备实时监控、保障了用电安全水平。  


行业背景:

1.行业主旋律逐渐从互联网金融切换到金融科技

2.项目和系统建设进入高潮期

3.数据中心承载的IT系统及设备规模快速扩张

            

面临的问题:据调查,3~5年前投入使用的银行数据中心,现在普遍面临着较大的电力容量、空间容量、制冷供给压力。


实战经验:中国人民银行总行数据中心建设了一套功率在线监控平台,可实时统计分析IT设备功率变化情况,为机柜电力管理、机房区域规划、机房气流组织分析、制冷量调整等相关运维工作提供数据支持。



优化机柜功率核算方式

问题:IT设备的功率分为额定功率和实际功率。在传统的机房电力容量管理模式下,一般都以设备额定功率值作为核算依据制定机房使用规划并摆放机柜内设备,这种方式的优点是简单易操作,缺点是机柜额定功率虚高而实际运行功率较低,使得机柜空间利用率较低。


实战:解决这一矛盾的有效途径是在保证用电安全的前提下适当提高机柜功率密度。摸清IT设备实际运行功率的变化规律,以此核算和分配机柜空间。


人民银行数据中心具体做法是:编制测试脚本,实现对IT设备运行负荷的模拟,记录IT设备在开机启动、空载运行、半负载运行、满负载运行等工况下的功率变化情况。结果规律如下:实际功率最大值通常出现在满负荷运行时,但设备启动时的功率消耗也非常大,甚至接近满负荷运行时的实际功率。


实际功率随运行负载增加而增加,但不呈线性关系。多数IT设备实测最大功率为额定功率的30%~50%。


我们将测试数据进行了汇总,编制了IT设备实测功率信息库,作为同型号IT设备上线的功率核算参考。这一举措提升了电量核算的准确性,机柜功率密度较之前有了大幅提升,以新上线的TIPS二代系统为例,机柜功率密度普遍提高50%以上,实际使用机柜数量较传统功率核算方式减少了21%,有效节约了机房空间。



实现在线设备实时监控

问题:传统数据中心已上线运行的IT设备数量庞大且种类型号繁多,占用了大量的机柜资源,只有把这些存量机柜的功率密度提升上去,才能从根本上扭转机柜空间利用效率低的现状。传统数据中心通常只能通过列头柜读取整台机柜的运行功率,但并不掌握单台IT设备的实际功率情况。功率测试的方式显然不适合已上线设备。


实战:人民银行数据中心最终选取采用智能PDU搭建IT设备功率实时监控平台的解决方案。将机柜的PDU升级为智能PDU,采用“手拉手”方式将智能PDU组网,实时上传设备功率数据到监控平台,如图。



功率在线监控平台可实现对数据中心机房区域内任一设备运行功率的实时监控,管理人员不仅能够随时查看设备每一路电源的功率实时值,还可通过监控平台对设备的历史功率数据进行调阅分析。另外,监控平台一旦发现“未启用”插孔上有功率输出或“已启用”插孔上功率输出突然中断都会立即报警,真正实现了机房功率的动态监控和管理。


之后,我们调整了机房使用规划:新系统上线时,IT设备优先在存量机柜内部署,在存量机柜的空间资源充分利用后再启用新的机柜或机房模块。按照这一思路,我们仅第一批就从30个功率密度较低的存量机柜上释放了约600U的空间,相当于新安装14个标准机柜。随着机柜功率密度的提高,存量机柜“沉睡”的空间盘活了,整个机房的制冷效率也显著提高,机房能耗指标PUE值进一步降低,节能减排效果明显。


后续我们还将开展特定机房区域在特定时间段的制冷跟踪调整,在IT设备功率精细化管理的基础上实现制冷效果的精细化管理。


保障用电安全水平

问题:银行业数据中心的可用性一定要达到99.999%,即每年由于基础设施引起的IT服务中断不得大于5分钟。机房运维管理人员需从供配电、空调及水循环等各个方面做好风险管控工作,其中及时的功率预警和有效的故障损失管理是保障用电安全的重要手段。


实战:在功率预警方面,充分利用功率实时监控平台得到的在线运行设备的功率曲线,为每个端口设置功率阈值。管理人员收到预警信息后会通过查看该设备的业务处理量和设备自身的状态指示标志判断其是否存在故障或隐患,这对提前发现和处置风险隐患具有重要意义。另外,我们已将设备实际功率作为设备管理的重要参考指标,通过综合分析设备的使用年限、业务负载和维修记录等信息评价设备的运行状况并制定设备更新计划,有效降低硬件设备故障率,确保业务系统的连续性。


在故障损失管理方面,为了解决IT设备电源短路引发列头柜分闸跳闸而导致整个机柜电源停电的问题,除了对PDU端口功率预警信息密切关注、及时处置之外,我们还积极尝试使用熔断保护模块来实现故障端口控制。这种熔断保护功能是在PDU设备的每一个输出端口上都安装一个熔断模块,一旦该端口对应的IT设备电源模块发生短路则该熔断模块内的保险丝便熔断,保护整个机柜的供电不受影响,将故障影响范围控制在单台设备的单个端口上,确保不影响机柜内其他设备的正常供电。熔断后的保险丝还非常易于识别,有利于快速排查和故障定位。 




欢迎金融科技工作者积极投稿!

各抒己见!







《金融电子化》新媒体部

主任 / 邝源   编辑 / 潘婧