1.设备自动化巡检BOX概述
1.1背景概述
IT高速发展的时代,势必投入大量的IT设备。不同时段的IT设备,不同品牌,不同型号以及不同配置的IT设备等是否正常运行,成了IT发展的重要基石。
混合的IT设备对日常运维人员提出了更高的要求。由于IT部门普遍存在人少事多,设备品牌杂,占用了大量的运维人力资源。如何减轻运维人员的工作量,提升IT设备的高可用性,同时还需要控制运维成本,提高IT设备的高可用性,是运维人员一直探讨和研究的方向。
容错设备自动化巡检BOX正是解决运维人员困惑利器,通过集中收集IT设备的事件信息,大数据分析收集的IT设备事件信息,挖掘出有价值的设备问题库,集中展现设备的问题信息,并且根据设备的问题级别、服务的状态分类统计,省去运维人员收集IT设备的问题信息,集中查看所有IT设备的问题信息,并且根据服务级别和服务响应时效安排日常运维工作。实现主动运维服务,改变被动服务的局面,提升IT设备高性能稳定运行,创建一个可知可控的IT环境。
1.2.建设目标
设备自动化巡检BOX的建设和部署应用,实现IT设备事件的集中收集,IT设备的事件大数据分析,挖掘并建立设备的问题信息库,集中展现IT设备的问题信息,实现主动式运维服务管理模式。
主动式运维服务管理不仅缓解运维人员的压力,而且改变被动服务的局面,提升IT设备的高效持续稳定运行,创建一个可知可控的IT设备环境,从而保障基于设备基础之上的各类IT业务应用系统持续、稳定的运行。
1.2.1.主动发现设备的问题信息
改变现在的问题信息由业务部门提出的被动局面。收集IT设备运行的事件信息,通过对设备事件信息的大数据分析,挖掘出IT设备的问题信息,并主动提醒告知管理者。问题信息包括设备的操作异常行为信息,设备的运行状态及隐患信息,设备的故障信息,设备过保信息及设备的资产信息。
1.2.2.集中保存设备的问题信息
改变设备的事件信息四处存放凌乱局面,统一收集IT设备运行的事件信息,挖掘出设备的问题信息,建立统一的问题库集中保存,满足追溯分析使用。
1.2.3.自动督促设备问题信息的执行
当问题库新增问题信息,自动把问题信息转发给对应的服务团队,BOX自动根据服务时限对问题信息跟踪督促,保障问题信息按照预案提供服务,保证服务时效。
1.2.4.集中展现设备的问题信息
集中展现IT设备存在的问题信息总数,紧急程度的问题信息组成,异常服务状态信息组成,各个问题信息产生的具体原因,各个问题信息的来源,不需要再到IT设备中去查询,方便管理者和维护者快速掌握问题信息。
2.设备自动化巡检BOX产品介绍
2.1.设计思路
设备自动化巡检BOX基于ITIL最佳服务实践和ISO20000标准,遵循客户实际管理规范和管理模式,降低维护人员的压力,改变被动式救火服务模式为事前主动预警,由无序服务向有序服务转变,逐步实现IT设备服务管理工作的自动化和智能化。
设计思路以问题信息库为核心,首先收集IT设备的事件信息。对收集的事件信息进行大数据分析,挖掘设备的问题信息,构建符合客户管理者需求的问题信息库。对问题信息库进行问题发布和问题展现。
2.2.整体架构
设备自动化巡检BOX巡检的对象有1、服务器【x86及小型机服务器】;2、SAN交换机及存储设备;3、网络设备;4、安全设备;5、环境动力;6、其它设备等组成。
2.2.1.采集原理
采集的信息有被动和主动获取两种方法。
2.2.2.被动接收信息
通过syslog、SNMP Trap等被动协议接收信息。
2.2.3.主动获取信息
通过IPMI、telnet 、ssh、CMC、AMM、ILO等协议主动获取信息。具体需要根据各个厂家的产品决定。
2.3.BOX部署
设备自动化巡检BOX旁路部署在网络中,开启管理口,保证网络及数据能够交互。
部署原理: