|
ITIL(IT Infrastructure Library)是目前比较流行的与IT 服务管理相关的框架,被企业用户广泛采用,作为设计整个企业IT 服务管理框架的指导思想和理论支持。
在ITIL的框架中,与IT运维管理紧密相关的就是服务管理中的“服务支持”和“服务提供”部分。我们考察其中的主要内容就能够发现,自动化运维操作平台对于成功实施ITIL具有极其重要的作用。
意外事件管理
ITIL定义了意外事件管理主要是处理发生的故障,包括对故障的发现、请求和报告的整个过程,其目的是快速恢复由于故障造成的业务中断。这可能是对故障的彻底解决,也可能是采用应急或临时的解决办法。在故障恢复后,一定要进行问题分析,以彻底解决问题,防止故障的再次发生。
很多用户在实践ITIL的过程中会率先实施这部分功能,通过HP Openview、IBM Tivoli、CA Unicenter等网络/系统监控软件来实现“意外事件管理”。然而,在多数情况下只做到了了“监”,而没有做到“控”。也就是说,IT人员可以通过上述软件看到发生了什么故障,甚至可以了解若干故障之间的关联和受影响的业务等。但是解决这些问题往往还是需要运维人员手工的操作,这就使得运维的效率出现了“延迟”。如果故障数量太多,超过了运维人员的处理极限,哪怕是很小的、很容易解决的故障,都会因为延迟累积而放大故障效果,直到影响业务的正常运转。因此,一个自动化的运维平台对于实现ITIL的“意外事件管理”是至关重要的。
问题管理
问题管理主要关注于跟踪已经确定的已知问题的处理和IT基础架构的长期稳定性。与意外事件管理的侧重不同,问题管理流程侧重于发现故障的真正原因,并避免问题的再次发生。对于意外事件管理中虽然已经恢复,但是还没有找到原因和采用临时措施解决的问题,需要通过问题管理流程进行问题的分析、诊断,找到问题原因和避免问题再次发生,或者在发生相同故障时,可以快速恢复。
一个强大的运维操作平台,能够向IT技术专家提供丰富、即时的系统配置信息,可视化地展现网络、服务器、存储、应用之间的映射关系,帮助运维人员快速定位、诊断问题。
当问题得以解决,形成宝贵的运维经验或知识时,通常情况下,这些知识被记录在纸上或者录入到知识管理系统,以备将来发生类似问题时查询。而运维操作平台可以将这些知识固化到企业的IT系统之中,当问题再次发生时,IT系统可以自动地做出反应,将问题解决。
变更管理
变更管理流程目标是实现在可控制的方式下处理变更的过程。
在影响网络可用性的诸多因素中,非法或者随意变更造成的故障占有重要的比例。有统计数据表明,80%的网络故障都与变更有关。因此,需要严格控制变更,以提高数据中心的可用性。
其实,变更就是操作。对于数据中心,变更操作往往是针对一批设备,可能是几十、上百甚至数千台,人工实施变更无疑效率低,出错概率高。运维操作平台的主要功能之一,就是要提供一个自动化的操作工具,使得运维人员能够高效、准确地完成对批量设备的变更操作,并自动进行验证。同时,任何一个变更都是在严格的权限控制和记录下进行,做到“照章办事,有据可查”。
|