计世网

PISA“出炉”!看七牛云如何用数据“烹饪”智能运维盛宴
作者:刘沙 | 来源:计世网
2021-07-09
从人工到流程化、标准化,再到自动化、平台化,IT运维正向智能化演进。

 

  三分建设,七分运维!

  一句IT业内人人皆知的“行规”道出了IT运维的不易和重要性。

  近年来,作为IT软硬件环境、网络、应用系统等安全、高效、稳定运行的保障,IT运维的方式也在逐渐进化。

  随着我国新基建建设步伐加速,各行各业都在加快数字化转型,数字经济规模持续扩大,云计算、人工智能、5G、物联网等信息技术应用日益普及,企业IT基础架构云化情况增多、数据量爆炸性增长,传统的IT运维方式已经无法满足数字时代的企业发展需求。从最开始的人工运维到流程化、标准化运维,再到自动化、平台化运维,IT运维正在向智能化演进。

  7月9日下午,七牛云在上海举办新产品发布会,推出了全新平台Pandora智能服务分析(Pandora Intelligent Service Analysis,简称“PISA”)。这一新平台基于七牛云多年构建的数据能力,展现出智能运维领域的核心竞争力,可帮助企业IT运维部门智能化改造,实现提前预警、简化运维流程以及控制成本等。


  化解运维难题,七牛云打造全新平台

  智能运维,即AIOps。著名IT咨询公司Gartner认为:AIOps平台将大数据分析技术与机器学习功能相结合,主要对数字化转型过程中IT系统不断产生的数据量、数据类型进行采集和分析,助力IT运维。该平台能够同时使用多个数据源、数据采集方法、数据分析技术。

  但是,智能运维在企业中落地并非易事,它对数据平台搭建、数据采集与传输、数据汇聚、存储与建模、数据计算、AI 体系化、场景与工程化融合等方面都提出了极高的要求,需要更专业的、更高质量标准的运维平台。

  可用于智能运维管理的七牛云机器数据分析平台Pandora能实现数据的全生命周期智能管理,适用于运维监控、业务运营分析、安全事态分析、智能网联数据分析等各种场景。自面世以来,已广泛于应用金融、汽车、运营商、智能制造、互联网等行业中,帮助企业探索数据,挖掘价值。

  而为了解决监控工具各自为政,告警繁多无从分析,突发故障疲于应付,故障影响无从分析等难题,七牛云基于pandora平台推出全新应用:PISA,即Pandora智能服务分析(Pandora Intelligent Service Analysis),可基于用户业务视角的服务洞察、完整的端到端监控,快速发现问题,分析根源。

  “全快未变”,PISA让运维更智能

  据介绍, PISA具有“全、快、未、变”四大特点。

  其一,全:PISA可以基于业务角度,绘制业务流程与拓扑,对指标进行全面、统一的梳理和监控。让运维从IT视角变为业务视角,指标直接关联业务服务健康度,通过查看服务健康状况的自定义可视化工具,呈现丰富的业务拓扑流程图,实现业务全貌监控,对故障给业务带来的影响能够一目了然。可以降低业务损失,规避业务风险,有效支援业务开展,提升业务价值。

  其二,快:快速定位故障和根因挖掘可以有效缩短平均修复时间。多KPI分析工具可以将任何相关联的KPI放在根因挖掘面板中进行分析。通过多指标关联分析面板,查看在不同时间点上各个KPI的变化情况,可智能定位高贡献度异常KPI,层层下钻快速进行故障定位,帮助运维人员更快分析问题、排查问题,修复故障。

  其三,未:基于Pandora平台强大的智能数据能力,用机械学习助力快速查找潜在异常,通过动态阈值、异常检测等算法学习数据模式,帮助运维人员在海量数据中自动检测,寻找潜在的未知异常,提前发现问题,进行故障排查,争取处理问题的时间窗口,可以帮助IT运维“治未病”,减少运维成本。

  其四,变:服务拓扑视图可以展示整体业务健康情况,服务异常与影响范围一目了然。让运维从被动寻找问题原因,变成主动发现问题,并预防问题发生,让运维部门从成本中心变成利润中心和创新中心。

  支持海量数据

  由于Pandora具有强大的采集、解析与计算能力,能集成所有数据,PISA可以支持海量数据下的实时KPI异常检测,并将运维数据KPI分为以下三类:

  1、Metrics 指标性统计:包括服务的 TBS 的正确率、成功率、流量等,是常见的应用单个指标,Metrics 单指标分析。

  2、Tracing 分布式追踪:这里是指一次请求的范围,也就是我们从浏览器或者手机端发起任何的一次业务调用,从浏览商品到最后下定单、支付、物流、最后交到我们的手上,需要去追踪这个轨迹。

  3、Logging 日志记录:指程序在执行的过程中间发生的日志,包含报错信息、堆栈信息等详细日志内容。

  最佳实践:PISA在银行如何应用

  PISA的典型应用场景之一就是银行核心系统。

  在对银行核心系统服务模型梳理时,要将IT指标和业务指标分层设计并建立依赖关系;建立覆盖行内核心业务的健康度模型,并通过工作台统一管理业务与IT,实时呈现业务和IT状态,快速排查、分析与定位问题故障。

  过去没有服务分析器时,问题的处理方式往往比较被动:

  1、客户电话反馈网上银行登录遇到问题

  2、客服系统核实确认后建立服务工单交给IT进行问题排查

  3、IT进行长时间的问题排查找到原因后反馈结果

  4、事情已经发生,用户体验差

  如今,PISA可以主动规避风险,快速处理问题:

  1、IT收到网上银行预测未来30min服务降级的预警

  2、通过业务交易健康服务分析器发现目前网上银行服务处于低危状态,查看其kpi发现都处于正常状态。同时注意到下层的核心系统已经处于高危状态

  3、点击核心系统,查看所有KPI发现cpu使用率已经处于严重状态,再次点击查看所有实体的详情,发现服务器1的cpu即将占满

  4、进一步查看日志详情,查找cpu飙升具体原因

  5、立即修复故障,避免事故发生

  在服务故障预测方面,对于银行的每一个服务,PISA都可以建立所有历史的KPI与未来的服务健康分数之间的模型,用于预测未来的服务健康分数,提前识别潜在的风险并进行风险规避。

  通过KPI异常检测,可以准确查找出异常。在基于单个KPI的异常检测中, 例如:银行的交易量呈现一定的周期性,在早上 9:00-11:00,下午1:00-3:00会出现波峰,如果设置固定阈值,会出现误报漏报的情况,而动态阈值能够更加准确进行异常检测。

  在基于实体的异常检测中,例如:银行的吞吐量在负载均衡的几台机器上会呈现出相似性,如果某台机器突然出现与其他机器明显不同的情况,就表示负载均衡可能出现异常,或者某台服务器上的服务异常。这样可以减少运维人员查找故障的时间。

  而KPI面板分析可以帮助运维人员快速定位故障原因。自银联成立以来,跨行交易的成功率每年都在提高,已经接近99%。但是银联每天的交易量超过1000万笔,每天还是会发生大量的跨行交易失败情况,尤其在那些信息管理水平尚不成熟的银行中,这种情况更多。

  通过多KPI关联分析故障,可以发现:每天0点、6点、23点半的时候存在一定的交易量,但是交易成功率显著降低,说明在这些时间段内用户交易在大概率上都会失败,影响用户体验。并且注意到,在这三个时间点,银行会做数据库重启、对账和日切的操作。于是银行快速采取了补救措施: 对核心数据库进行升级,解决数据库重启的问题;对系统进行优化,缩短每日日切处理时间,改进凌晨对帐影响联机交易的问题。

  PISA强势入局,IT运维市场重塑格局

  当前,IT运维管理软件处于软件市场中规模最大的刚需赛道之一,且处于快速上升的通道中。IT运维管理市场孕育着巨大的变化和发展机会。有研究机构统计,中国IT运维管理软件的潜在市场空间已超过千亿元。而数据对于运维管理的重要性毋庸置疑。

  此次发布的Pandora智能服务分析平台--PISA拥有七牛云多年积累构建的数据能力的核心堡垒。作为国内领先的“云+数据”服务提供商,七牛云一直致力于以数据科技全面驱动数字化未来,赋能各行各业全面进入数据时代。七牛云基于领先的云存储能力建立了统一的异构数据湖,打造了完备的视频云服务闭环,并创建了简洁开放的机器数据处理平台,帮助客户用科技手段降低成本、提升效能。可以预见,PISA或将重塑智能运维领域格局。

 

责任编辑:刘沙