AI加持,让智能运维成为数字世界的必选项
AI正在深刻地改变我们的工作和生活方式,甚至包括我们的饭碗。2017年底,BBC和剑桥大学的学者一起分析了300多个职业在未来的被淘汰概率,IT工程师以58.3%的概率高居第15位。这里的IT工程师就包括了在传统运维部门中占据大量岗位的系统管理员和网络工程师。
这并非是危言耸听,我们可以看到的是,越来越多的系统管理工具和运维监控工具开始整合机器学习、深度学习等人工智能技术。而AI在大幅度提升IT运维能力的同时,也让IT部门逐步减少对基础运维岗位的需求,完全依靠人力解决运维问题的时代已经渐行渐远。
AI在IT运维领域的应用被诸多分析机构和新一代CIO当作企业数字化转型的突破口。Gartner在2016年首次提出智能运维(AIOps)这一个概念之后,迅速得到业界的广泛响应。无论是IBM、CA等传统运维巨擘,还是Splunk、Dynatrace、云智慧等新兴运维企业,都把AIOps作为IT运维发展的未来。
智能运维,数字化转型的必选项
物竞天择的自然法则同时主导着数字世界的发展。
任何一个技术的流行都不是凭空的,AIOps智能运维也不例外,最根本原因是市场需求在推动。
在信息化时代,IT部门扮演着业务跟随者的角色,遵从业务需求支持ERP、财务、OA系统的运转,运维主要承担封闭IT环境中硬件设备和软件系统的日常巡检、维护、升级工作,由于业务对IT的依赖程度不高,企业对运维效率和问题解决能力的要求也不高。
云智慧总裁刘洪涛
“随着产业互联网的发展和数字经济的增长,业务运行越来越依赖IT的高效运转,IT部门的角色发生了巨大的变化,由跟随者变成了支撑者、甚至业务创新的引领者。数字世界里,IT基础设施陆续上云,过去需要直面的各类硬件设备、软件系统隐藏了起来,而展现在我们面前的虚拟机、容器、微服务让IT架构变得更加庞大、复杂,移动化、IoT的大量应用则把IT边界从内部扩展到边缘。这是近两三年中国传统企业在数字化转型过程中都会遇到的难题,当IT建设达到相当规模,传统运维工具和运维方法无法解决企业遇到的种种问题,智能运维的需求自然就冒出来了。”云智慧总裁刘洪涛感慨道。
刘洪涛所领导的云智慧公司成立于2009年,是一家为企业提供全栈智能IT运维产品的解决方案服务商,旗下监控宝、透视宝和压测宝等IT运维产品拥有良好的用户口碑。10年来,云智慧一直扎根在IT运维市场精耕细作,对于这个市场的每一次变化起伏,刘洪涛都有非常深刻的感受。
以“非常传统”的房地产行业为例。一直以来,拿地盖房售楼都是国内房企的最核心业务,而现在商管、文旅等新业务逐渐成为头部房企的拳头产业。2018年万达商管集团收入376亿元,文化集团收入692亿元,二者累加已经达到万达地产集团540亿收入的一倍。而云智慧服务的这家房地产巨头,随着业务转型的加速,IT规模呈爆发式增长,目前有超过两百个系统支撑着新业务的运转,每天的工单、告警数量堪称海量。对于一家正在向技术密集型企业迈进的“传统”企业来说,依靠人力去解决规模化、效率低等IT难题显然与数字化转型的初衷背道而驰。所以,必须充分利用大数据和人工智能技术,建立全新的智能化运维管理体系和智能运维系统。
“换成两年前,这家房地产公司绝对不会采购智能运维这种新一代IT运维解决方案。然而,随着数字化转型的深入,房地产智能化成为潮流,一套套新的应用陆续上线,大量IoT终端被部署到全国各地,基于CMDB和ITIL体系建立的运维管理流程和相关工具暴露出严重不足。”刘洪涛说。
这家房企的遭遇并非孤例。刘洪涛能明显感受到近两年智能运维需求的增长。“房地产这样一个相对传统的行业,都在数字化转型的倒逼下产生了如此强烈的需求。而在金融、电信、航空、能源等IT成熟度更高行业里,AIOps智能运维的作用更为突出,需求也就更加旺盛。”他欣喜的告诉记者。
AI加持,让IT发挥最大价值
人力有尽,算力无穷。
业务对IT越来越依赖,同时IT架构越来越复杂,迫使人们向AI求助。而AIOps智能运维的应用也确实给IT运维带来了新的变化。
以IT运维中最典型应用场景——故障告警为例。一个规模较大的数据中心,系统故障会导致几分钟内出现上万条的告警信息。过去,遇到这种情况,运维人员的常规处理方式关掉所有关联设备和系统,挨个重启,逐一排查。这一方法简单粗暴,不但盲目耗时,还会造成业务中断。而AIOps智能运维利用大数据和AI技术,可以在几秒钟之内就能完成对所有告警消息的压缩、筛选和关联分析,从而找出最关键的告警消息。在某航空公司的一次IT故障中发生了告警风暴,云智慧在一分钟内将2万条告警消息压缩到7条相互关联的关键告警。对于运维人员来说,处理7条告警和在几万条告警消息中发现问题,工作量不可同日而语。
在这背后涉及告警抑制、自动拓扑等多项新一代智能运维技术的应用。以自动拓扑为例,传统紧耦合的烟囱式IT系统,彼此之间的关联关系是很难建立起来的。而借助AI,通过算法对采集到的调用链数据进行分析,就可以把所有IT系统直接的业务拓扑关系和调用过程描述出来。有了这个拓扑,才能够追根溯源的找到出问题的“罪魁祸首”。
类似应用场景还有动态阈值。传统运维都是通过设置固定告警阈值来触发报警,但固定阈值存在着明显缺点——条件太宽松会出现故障漏报,太严格则会有大量误报。此外,无论是阈值的设定还是故障的判断,都依赖运维人员的个人经验,很容易出纰漏。
“现在,我们利用机器学习的方法,通过对运维历史数据进行分析,在数据特征的基础上建立算法模型,对模型进行周期性地训练学习,从而为IT系统设定更为科学的动态告警阈值。这个阈值会随着业务的波动进行动态调整,既不放过每次潜在故障事件,又不会因为系统繁忙导致大量误报。告警压缩、根因分析、关联分析等智能运维场景,都大量使用了AI的技术,也只有通过AI赋能,才能让IT发挥最大的价值。”刘洪涛表示。
1 2 下一页>