华为调制的AIOps,味道有何不同?

脑极体

    追踪AI技术这么长时间,我们亲眼见到了许许多多的职业,工作环境因AI而变得更好。
    昔日在高空连续工作的吊车司机,变成了可以远程操作的“空调哥”“空调姐”;曾经风里来水里去的巡检工,工作强度因为智能监控系统而轻松了不少……
    然而,还有一种隐形的重复类工作很容易被忽视,那就是IT运维。
    可能在很多人眼里,运维人员只需要在系统宕机、电脑坏了的时候担任“救火队员”即可。但随着IT系统规模越来越大、网络复杂度越来越高,传统的运维工作正在变成了高强度且枯燥的工种。运维人员在日常巡检中需要重复上千次抄表,每天要面对并处理成百上千次告警通知……
    
    据说每个运维人入职时的期待,就是喝着咖啡做运维,跷着二郎腿就把工作做好了。然而年复一年,尽管运维辅助工具也在迭代,但始终赶不上数字化进程快、企业业务变化大,别说“咖啡运维”了,晚上能少收到几个告警工单就谢天谢地了。那么,AI能为他们带来改变吗?
    刚刚过去的华为全联接大会上,华为就为企业运维人斟上了一杯“咖啡”,发布了AIOps服务。
    AIOps(智能运维)一直被看作是下一代运维模式,这杯由华为调制的运维“咖啡”,又是什么味道的呢?
    品味一番会发现,前调是智能,与AI相结合的AIOps带来了颠覆传统运维的体验;中调是场景,智能技术与业务场景的有机结合,让AIOps服务品起来更加和谐丝滑;后调是生态,要能兼容各种网络协议、设备,才能让不同口味的运维人员都收获惊喜。
    通过这杯咖啡,我们来一起品一品数字时代的运维之变。
    前调:氤氲智能的香气
    我们都知道,AI尤其是机器学习算法,非常适合处理重复性、预测型、大数据的工作,恰好指向了当前运维工作的核心挑战:
    1.ICT网络不断迭代发展,系统日趋复杂,PB级海量数据成为常态,有的运营商甚至面临2/3/4/5G四世同堂的网络局面,运维对象越来越多,运维人员不得不忙于应付大量告警和重复工作,而无法将时间放在运维策略建构等更有创造力和价值的工作上;
    2.新服务、新技术带来了更多的维护场景和要求,容器化、虚拟化、分布式服务、多云管理等等,让运维人员在故障定位、日常巡检等工作中身心俱疲,面对问题时往往需要花费很长时间来决策,要保证系统的高可用、高可靠、高效率十分困难;
    
    3.万物互联、千行百业的数字化升级,带来了错综复杂的IT设施种类,从硬件到软件如果没有整合监控,运维工具各自孤立,缺少统一集中的监控管理机制,运维专家在统筹决策时也容易出现混淆,不得不处于时刻待命的“救火状态”。
    因此, Gartner在2016年提出的AIOps概念,即 Artificial Intelligence for IT Operations,倡导将人工智能应用于运维领域。有以下好处:
    第一,AI智能体能够从日常的运维大数据(日志、监控信息、应用信息等)中总结规律,根据当前的环境自动分析;
    第二,AI算法会在特定场景下,第一时间发现指标异常,进行故障精准分析与定位,自动触发修复机制,将故障进行恢复,减轻运维人员的工作负担;
    第三,故障修复之后可以自动复盘并沉淀为知识资产,进一步优化迭代算法,形成千人千面的智能运维工具。
    由此,也就真正能将运维人员从重复性工作中解脱出来,让“咖啡运维”的梦想照进现实。
    中调:深入场景的甘甜
    听起来,AIOps简直是运维人员的明日之光。Gartner也曾预测,到2022年AIOps 的采用率将会达到 50%。然而现实中,落地速度却并不像预期中那样迅猛。是什么让运维人员“只闻其香,难尝其味”?一个词:开发。
    AIOps离不开人工智能两大要素:数据与算法。一般来说,支撑业务的AIOps工具,需要结合企业自身的运维框架、策略,投入运维大数据,进行针对性的模型开发和训练,才能保证算法的精准度。
    
    但现实很骨感,企业中具备AI专业知识的综合性运维人才十分稀缺,即便引进了相关人才,也需要花费大量时间来梳理多源异构的大数据,针对业务场景进行编码开发,耗时不说,最终的模型效果还不一定理想,这些客观问题都阻碍了AIOps在产业侧的落地应用。
    因此在华为全联接大会上,华为正式发布AIOps服务,聚焦网络智能运维,降低AI开发门槛。此次发布的AIOps服务有三个特点:
    第一,扎根场景,适配需求。此次发布的AIOps服务结合了华为30多年的网络运维和场景理解经验,覆盖MBB/FBB、园区网络、数据中心网络、IT应用四大领域,和故障预测、检测、诊断、识别等环节,异常识别与故障诊断准确率达90%,能够满足绝大多数企业的日常运维需求;
    第二,简单易用,降低门槛。华为AIOps服务沉淀了10多个开箱即用的智能APP模板,用户只需配置数据源,即可启动APP运行,将AI应用的开发部署过程缩短到分钟级;预集成了20多个高质量的AI原子能力,覆盖预测、检测、诊断、识别等网络运维场景,只需要简单拖拽,系统就能自动完成节点间的数据衔接,自动推荐下个节点,不需要用户从组件库中反复筛选验证,大大降低了应用开发门槛。
    第三,可视化定制,提升效率。华为AIOps服务还提供了80多个2D/3D可视化组件,开发人员很轻松就能DIY出一个包含趋势、报表、网络关系等元素的可视化大屏,让业务结果直观、快速地呈现出来,有效减少运维人员决策、处理的时间,并确保资产的整体管理和精细化运维,可以提升业务系统的SLA,为企业降本增效,让运维数据这一重要资产发挥出更大的价值。
    说了这么多,大家一定很好奇:AIOps到底怎么用?我们可以看一个真实的运维案例,了解AIOps服务如何给企业和用户带来价值。
    
    试想一下,如果一个用户刚刚办理了尊贵的5G套餐,却突然间上不了网,运营商会不会就此损失一个高端客户?随着核心网承载量越来越大,监控指标多,传统静态阈值检测存在漏报误报的问题,一旦出现故障没有及时排除,对用户体验影响极大。
    去年7月10日,某供应商将DNS脚本的指向配置错误,影响了某运营商8个城市2000多5G用户数据业务。幸好借助华为核心网KPI异常检测APP,提前5小时发现了问题,并发送了告警短信,降低了业务损失,保证了5G高端用户的网上冲浪体验。
    异常检测精度高,故障定位回复效率高,智能运维应用适配业务场景,变被动响应为主动运维……这正是华为AIOps服务的价值所在。
    后调:扩散生态的温度
    而更进一步,华为赋予了AIOps悠长的后调,即建构了值得长期品味的AI生态。
    在本届华为全联接大会中,华为网络人工智能产品部AI模型与训练服务部部长王晶提到,“华为AIOps旨在降低ICT领域AI应用开发门槛,将AI技术带入运维预测、检测、诊断、识别、优化等每个环节,赋能合作伙伴创新,共同建设智能运维生态,实现商业成功”。
    这杯甄给运维人的“咖啡”,为什么需要聚生态之力来打造?归根结底源于华为对运维行业的深度把脉:唯有众智共创,才能快速推动智能运维AIOps时代的到来。
    运维市场前景广阔,根据艾瑞咨询的预测,2021年中国IT服务有望突破万亿元大关,其中IT运维市场规模将达2941.2亿元。这也就导致很多厂商看中了这块“蛋糕”,纷纷进入,行业创新和实践不断涌现。但跨厂家主流设备无法互通,多层次协同难以形成,最终影响的还是客户体验,从而延缓了智能运维的落地部署。要解决这一问题,就需要以开放心态实现共享,以生态模式促进共同获益,进而推动智能运维进入良性发展阶段。
    
    所以我们注意到,华为AIOps服务另一个余韵悠长的操作就是:开放。
    首先,向跨厂家设备自开放。华为AIOps服务实现了主流设备的自动对接,支持SFTP、Kafka、Rest等通用采集协议,支持华为30类网元、跨厂家100多种主流设备的自动对接,可以满足端管云的数据采集需求;
    其次,向企业人才、合作伙伴开放。华为自身技术资源向全球企业、运维开发工程师、合作伙伴开放,利用华为的技术、AI原子能力等,可以低门槛、零代码地开发更多运维应用,构建自身的运维服务能力,开发独特的运维服务,生机勃勃的应用开发生态快速崛起,将为智能运维的工具创新、能力扩展,打下坚实基础。
    今天,数字化转型是中国经济发展、产业升级的最强音,少了高质量、高效率的运维能力,数字化就犹如沙上聚塔,显得尤为脆弱。从这个角度看,运维人员也早已不再是边缘化的“救火队员”,而是网络安全稳健运行、系统性能最优化、组织生产力最大化的“神助攻”。
    而华为打造的智能底座,正有力地托举着运维人的智能憧憬,让他们终于能够放心地饮下这杯香气四溢的“咖啡”。