企业存储告别“傻大黑粗”,华为存储引领AIOps创新

云报

    如果将工业设备与一台闪存阵列放在一起,会发生什么?你可能想象不到,日久天长,闪存控制器中的线路板可能会被慢慢腐蚀甚至溶解。若恰巧这台“傻大黑粗”的闪存阵列并不具备智能化的故障预测功能,当系统中断或发生数据丢失时才被用户察觉,一切将为时晚矣。
    你也许会说,上述只是极端的例子或小概率事件,但是随着业务互联网化和移动化趋势的加剧,很多行业的销售行为由5×8小时变成7×24小时后,数据基础设施层面的任何一点疏忽大意或不能被预测的故障对于企业的生存和发展都可能造成灭顶之灾。这也是为什么最近几年AIOps突然在数据基础设施领域爆红的重要原因之一。
    1不要再做“事后诸葛亮”
    AIOps最早是由Gartner在2016年提出的概念,它旨在借助大数据分析和机器学习算法自动地从海量运维数据中不断分析和学习,实现异常检测、瓶颈热点分析和多维关系分析等,从而帮助IT运维人员准确甄别系统异常、快速定位故障根因,并对系统运行的潜在风险进行主动预测,提前告警,最终实现IT基础设施和业务的持续洞察和主动优化改进。
    随着云计算、大数据、人工智能等技术的深入融合和综合应用,AIOps也开始快速向各个细分领域渗透,尤其是在数据基础设施层面,智能运维已经成了各大存储厂商新的必争之地。现在回想起来,HPE当初大手笔收购Nimble Storage是另有深意,落脚点是其基于云的智能运维平台InfoSight。如今,HPE正将InfoSight逐步引入到整个存储和服务器产品线中,包括Primera、Nimble存储,以及ProLiant服务器、Synergy组合式基础设施和Apollo系统等,而InfoSight也成了名副其实的“幕后英雄”,提供了基础架构层面的全局可见性、预测分析能力和推荐引擎等功能。
    Gartner的研究显示,2020年,AIOps在全球的采用率达到50%,AIOps成为运维最主要的工具。IDC在最近发布的《IDC FutureScape: 全球人工智能(AI)市场2021 预测——中国启示》报告中也做出了类似的预测:到2024年,AIOps将成为IT运营的“新常态”,至少有50%的大型企业将采用自动化运维解决方案来自动化其主要IT系统和服务管理过程。
    从数字化转型到智能化升级,今天我们再谈到无人值守的数据中心、无人工厂或无人驾驶,大家不再认为是天方夜谭,随着智能化技术的持续演进,这一切将更快地变成现实。从宏观市场的角度看,2020年,“新基建”的火爆让我们更加清楚地认识到,建设以“数据+智能”为核心的新型数据基础设施刻不容缓,这是赋能千行百业智能升级、服务各种各样智慧化的应用场景,推动经济高质量发展的必然趋势。从数据基础设施稳定高效运行的微观层面看,智能运维有望彻底改变以前“事后诸葛亮”的状况,发挥先知先觉的作用,主动并提前预测数据基础设施中潜在的风险和故障,从而更好地实现整个系统的自管理、自修复和自优化,提高数据基础设施的运行效率,驱动业务发展,降低成本。
    2智能化,存储发展的又一风向标
    大数据是新的生产资料,而人工智能是新的生产力,这些新的生产要素组合在一起,将给各行各业带来深刻变革甚至是颠覆。肆虐2020年的新冠疫情,就让我们再次领略了由数据激发的洞察力,同时疫情也刺激了数据智能市场的跨越式前进。
    从行业用户的具体需求来分析,数字化和智能化已成为金融企业致胜未来的关键要素。在智慧金融场景中,数据基础设施必须保证即时、高效、稳定,而服务则要在数据基础设施之上实现敏捷发布、快速迭代,其最根本的保障在很大程度上就来源于数据基础设施的智能运维和自动化。中信银行就在完善和优化其数据基础设施的过程中,采用了华为DME数据管理引擎,在融合管理、业务变更以及统一运维等场景引入了安全可控的自动化和智能化能力,从而显著提升了运维效率和业务的敏捷水平,一举多得。
    再来看看电力行业的情况,电网公司在业务整合和数字化的过程中对存储管理提出了更高的要求。由于历史原因,系统中拥有多个品牌、多个系列的存储设备,管理的复杂性和运维风险持续走高。为进一步完善数据存储管理,提高效率,就必须采用集约式、规范化的存储管理模式,充分实现存储运维管理的自动化和智能化。
    综上,无论是从市场和技术的发展趋势,还是从行业客户的实际需求来看,存储与人工智能技术的深入融合势在必行,将极大地降低存储运维的成本、复杂度和风险。当前,存储的智能化运维正在形成一股新的潮流。一些以智能化见长的存储创业企业也如雨后春笋般不断涌现。
    我们也欣喜地看到,整个存储业界对智能运维的重视程度不断提升。2020年12月,DOIT在一年一度的“百易奖”评选中就特别设立了“2020年度人工智能技术创新奖“,并授予了华为DME(Data Management Engine,数据管理引擎)数据管理与运维自动化解决方案。该解决方案创新性地引入三层AI架构,实现数据中心存储网络的自动化资源发放、智能运维以及智能数据流动,助力运维极简以及业务敏捷创新。毋庸置疑,智能化将成为引领存储未来发展的又一重要风向标。
    3华为存储引领AIOps创新
    存储行业是一个需要高研发投入和长期积累的行业,尤其是在一些核心技术的研发和相关能力的建设上更是如此,也由此建立了高门槛。华为是一家端到端IT基础设施解决方案提供商,而智能运维是IT基础设施中一项不可或缺的能力,可想而知华为在这方面拥有多年的积累和成功实践。随着智能化在存储中的地位进一步凸显,在Gartner定期发布的全球主存储市场魔力象限中,居领导者地位的厂商一定也是在智能运维方面拥有特长的。而华为如今已是这一象限的常客,在与国际知名大厂商的博弈中,并不落下风。
    受到业界充分肯定的华为DME是华为数据基础设施智能运维平台,该平台通过与存储设备内置的设备AI以及云端AI(eService)实现三层AI协同,并通过融合统一的管理界面、自动化的闭环机制以及开放的API,旨在使能数据存储的从规划到建设、运维、优化的全生命周期场景管理与运维自动化,从而帮助客户简化存储管理,提升数据中心的运营效率。
    华为存储基于存储AI“四大范式”,持续引领业界AIOps创新。
    范式一,Workload指纹,业务识别的准确率高于80%,可将资源使用效率提升30%,主要应用于数据安置、数据流动、硬件扩容、业务扩容等场景。举例来说,可以实现基于策略的SLA变更功能,让关键业务始终可以获得更好的存储资源保障,确保业务稳定运行。
    范式二,知识图谱,分钟级快速定位到可恢复单元,主要应用于全栈拓扑可视化、VM到存储E2E分析、告警关联/根因分析、扰邻分析等场景。举例来说,可以实现告警关联分析、一键式影响范围评估,从而提升问题分析效率;实现性能异常预测,KPI关联分析以及修复方案推荐,2019年在某交通集团有限公司,eService检测到华为OceanStor 5500 V5存储峰值写时延达到190.66ms后,建议开启SmartTier功能,使得时延恢复正常。
    范式三,介质故障预测,可提前14天预知故障,故障识别率高于80%,误报率则低于0.1%,主要应用于整盘故障、盘局部故障、内存失效、光模块故障等场景。举例来说,可以实现HDD、SSD故障盘预测,通过选取故障时刻前14天的数据作为故障样本,分析数据分布、增长趋势、特征相关性和重要度,进行大样本学习方法并在11万块盘上训练和测试,效果显著优于随机抽样选择训练集方法,2018年6月华为数据中心就曾在一个月内预测出3块故障硬盘;使用AI算法进行内存故障模式识别和内存故障预测,并结合内存Bank隔离等措施,实现内存局部故障自修复和内存故障预告警,减少内存故障引起的系统宕机。
    范式四,性能容量预测,性能预测准确率高于85%,主要应用于性能瓶颈预测、容量瓶颈预测、KPI异常分析、网络亚健康分析等场景。举例来就,针对存储资源(前端端口、控制器、Cache、存储池、LUN和磁盘)的性能异常进行实时监控,提前获知性能指标(IOPS、时延和IO带宽)的变化趋势,帮助客户提前规划,降低性能事故率;实现容量趋势预测,采用集成学习技术,将多种基于时间序列的预测算法加权集成,充分捕捉多种时间序列特征,实现精准预测;利用CNN神经网络预测业务未来的性能趋势,该模型使用华为全网的LUN在过去3个月内的性能数据大规模训练完成;性能潮汐分析,将规律以热力图方式进行呈现,某市区政府就根据潮汐热力图主动选择最合适的升级时间窗口,避免了业务高峰期操作可能对业务造成的不良影响。
    上述诸多例证表明,人工智能技术的应用,在优化存储基础设施、存储资源配置、性能优化,以及提升自动化和智能化水平方面功不可没。当前,对于存储智能化的探索正渐入佳境,打造智能数据基础设施将是企业智能化升级的必由之路。