新数据时代对海量数据的存储系统提出严苛要求
美通社根据IDC报告,在2014-2020年,IT从业人员数量仅仅增长1.285倍,但平均每个IT人员管理的数据量从230GB增加到1231GB,超过5倍。而在未来两年,企业数据预计仍将以42.2%的速度增长。尽管大多数企业认为数据是企业的无形资产,然而目前企业仅捕获了56%的可用数据,几乎一半的数据流失掉了,如何扩展数据存储系统的容量成为企业面临的重要议题。
随着大数据、人工智能、物联网、5G等科技手段的不断推进,人们已经走进数据互联的时代。在数据需求日渐强烈的当下,边缘设备的工艺、精度越来越高,数据采样的方式逐渐增多,产生的数据量也快速增长,到2025年44%的数据将在边缘和核心创建,将有越来越多的物联网设备向企业输送数据。同时,基于数据挖掘和智慧应用,数据的生产者也不再只有人和设备,数据本身也参与到了生产数据的环节中来,成为了新的数据生产者,数据的产生进入一个巨大的循环,数据总量呈指数级增长。
浪潮存储产品线总经理李辉曾表示,“人工智能、大数据、5G新技术驱动下,数据发生本质改变,从过去‘人工采集、人工干预’过渡到现在‘机器产生、机器处理’的新时代,数据量爆发式增长成为新常态。”据IDC预测,2020年全球将有超59ZB的数据被创建、捕获、复制和消费,其中原始数据与复制数据(主要为机器处理产生的数据)的比率大约为1:9,未来复制数据将推动全球数据的增长,预计到2024年复制数据将达到原始数据的10倍。
这些数据来源广泛,它对存储有什么要求?IT人员如何管理这些迅猛增长的数据呢?
新数据时代对海量数据的存储系统提出严苛要求
其一,高密度、大容量、可扩展。数据的爆发式增长和保存周期的延长,带来了对存储空间的直接需求。传统的存储架构已经无法解决如此大数据量的存储空间问题。需要一套具有EB级扩展性、支持千亿级文件并支持多种服务接口的新型存储系统,满足海量、多元化数据存储的同时,实现跨平台无障碍对接。
其二,高可靠、高可用。存储系统承担着用户的核心数据,与业务系统交互频繁,一旦出故障,将直接影响业务系统的运行状态,甚至引发数据完整性、安全性问题。而大规模存储系统,硬件故障将成为常态,对存储集群的负载均衡,数据冗余,系统重建和故障排除都有着较高要求,如何有效的避免故障和高效的管理、处理故障就显得尤为重要。
浪潮分布式存储应运而生
面对挑战,浪潮存储提出“云存智用运筹新数据”的理念,并发布了“AS13000G5超大规模数据中心级分布式存储平台”,帮助用户解决海量数据的存储问题,为用户的数据中心打造面向未来的存储平台。
首先,浪潮分布式存储系统基于Scale Out架构实现了容量极致扩展。浪潮分布式存储系统AS13000G5,通过Scale Out横向扩展的基础架构,实现单存储系统节点扩展数达5120个,可形成EB级海量存储空间,支持千亿数据文件管理。系统通过海量存储系统对底层硬盘资源进行池化,形成统一资源池,同时提供文件存储、对象存储、块存储、大数据四种存储服务,支撑上层多种应用,承载多元化的海量数据。依赖横向扩展的分布式存储架构,存储性能随容量扩展而线性提升,从而达到千万级IOPS和百GB带宽的极致性能。
其次,浪潮分布式存储依托多项高级功能优化容量资源利用率。依托强大的研发实力,浪潮AS13000G5分布式存储在研发过程中实现多项技术突破,并演进迭代成为功能特性,进一步提升大规模存储集群的整体可用性、可靠性。
一是高级纠删。浪潮存储基于高级纠删技术将空间利用率相较三副本提升2倍以上,在保障空间利用率的前提下,升级磁盘故障的可靠性。同时,支持通过故障域划分技术将一个故障单元划分成两个逻辑的故障单元,使得纠删策略的配置更加灵活;
二是数据均衡。浪潮存储采取全局一致性容量均衡技术,通过为每个硬盘增加引用计数,保证数据在集群所有硬盘中均匀分布。控制硬盘容量使用率偏差在2%以内,系统容量实际利用率最高可达98%;
三是急速拷贝。浪潮存储基于急速拷贝技术,无论文件大小都可以瞬间完成拷贝操作,一个源文件可以拷贝成多个目标文件,每个文件的数据只在修改时复制,节约空间;
四是元数据集群。浪潮存储通过部署多个active元数据服务,优化元数据服务的内存占用及多服务间负载均衡,提高元数据并发处理能力。实现海量元数据管理的同时,提升元数据处理性能;
五是快速重构。浪潮存储在硬盘发生故障时数据重构速度最快可达4TB/h,支持根据业务情况配置重构速度,采用合理的重构策略。
极致容量下的极易管理
存储集群在大规模部署的情况下,运维的量级和难度对用户来说都是极大的挑战。浪潮智能统一存储管理平台InView面向全系浪潮存储平台实现管理,采用大数据和AI技术采集硬盘、系统压力等数据,发送给AI引擎执行分析,输出结果和处理建议,构建智能化运维管理平台,实现对存储平台自动化部署、状态监测、容量预测、性能优化、远程巡检、故障诊断、磁盘故障预测、资产管理等智能化运营,解决大规模IT系统运维难题,提高运维效率,降低运维成本,优化用户体验,保障业务连续性。
通过配置InView,系统运维由被动模式转换为主动模式,大幅提升系统运维能力和稳定性。为用户带来看得见的收益,比如多套存储平台统一管理、统一入口,实现存储平台精细管理;又如基于神经网络算法和先进训练模型,在3年多时间内收集超50万个硬盘样本,实现故障类型100%覆盖,再如实现14天内磁盘故障预测预测准确率高于85%。此外,浪潮存储还可以进行容量、性能智能预测。例如,InView的容量智能预测如下图。
浪潮存储围绕解决数据存储问题,在“存得下”的基础上,充分考虑大规模存储集群对成本和硬件故障的敏感性,在低投入的情况下实现高容量的数据存储,并且通过多种功能特性给予存储系统更高的可靠性、安全性和可用性,进一步实现了“存得稳”、“管得全”。
浪潮存储基于七大极致硬核技术形成了强大的产品竞争力,二季度浪潮分布式存储出货量同比增长313%,远超业界平均增速。浪潮存储在殊多行业斩获大单,为中国移动大云5.0、全球最大天文望远镜FAST、中国气象大数据研究等超级工程项目提供弹性、灵活、高效的数据存储服务。浪潮存储将持续以“云存智用运筹新数据”赋能智算中心,在分布式存储领域加速创新,释放数据要素价值驱动行业数字化转型。