未来不足1.5%的数据被存储!IPFS存储架构应用正在爆发


    文/李晋
    
    
    西部数据公司副总裁兼中国区业务总经理刘钢
    
    “预计到2024年,以HDD为代表的大数据将增长到1.62ZB,平均年复合增长率约为30%;以SSD为衡量标志的快数据将达到333EB,平均年复合增长率接近50%。但与当年143ZB的数据总量相比,仅有不到1.5%的数据被存储下来。”
    在近日的“2021深圳国际大数据与存储峰会暨展览会”上,西部数据公司副总裁兼中国区业务总经理刘钢指出存储领域正面临的困境。在他看来,当前的存储架构和技术并未跟上数据的爆发,而通过创新的存储架构可极大地缓解这种局面。
    
    
    峰会现场西部数据展台
    
    大数据存储困境:存储架构和技术未跟上数据发展
    
    
    
    “数据产生的速度过快”与“被存储的数据十分有限”之间的矛盾,依旧是存储产业需要正视的问题。刘钢援引了两组数据介绍说,预计到2024年,以HDD为代表的大数据将增长到1.62ZB,平均年复合增长率约为30%。除了把数据存储下来之外,还有一部分是以SSD作为衡量标志,并对数据进行挖掘、计算的快数据。2024年,快数据将达到333EB,平均年复合增长率接近50%。大数据与快数据的总量相加约2ZB,而当年的数据总量将达到142ZB,这意味着仅有不到1.5%的数据会被存储下来。
    “在数字经济时代,数据犹如石油,是发展的源动力。为什么那么多宝贵的‘石油’或资源没有被存储、挖掘和分析?一个重要的原因是,存储架构和存储技术没有及时地跟上数据的发展,以至于很多数据被白白的浪费。因此,我们需要一个创新的存储架构,为更多的数据提供存储及快速访问。存储行业正面临几个挑战——用户渴求大容量、快速访问、低成本、低功耗的存储,但很难有单一存储介质、存储设备能同时满足些需求。”刘钢感慨说。
    值得庆幸的是,由于用户数据要进行分层,且这些数据有不同的类型,它对存储的要求也不一致。企业可以通过把创新的存储架构作为系统,来满足用户各种存储场景的需求。
    IPFS存储架构有什么优势?
    “创新的存储架构,包含分布式存储架构。”刘钢解释说,存储架构既有中心化的云存储,也有去中心化的分布式存储。例如,基于Web3.0、IPFS(Inter Planetary File System,星际文件系统)存储架构的存储就是去中心化的分布式存储,这类存储可凭借新的存储架构来降低部署及运营成本。
    在应用方面,去中心化的IPFS可降低目前基于中心化的云存储的成本。在云存储的服务费用的成本构成有什么特点?其实,最初云存储领域有一个分布式去中心化存储架构叫做Storj,用户可在网上购买相应的服务。而IPFS存储架构的出现,进一步优化了云存储的去中心化,节省了企业的服务提供成本。
    ·分层存储的概念
    
    
    
    除了IPFS存储架构之外,西部数据根据数据被访问的频率,大致分为了五类:极热数据、热数据、温数据、冷数据和极冷数据。针对不同的数据,所要采用的存储介质和存储设备也不同,这样才能既保证海量大数据的存储,也满足对快数据的快速访问。由于不同数据对时延和容量的要求也不同,西部数据还为不同的数据划分了相应的应用场景。从访问频次的高到低,对应的存储类型可分为:极热存储、热存储、温存储、冷存储和极冷存储。
    在这些分层的存储应用场景中,主要有大数据存储应用和快数据计算应用两大类。根据刘钢的介绍,大数据存储主要包括极冷存储和冷存储,快数据计算主要涉及极热存储、热存储和温存储。西部数据在这两类存储应用中均有完整的产品及方案。
    ·西部数据18T硬盘在大数据存储中的优势
    
    
    
    业内针对冷存储和极冷存储的主流方案,是高密度大容量企业级硬盘方案。目前,高密度企业级硬盘已经发展到了18T,甚至有的公司针对极冷存储,利用软件与技术优化,采用了SMR叠瓦式硬盘,把高密度企业硬盘做到了20T。比如,全球领先的云存储服务商Dropbox,该公司在去年年底就已经迁移到20T SMR HDD上了。
    提到SMR,可能会有一些消费者会质疑它的写入性能、可靠性。对此,刘钢在后续的媒体群访中解释说:“16T的硬盘通过改进技术变成18T,如果采用的是SMR技术,这个硬盘的容量就会变成20T。它是通过提高磁轨间的密度来做到的,不过这要求用户在使用20T SMR高密度硬盘时在软件上做一些调整,保证顺序地写入。一些公司并未留意到这个细节,没有往这个方向来做调整和优化,致使一些消费者对SMR技术有质疑。“
    按照刘钢的说法,SMR适用于冷存储和极冷存储。它最早的应用场景是视频监控,另外还能存储网店的数据、金融的票据、括医疗的数据,以上的数据都可能是极冷数据。现在已经有很多云服务商在积极部署SMR。
    
    
    
    刘钢现场展示了西部数据企业级硬盘
    在过去几个季度,18T硬盘的良率有了较大的改善,无论是互联网服务商,还是IPFS服务商,部署18T已是大势所趋。刘钢在现场展示了西部数据的18T硬盘,他介绍说:“从去年第四季度开始被快速部署,到2021年Q1头部互联网服务商快速验证、测试。2021年Q2开始,很多IPFS公司和云服务商已经考虑把数据迁移到18T高密度硬盘上,甚至有些高密度极致需求的用户还觉得18T硬盘不够用。今年下半年,我们将提供20T硬盘,已经有企业在测试、验证中,预计从明年开始进行部署。”
    
    
    
    值得强调的是,头部云服务商所使用的硬盘从8T进化到18T,花费了整整四年时间(2017-2021年),而IPFS服务商仅用了四个季度(2020年Q2-2021年Q2)。IPFS服务商从8T进化到12T、14T、16T,很快就过渡到18T。实际上,当数据中心采用的硬盘从14T升级到18T,在同样存储容量的情况下,服务器的数量可减少22%,单盘容量增加29%,单位功耗降低21%,其部署成本、运维成本也更低。
    ·西部数据SSD产品在快数据领域的优势
    
    
    
    西部数据针对快数据如热存储、温存储,有推出过两款基于96层3D NAND的SSD,其中一款是主流的Ultrastar? DC SN640 NVMe SSD,适用于读写均衡的混合型工作负载应用;另一款是写密集、计算密集的高性能Ultrastar? DC SN840 NVMe SSD,适用于密集型工作负载应用。此外,西部数据还联合铠侠在今年2月推出了162层的第六代3D闪存技术。
    
    
    
    据刘钢介绍,西部数据与铠侠提供了全球33%的Flash产能。这两家公司联合推出的第6代3D闪存技术,比第五代产品的芯片尺寸缩小了40%,侧面单元密度更高,程序性能提高了两倍以上,读取延迟缩短了10%,输入/输出IOPS提高了66%。
    “从材料本身来看,3DNAND的堆叠层数越高风险就越大,对工艺和投入的要求越高。在3D NAND 96层之后,很多公司后续产品的层数并不一致。“刘钢特别强调说,在同一代技术里,一家公司的3D NAND层数越少,就代表它的技术越先进,因为无需堆叠太多层,即能满足闪存的性能需求。西部数据在96层之后是112层,而不是120多层,再然后是162层,而不是170或190多层,说明西部数据在单位面积上能做到更高的密度。
    
    
    
    除了增加层数之外,存储密度还有另一种增长方式:闪存颗粒从TLC变成QLC,甚至变成PLC。实际上,存储增长密度的方式并不是一维的,它既可纵向增长也可在一个单元内部增长。“西部数据企业级SSD具备纵向集成优势。我们有先进的SSD控制器和高性能自主固件将Flash纵向集成,最终能实现非常稳定的一致性。以某大型电商的应用为例,他们要求SSD的波动范围不超过10%,用UltrastarTM DC SN640 NVMe SSD测出来波动数据是0.11%。”刘钢表示,对SSD产品而言,具备稳定的一致性极其关键,因为它涉及到非常多的因素。
    可靠性与生产工艺和硬盘的设计、控制有关。首先,闪存与工艺周期有关系,如果没有大规模的产能,就很难度过产能周期。另外,当SSD容量越大,其大部分成本会在闪存上,控制器、接口成本占的比例会越来越小,所以产能非常重要;其次,是领先的技术。企业需要追求整个硬盘的性能,而不是仅仅关注闪存材料的性能、可靠性。基于整体的可靠性,控制器和固件可以进行很好的开发。以上因素就是一家公司能够做到的纵向整合,只有做到极致地优化,才能提供超级稳定的一致性。“只有既熟悉材料,也熟悉控制器,还熟悉框架,才能做到纵向一体的集成。“刘钢强调。
    总之,西部数据能满足用户的不同存储、计算需求,可提供适用于不同层级数据的存储产品。无论是大数据存储,还是快数据计算,都有相应的产品。如果把这样的存储架构和存储技术,使用到IPFS或Web3.0场景里,会是什么样的应用?
    IPFS服务商与西部数据的产品组合
    
    
    
    对IPFS服务商而言,现在的存储方案存在着数据吞吐量低,空间利用率低、难扩容,总体拥有成本高,运维低效,故障惩罚高等痛点。在IPFS层面“存算分离”已经是共识,在计算集群中,西部数据有7.68TB的SSD;在存储集群中,西部数据推荐使用18TB的高密度硬盘,4U60+18T存储方案与传统的4U36+16T存储方案相比,机柜数可减少46%、功耗可减少36%,可大规模降低部署及运维成本。
    西部数据已经与合作伙伴共同推出了各种IPFS方案。典型的应用案例有:
    

  •     星辰天合(XSKY)、浪潮联合西部数据推出了IPFS解决方案,该方案基于西部数据的Ultrastar DC HC550 18TB HDD硬盘、浪潮英信服务器NF5466M5、XSKY的文件存储系统等关键组件,可实现快速部署、便捷运维。与4U36服务器+14TB HDD方案相比,4U36+18TB HDD方案能节省22%的机柜空间,节约两倍以上的硬件资源,降低20%的电源功耗。
        

  •     杉岩数据的MOS海量对象存储系统采用了西部数据的Ultrastar DC SN840/640 NVMe SSD、Ultrastar DC HC550 HDD和JBOD存储平台。与主流的4U36+16T方案相比,双方合作的4U60+18T方案可将服务器节点数量降低至原来的47%,节省了46%的机柜空间,降低了36%的电源功耗。
        

  •     长城超云不仅在存储集群里使用了西部数据的产品,还在计算集群里使用了Ultrastar DC SN640 NVMe SSD,以此来提高封装的效率,获得更高的性能和稳定的运行。此外,IPFS分布式存储服务器制造商灵动也在计算机群和存储机群里采用了适用于快数据的7.68T SSD存储方案和适用于大数据的18T高密度硬盘存储方案。
        

    
    
    总而言之,西部数据针对Web3.0或IPFS的基础设施架构:在存储集群中,有高密度的磁盘扩展柜、大容量的18T硬盘,还有UltrastarTM DC SN640 NVMe SSD来作为缓存。在计算集群中,有UltrastarTM DC SN640 NVMe SSD、UltrastarTM DC SN840 NVMe SSD写密集型的SSD产品助力用户做快速运算。
    尤其是在计算集群中,西部数据解决了P1和P2的性能瓶颈。刘钢表示,P1是可以并行的,P2之后是串行的。IPFS服务商更愿意把P1和P2分开,但因为P1和P2节点之间需要交换大量数据,分开之后虽然可以提高计算性能,但是会造成数据传输花费很多时间,这样其实是不划算的。如果所有的服务器集群共享一个高速闪存池,两类服务器通过NVMe-oF连到高速的闪存池,P1计算的数据在闪存池里,P2可以直接放入,它们可以像访问本地闪存一样,访问高速的资源共享池。对大规模的IPFS分布式存储服务器制造商来说,当他们的节点达到100个PB以上时,可能需要用这些存储技术来优化存储技术架构。
    刘钢在最后也强调了西部数据引以为傲的优势,也就是拥有全线的多场景的存储技术和产品,可提供从芯片到系统的存储技术和产品,适用的场景从消费者级的手机、相机到个人电脑、自动驾驶汽车,到企业级和云端的计算和存储节点。在未来数据爆炸式增长的环境中,这样的优势将为包含企业客户的数据存储架构、行业的存储和一般用户的个人存储提供领先的优势。