新“三体”—AI时代数据中心交换机的崛起

云报

    
    毫无疑问,这将是一个边边角角都被AI(人工智能)所覆盖和影响的世界!而加速推动这一时代到来的三个关键因子是计算力、算法和数据,三位一体。在算法领域,一批又一批创新创业者不断涌现;数据的爆炸性增长为分析、预测提供了充足的原材料;那么,计算力又如何呢?
    源源不断的计算力来自基础设施的持续升级和优化。而基础设施的三大支柱是计算、存储和网络,又是三位一体。
    为了提升AI的运行效率,数据中心的计算和存储已经发生了巨大的技术变革:存储介质从机械硬盘(HDD)演进到闪存盘(SSD),以满足实时存取的要求;在计算方面采用GPU甚至专用的AI芯片,以满足高效计算的需求。在存储介质和计算能力大幅提升的同时,网络成了AI时代必须突破的最后一个瓶颈。
    你不好奇,AI时代的数据中心交换机是什么样吗?
    AI时代数据中心新挑战
    华为率先给出了一个答案——业界首款面向AI时代的数据中心交换机CloudEngine 16800,它堪称业界交换容量最大、性能最高的交换机,更独树一帜地装上了“AI大脑”。
    CloudEngine 16800为何能够“直通”AI时代?
    以AI为引擎的第四次技术革命正将我们带入万物感知、万物互联、万物智能的全新纪元。根据华为GIV(Global Industry Vision)2025的预测,到2025年,新增数据量将达到180ZB,其中95%的非结构化数据(包括语音/视频等)将依赖AI进行处理;企业对AI的采用率将从2018年的25%猛增至2025年的86%;越来越多的企业将利用AI助力决策、重塑商业模式与生态系统,并重建客户体验。华为网络产品线总裁胡克文指出,数据中心从云时代向AI时代演进成为必然。
    那么问题来了,AI时代的数据中心将迎来哪些新的挑战?
    第一大挑战,我们普遍使用的传统以太网,其丢包率为千分之一左右,这还是比较好的情况。就是这在其他领域看来微不足道的千分之一意味着,网络算力只能达到50%。华为通过实际测试洞察了这一情况。在AI时代,网络应该做到零丢包。
    第二大挑战,做到了网络零丢包,带宽不足也不行。“未来五年,数字洪流依旧汹涌澎湃。AI数据越来越集中,数据中心规模越来越大,对带宽的需求更多,互访也会更频繁。”胡克文表示,“服务器的网络端口从10G到25G再到100G,升级速度之快超乎想象,尤其是25G到100G在中国的增长速度远远超越全球其他区域。”服务器算力的增长是非常重要的需求,而服务器间的互联也发生了巨大变化,即使是100G网络也很难满足AI时代的业务需求。
    第三大挑战,在数据中心里,计算网络、存储网络和数据网络已经三网合一,这意味着计算、存储与网络是融合在一起的。如果没有大带宽,融合有可能是一场灾难。还有一个让网管员头痛的问题,就是在遇到故障时如何快速准确地定位故障点并及时消除故障。传统人工运维手段已难以为继,亟需引入创新的技术提升智能化运维的能力。
    胡克文表示:“过去一年我拜访了很多客户,他们普遍反映,在过去三年,几乎所有精力都放在如何部署一朵‘云’上,但是在云系统真的建立起来后,突然发现网络成了新的瓶颈。用户迫切想知道,未来数据中心的网络应该是什么样的?”
    AI时代的数据中心网络究竟应该什么样?华为CloudEngine 16800定义了AI时代数据中心交换机的三大特征:内嵌AI芯片、单槽48×400GE,以及向自动驾驶网络演进的能力,仍是三位一体,便可轻松化解上述AI时代数据中心的三大挑战。
    AI芯片来了,100%发挥AI算力还难吗?
    既然是AI时代的数据中心交换机,又怎能没有一颗AI的“芯”?
    CloudEngine 16800是业界首款搭载了高性能AI芯片的数据中心交换机。交换机主控板上内嵌高性能的AI芯片——华为Ascend(昇腾)AI芯片。该AI芯片采用12ns工艺,最大功耗只有8W,浮点计算能力高达8T Flops,尤其擅长运行各种深度学习的AI算法。据测算,一颗这样的AI芯片的能力甚至超过当前主流的25台双路CPU服务器的计算能力。
    CloudEngine 16800基于华为独创的iLossless智能无损交换算法,能够对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数,更精准地控制流量,实现百万流和基于应用的队列自适应不同场景的全局网络自优化能力,保证数据中心网络在传输无丢包的基础上达到最高的吞吐量。这样的智能无损数据中心网络克服了传统以太网丢包导致的算力损失,将AI算力直接从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。
    100GE已经来了,400GE还远吗?
    数据中心是互联网业务流量汇聚点,企业AI等新型业务驱动了数据中心服务器从10G到25G甚至100G的切换。如今,以BAT为代表的大型互联网企业以及电信运营商基本都实现了100G的切换。很多企业之所以采用100G的服务器,很主要的原因是AI训练涉及到大量模型参数的同步,对网络带宽和吞吐提出了很高的挑战。数字化趋势以及AI业务驱动下的“新摩尔定律”——流量摩尔定律已经开始发挥作用,每24个月数据中心的流量将翻一番。为了应对AI时代大数据量、混合业务的需求,网络从100G升级到400G指日可待。400GE接口标准化工作已于2015年启动,目前针对数据中心应用已经完成标准化。
    CloudEngine 16800全面升级了硬件交换平台,在正交架构基础上,突破超高速信号传输、超强散热、高效供电等多项技术难题,使得单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大的768端口400GE交换容量,交换能力高达业界平均水平的5倍,完全可以满足AI时代流量倍增的需求。
    CloudEngine 16800采用了诸多新材料、新工艺,目的就是保证从100G到400G全生命周期的兼容演进。举例来说,从100G到高密400G,首先考验的是信号高速传输能力。400G接口系统内互连信号频率为53G以上,信号的频率每翻一倍,PCB线路板信号衰减就会增大20%以上。而传统的电路板由于采用的普通铜箔材料及制造工艺问题,当信号传输速率提升的时候,损耗和高频干扰非常严重,存在速率极限。华为采用新型亚微米无损材料及高分子键合技术的制作工艺,将电信号的传输效率提升30%。再比如,华为采用业界首个双路输入智能切换的电源模块,通过SuperPower实现了能效优化,电源空间节省50%,供电效率提升90%。
    运维都自动化了,自动驾驶网络还差什么?
    当前,计算、存储与网络正快速融合,数据中心服务器集群规模越来越大,分析的流量成千倍增长,信息上报或者获取频度从分钟级压缩至毫秒级,再加上信息的冗余,这些都使得智能运维平台的规模扩大,性能压力陡增。如何减轻智能运维平台的压力?让最靠近服务器、最靠近数据的网络设备具有智能分析和决策功能,成为提升运维效率的关键。
    CloudEngine 16800基于内置的AI芯片,可大幅度提升网络边缘即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力;通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,从而实现秒级故障识别和分钟级故障自动定位,使能自动驾驶网络加速到来。同时,该架构还可大幅提升运维系统的灵活性和可部署性。
    为什么又是华为?
    在ICT时代每个变革的“风口”,似乎总能看到华为的身影。
    2012年8月8日,华为面向云计算时代发布了CloudEngine 12800数据中心交换机,正式迈入数据中心网络领域。CloudEngine 12800交换机领先的架构引领了高密度100G平台数据中心交换机的设计潮流,其正交架构、前后风道、面板进风等先进设计理念被业界后续推出的数据中心交换机竞相模仿。
    以CloudEngine 12800推出为开端,华为数据中心网络解决方案受得到了业界的热捧,销售收入连续6年保持高速增长。IDC的报告显示,从2016年开始,华为网络产品已稳居国内市场份额第一;在全球范围内,华为网络产品在2013年~2017年间复合增长率排名第一。华为还进入了2018 Forrester Wave领导者象限。
    在AI时代到来之际,华为身先士卒,首推AI数据中心交换机CloudEngine16800,再次为业界树立了一个标杆。
    宝剑锋从磨砺出,梅花香自苦寒来。任何一个明星产品的诞生,无不是经过千锤百炼,精雕细琢每一个细节。CloudEngine16800看似横空出世,但如果没有从2012年就开始的积累、创新和反复磨练,就不会有CloudEngine16800今天的一鸣惊人。如今,华为CloudFabric智简云数据中心网方案已在全球6400多家企业成功商用,助力金融、互联网、运营商等诸多行业客户数字化转型,使能数据中心成为商业价值创造中心。
    2019年1月9日,这一刻将被铭记——数据中心网络从此迈入AI时代!