英特尔依然是那个英特尔,且看英特尔的城防体系
数字时代所带来的变化是深刻的。在这一概念的驱使下,我们不仅发明了新的应用形态,更在这种新的应用及业务需求下规划了整个企业IT架构。在这种新的IT架构中,传统的计算、存储、网络等资源已经不再是用户关注的重点,取而代之的则是包括AI、大数据、云计算、IoT等在内的各种能力。
在这一IT行业的整体变革中,无数新公司极速崛起。因此,短短几年内,我们在IT的几乎所有领域都能看到新概念的崛起和流行。
凡有新人笑,便有旧人哭。
新进崛起的IT公司一方面在开拓新的市场和需求,另一方面,他们也在积极的革各大老牌IT企业的命。应用软件、数据库、中间件、管理软件、基础架构等各个领域的传统厂牌都在这场轰轰烈烈的变革中受到了或多或少的冲击。
正如星星之火可以燎原,发生在应用层面的变革绝不会止于应用层面,而是会向着更上游的半导体领域蔓延。那么这场在应用领域引发无数“血雨腥风”的变革在上游半导体领域是否也会掀起同样的波澜?半导体行业的传统大佬能否靠自己的力量顺应并驾驭变革?
没错,我们这里要谈的就是英特尔。
变革的黎明,英特尔面临众多挑战
作为行业中当之无愧的领导者,多年以来,英特尔凭借自身强大的产品和技术能力引领了整个行业的辉煌。但在新时代,英特尔却面临着诸多层面的挑战:
挑战1:AMD?
以不错的架构性能为前提,推出了EPYC系列处理器;在相同价位下提供更大的内存通道数和更多的核心数量,成功抬升了自身产品在数据中心市场中的占有率。。
挑战2:ARM?
优势在于其可以提供更好的集成度、可扩展性及能效表现。目前,一些冷存储、原生Android服务或Serverless计算已经开始尝试使用ARM处理器。
挑战3:NVIDIA?
以GPGPU为代表的多元化算力正在AI大热的加持下迅速崛起。而作为这一领域中的代表,NVIDIA也正迅速扩大自己在数据中心市场中的地位并通过收购及合作拓展自己领土。
此外,包括Gen-Z和RISC-V在内的新架构、新指令集也都开始以自身的优势挑战英特尔所主导的传统计算机架构。如此看来,英特尔的前路的确布满荆棘。但已经平定四方稳坐龙头位置十几年的英特尔,真的就如此后知后觉、没有防备吗?
这里,我们先不说利剑,只谈城墙。
英特尔的城防
虽然近几年在制程工艺领域进展缓慢的英特尔会被消费市场的用户时常以“挤牙膏”来调侃,但实际上,英特尔并没有真的闲下来。对于取得优势之后的英特尔来说,除了在新领域不断尝试之外,当然也会投入巨量精力在已经取得优势的领域中持续巩固优势,这才是符合商业逻辑的行为。
经过十几年间不懈的努力,英特尔已经成功构建起了一圈由六大技术支柱共同组成的坚实城防。
1、 制程与封装
对于制程与封装技术的追求目前仍旧是整个半导体行业永久不变的核心目标。
就目前的产品线而言,英特尔的14nm工艺虽不能算是行业中最领先的存在;这是不争的事实。但论对现有工艺的掌握程度而言,英特尔仍旧是行业中的翘楚。
以英特尔最新推出的第二代至强可扩展处理器而言,其中顶级的至强铂金9282处理器已经能够在单一处理器上实现56个物理核心和3.8GB的Turbo频率,整体TDP达到400W。处理器由两个Die组成,每个单独的Die约为694平方毫米。能够在商用产品中实现这样的频率、这样的核心面积、这样的功耗密度,足以说明英特尔对14nm工艺及相关封装技术的熟练程度。即便是量产工艺领先半步的三星和台积电也无法在7nm技术条件下生产出这样的产品。
这样恐怖的工艺成熟度意味着使用英特尔至强铂金9282处理器的系统(目前仅有原厂系统)可以在双路情况下提供112个物理内核,实现同等机架空间内2倍的计算密度。
而在5月底,使用10nm工艺的Ice Lake处理器也终于千呼万唤始出来,最终产品将于2019年底最先在笔记本平台面市。届时,英特尔将至少追平行业顶尖制程工艺水平,甚至还将在晶体管密度和成品性能等方面再次领先行业。当然,按照以往经验,新工艺下的数据中心产品则将会在消费级产品面市的一年后上市。
对于英特尔来说,重回行业巅峰需要时间,但这一目标已经被列上日程。
这里还要顺便再提一句。最新推出的英特尔? Agilex? FPGA已经采用了10nm工艺,并实现了3D封装。通过将多个不同功能、不同IP、不同制程的Die进行堆叠之后统一封装,Agilex能够在片上实现更完整的功能、更好的集成性和更小的体积。这与在手机领域常见的“先封装再堆叠”原理相同,但效率不可同日而语。
2、 XPU架构
针对不同的应用负载,算力的多元化在当前技术条件下已经成为公认的趋势。
虽然竞争对手都会用自己的GPU、ASIC、MIPS等处理器或芯片在某一应用领域对标英特尔的通用处理器,并宣称自身具备xx倍的优势;但坦率的讲,把针对某一计算类型或某些特定算法而制造的处理器(芯片)在单一应用场景中与通用处理器来对标性能,这种做法本身是欠妥的。
面对算力多元化的趋势,英特尔有自己的解决方案——XPU体系。
CISC指令架构虽然强调在单一处理器内针对多种计算类型进行特别优化以获得更好的应用编程及运行效果,但作为一款通用处理器,其核心目标依然是为所有计算类型提供支持,而非限定在某一特定计算类型。
掌握了这一思路,我们便不难理解英特尔的XPU架构。
在CPU领域中,第二代至强可扩展处理器内部集成了VNNI深度学习加速指令集,能够针对TensorFlow、Caffe、mxnet等目前主流的深度学习框架提供加速。配合专门的OpenVINO工具包,开发人员可以对程序、算法和模型进行深度优化,进而在对应的处理器上获得更高性能。相对于上一代至强铂金8100系列处理器,加入VNNI指令集的铂金8200系列处理器能够在Caffe Resnet-50测试中取得接近2.5倍的性能,而更强大的铂金9200系列则能够实现5.2倍的性能。
这种级别的性能提升在基于AI算法的推理应用有着相当重要的意义,能够让用户在不使用额外协处理器或计算卡的情况下就获得可观的推理性能提升,让AI应用的部署门槛更低、系统构型更简单。
在实际应用中,VNNI指令集让京东云在文本检测应用中获得了2.4倍的性能,让腾讯云在视频分析应用中实现了3.26倍的性能,让微软在图像识别应用中获得了3.4倍的性能,让阿里巴巴在8种不同工作负载中实现了2-4倍不等的性能。同时,百度自研的PaddlePaddle框架也能在VNNI指令集的加持下获得2至3倍的推理应用性能。
最右侧的一列都是负载优化型至强
当然,除了在指令集方面的进化之外,针对不同的应用类型,英特尔也在至强产品框架内推出了更多负载优化型产品。例如面向NFV领域的后缀为N的系列产品,面向大规模云化基础架构的V后缀系列处理器,面向搜索应用的S后缀系列、面向物联网应用的T后缀系列以及采用Speed Select技术的、后缀为Y的三合一系列处理器(适配多种Profile,在BIOS中切换以实现对相应负载的优化)。此外,英特尔还专门推出了一款面向网络应用及网络边缘解决方案至强D-1600处理器,基于这款处理器,英特尔还推出了专门应用在CDN等领域的数据加密和压缩加速卡——QAT。
而除了这些CPU领域中的应用场景细分产品之外,英特尔还有应用在海量数据吞吐设备中的FPGA、面向能效敏感型应用的ATOM系列、专业的神经网络加速芯片NERVANA、面向AI编程用户和学生群体的Movidius神经网络计算加速棒(U盘设计、无风扇)等等一系列面向不同负载类型和应用场景的产品。
这些产品加在一起共同构成了英特尔的XPU体系。
这些产品虽然无法做到所有计算领域和场景的全覆盖,但其中的每一款产品都包含了有的放矢的针对性设计,是可以满足不同类型用户需求的。
3、 内存和存储
除了以处理器为中心之外,冯诺依曼计算机架构的最大特点就要算是多级存储了。
根据性能的不同,计算机内部的存储部件大致可以分为三层:性能最好的CPU内置缓存、性能第二的系统内存以及性能最差但容量更高的磁记录存储。
在通常的认知下,存储分层颗粒度越小,性能过度越平滑,计算机系统的整体运行效率也就越高。因此,以现在的眼光来审视传统计算机架构内部的三级存储划分,我们很容易发现其中的不合理之处:内存与磁介质存储之间性能差距过大。闪存介质的出现能够通过在两者之间增加一个热数据层的方式在一定程度上解决这一问题。
之所以要用“一定程度上”这个词,是因为即便是在带宽更高、延迟更小的NVMe协议之下,目前的SSD产品也普遍只能达到3xxx MB/s和ms级响应的性能水平,这与DDR4内存到CPU缓存之间动辄10万MB/s的带宽和以ns为单位的延迟之间仍然有巨大的性能差距。
如果再加一层,对于操作系统和应用的挑战太大,很难在短时间内普及。因此,英特尔给出的解决方案便是傲腾数据中心级持久性内存。
简单来讲,傲腾内存所采用的3D Xpoint介质是一种在延迟响应、传输速率、使用寿命等方面远超过目前的NAND闪存的产品;而相对于DRAM颗粒,3D Xpoint介质则拥有非易失性和容量方面的优势。将它与DRAM在DIMM上混合使用能够在不对现有计算机体系造成太大挑战的情况下实现计算机性能的大幅提升(现阶段,性能提升的幅度与使用场景密切相关)。
第二代至强可扩展处理器已经全面加入了对傲腾数据中心级持久内存的支持。目前,傲腾持久内存有两种应用模式,一种是APP Direct Mode,另一种是Memory Mode。
在APP Direct Mode中,DRAM与傲腾持久内存同时作为系统内存出现在操作系统与应用面前,应用需要针对两种内存的性能特点有区别的使用两种介质;DRAM负责承担IO性能,而傲腾持久内存则凭借容量和非易失性的特点提供容量和可靠性。当然,这需要应用在内存操作机制上做出调整并进行针对性的调优。
目前,支持这一模式的主要应用便是SAP的HANA内存数据库和开源的Redis内存数据库。在SAP HANA应用中,傲腾持久内存与DRAM的联合应用创造了9.1B的IO性能世界纪录,而在Redis中,傲腾持久内存的使用也能带来最多8倍的性能提升。
在Memory Mode中,傲腾持久内存则成为系统主内存,而DRAM则从系统界面“消失”,只以傲腾内存的高速缓存形式工作。Memory Mode模式下,操作系统和应用均无需进行定制化开发,两种介质的具体操作完全由驱动等来实现。
可以说,APP Direct Mode能够提供更好的性能,但需要应用做出改变;而Memory Mode则能够提供更大的系统内存容量,虽然性能提升因人而异但胜在无需操作系统和应用进行改变。两者各有利弊,用户和软件开发商可以自由选择。
另一方面,3D Xpoint所具备的非易失性也可使其以傲腾SSD的形式化身为SSD介质之上的另一个存储层。
当然,英特尔本身也生产多种型号的SSD产品,除提供多种容量之外,PCI-E、SAS、U.2等接口形态也是一应俱全。另外,英特尔还独创了全新的“尺子型”PCI-E x4 SSD,能够实现1U空间内576TB容量,1000万IOPS。
4、 互联
云化基础设施的不断普及,正在让集群内部和集群之间的连接效率变得比以往更加重要。同时,随着网络复杂程度的提升和用户对网络管理需求的升级,网络设备不仅要提供更高的带宽及更低的延迟,还要提供更多的操作模式以提升网络的可靠性、可管理性和传输效率。
在这方面,英特尔的产品线包含两大序列,一是500、700、800系列以太网卡,二是Omni-Path高速网络解决方案。
以2019年最新发布的800系列以太网卡为例,除了能够提供100Gb的带宽之外,网卡还支持英特尔应用程序队列(ADQ)技术、增强型动态设备个性化(DDP)技术以及RDMA。
ADQ能够允许用户根据不同应用的关键程度定义数据包收发的优先级顺序,从而实现面向应用及数据的网络可管理性。DDP则允许应用程序或系统针对不同的数据封包增加额外、可自定义的表头,进而让不同的封包使用不同的传输协议,在最大程度上优化网络传输的效率,降低延迟。而RDMA则允许无需CPU额外干预的远程内存直接读写,能够大幅提升大集群、高负载应用中的系统互联效率。
三种技术结合,带给800系列以太网卡的便是更低的延迟和更大的吞吐量。在Radis这样支持这些技术的先进内存数据库应用环境中,800系列网卡能够带来最高45%的延迟降低和30%的吞吐量提升。
而英特尔推出的Omni-Path高速互联网络则是包括光纤接口适配器和交换机在内的完整解决方案。Omni-Path目前提供58Gb和100Gb两种规格的产品,除了支持RDMA之外,Omni-Path还采用了更轻量化、更简单的消息传递库并且不必在连接建立时于系统和进程中保留连接地址信息,因此Omni-Path是一种用于与Infiniband争锋的高性能、低延迟网络架构,面向HPC、AI等应用场景。
5、 软件
硬件设计越来越复杂,指令集和功能越来越多,这对于编程及应用的效率是一大挑战。另一方面,编程语言的花样翻新也同样需要硬件产品在设计上就给予充分的考虑和支持。
对于英特尔这样的企业来说,作为产品众多的行业领导者,光是针对不同操作系统和安全威胁更新设备驱动及固件就会产生极其庞大的工作量。同时,这些软件产品还要根据新应用的特点和硬件本身架构进行定向支持及优化。这就是为什么英特尔作为一家半导体/硬件公司却拥有超过15000人软件工程师团队的原因。
6、 安全
与软件一样,从硬件、固件和驱动层面保证系统安全是一项非常重要、同时也非常繁重的工作。新安全威胁和漏洞的不断出现,应用和系统的复杂程度不断提升都让这项工作变得十分困难。而当某些漏洞或bug出现在硬件层面时,Intel还需要规划新的步进来从硬件层面进行修正。当然,本着开放的态度,对于所有已知的bug,英特尔都会在官网公布相关信息以及预计修复的时间和形式,以便让合作伙伴和最终用户都能够做到心里有数、有备无患。
在我的BGM里打败我?这是个小概率事件
围绕处理器及其背后的x86架构,英特尔已经构建了一套涉及计算、存储、网络连接、软件驱动固件、优化和硬件设计制造标准在内的庞大体系,并在这套体系的发展和运维过程中积累了海量的经验、资源及生态合作伙伴。
英特尔将这套城防体系称为“以数据为中心”的产品架构。的确,在数字时代,数据将成为用户业务发展的新燃料,而IT架构则是使用这种燃料的发动机。对这一趋势的理解与把握,英特尔的眼光无疑是准确的。而当一个巨人找准了正确的方向并全速开拔,其动能和势能都是不可小觑的。
从整个产品生态图景来看,英特尔目前所面临的问题是六大支柱其一的工艺制程相对于业界最顶尖水平处于略微落后的情况。显然,这一情况会在一定程度上动摇英特尔在行业中的领导地位,但这种动摇却是轻微且可控的。随着新制程的宣发,英特尔在这一领域中的“落后”进程会很快被补齐。届时,喧嚣会趋于平静;英特尔仍将是那个我们熟悉的英特尔。
当然,半导体工艺作为整个英特尔大厦的根基,被代工厂商超越这件事本身是一个相当明确的信号。他表明英特尔相对于整个行业的领先优势正在被拉近,一个不小心就会在某一领域失去冠军宝座。不过我们仍旧需要清醒的意识到,目前行业中还没有能在所有维度中挑战或超越英特尔的人;而这个人在短时间内也不会出现。
我的观点是:想在英特尔主导的现有计算机体系架构内,实现对英特尔的超越,这件事发生的概率是很低的。而真正能够威胁英特尔的恰恰是那些今天看似弱小的体系外力量。因为他们所构建的是一个全新体系、一个全新生态。当然,至于两种体系、两种生态之间的对抗,何时发生以及以何种形态发生,我们还需要观察很久。