如何在高能效下实现更高智能？英特尔公布多项数据计算研究成果

2022.10.29

    在本周的2020 VLSI技术与电路研讨会上，英特尔将针对分布于核心、边缘和端点上的日益增长的数据所引起的计算转型，介绍一系列研究成果和技术观点。英特尔首席技术官Mike Mayberry将发表题为“未来计算：数据转型如何重塑VLSI”的主题演讲，重点强调从以硬件／程序为中心的计算过渡到以数据／信息为中心的计算的重要性。
    “在分布式边缘、网络和云基础架构上有巨量数据流动，这就要求在数据生成的位置附近进行高能效和强大的处理，但这种处理往往会受到带宽、内存和电源资源的制约。英特尔研究院在VLSI研讨会上重点展示了提高计算效率的几种新方法，这些方法显示出多种应用领域的广阔前景，包括机器人、增强现实、机器视觉和视频分析。这一系列研究的重点在于解决数据移动和计算方面的障碍，这些障碍代表了未来最大的数据挑战。”
    － Vivek K． De，英特尔院士，英特尔研究院电路技术研究总监
    将要展示的内容：此次研讨会上将介绍一些英特尔的研究论文，探讨在未来边缘－网络－云系统中如何能够实现更高的智能水平和更高能效，以支持日益增长的众多边缘应用。研究论文中涉及的部分主题（研究的完整列表请见本新闻稿文末）包括：
    利用光线投射硬件加速器，提高边缘机器人三维场景重建的效率和精度
    论文：在边缘机器人和增强现实应用中，通过10纳米CMOS的光线投射加速器进行高效3D场景重建
    重要意义：包括边缘机器人和增强现实在内的某些应用，需要通过从光线投射操作产生的大量数据中精确、快速并且高能效地对复杂的3D场景进行重建，以实现实时密集的同步定位和映射（SLAM）。在本研究论文中，英特尔重点介绍了一款新型光线投射硬件加速器，可以利用新技术来保持场景重建的准确性，同时实现卓越的高能效性能。这些创新方法包括三维像素重叠搜索和硬件辅助近似计算三维像素等技术，降低了对本地内存的需求，此外还提升了电源效率，以适应未来的边缘机器人和增强现实应用。
    利用事件驱动可视化数据处理单元（EPU），降低基于深度学习的视频流分析的功耗
    论文：一个0．05pJ／像素 70fps FHD 1Meps事件驱动的可视数据处理单元
    重要意义：基于实时深度学习的可视数据分析主要用于安全和安保等领域，要求在多个视频流中能够快速检测对象，因而需要较长计算时间和高内存带宽。通常会对这些摄像头中的输入帧进行下采样，以便让负载降到最低，这样就降低了图像精度。在本项研究中，英特尔演示了一个事件驱动的视觉数据处理单元（EPU）在结合新颖的算法之后，可指示深度学习加速器仅使用基于运动的“目标区域”来处理视觉输入。这种新型方法缓解了边缘视觉分析中的密集计算和高内存要求。
    扩展本地内存带宽，以满足人工智能、机器学习和深度学习应用的需求
    论文：针对内存带宽有限的工作负载而设计的2倍带宽突发6T－SRAM
    重要意义：很多AI芯片，尤其是那些用于自然语言处理的芯片（如语音助理），日益受到本地内存的制约。为应对内存方面的挑战，需要提供倍频或增加内存插槽的数量，但其代价是功耗和面积效率变低，对于面积受限的边缘设备而言尤其如此。通过这项研究，英特尔展示了如何使用6T－SRAM阵列，以便在突发模式下根据需要提供2倍的读取带宽，其能效比倍频高51％，面积效率则比倍增内存插槽数量高30％。
    全数字二进制神经网络加速器
    论文：采用10纳米FinFET CMOS的617TOPS／W全数字二进制神经网络加速器
    重要意义：在功率和资源受限的边缘设备中，某些应用可接受低精度输出，因而可将模拟二进制神经网络（BNN）作为更高精度神经网络的替代品。后者的计算要求更高，并且有密集内存要求。然而，模拟BNN的预测精度较低，因为它们对过程变化和噪声的容忍度较低。通过本研究，英特尔演示了全数字BNN的使用，它具有类似于模拟输入内存技术能效，同时又为先进过程节点提供了更好的鲁棒性和可扩展性。
    2020 VLSI研讨会上介绍的其他英特尔研究包括以下论文：
    ● 未来计算：数据转型如何重塑VLSI
    ● 适用于10纳米CMOS的高性能图形／AI处理器的低时钟功率数字标准单元IP
    ● 适用于具有动态电流控制的多核SoC的一种自主重构功率输出网络（RPDN）
    ● 3D单片异构集成实现300毫米硅片（111）上的GaN和Si晶体管
    ● 低摆幅和列多路复用位线技术，适用于10纳米FinFET CMOS的低Vmin、耐噪声、高密度1R1W 8T位单元SRAM
    ● 一种具有动态电流控制的双轨混合模拟／数字LDO，适用于可调谐的高PSRR和高效率
    ● 一种435MHz、600Kops／J的抗侧信道攻击加密处理器，适用于14纳米CMOS的安全RSA－4K公钥加密
    ● 一种14纳米CMOS的0．26％ BER 10＾28抗建模挑战响应PUF，具有稳定性感知对抗挑战选择（Stability－Aware Adversarial Challenge Selection）功能
    ● 一种6000倍时域／频域泄漏抑制的抗SCA AES引擎，采用非线性数字低漏失调节器，并与14纳米CMOS的运算对策级联
    ● 带重金属双层底部电极的SOT－MRAM CMOS兼容工艺集成和带STT辅助的10ns无场SOT转换
    ● 采用栅极调制自折叠写入辅助的10纳米SRAM设计，能够以微乎其微的电能开支使VMIN减少175毫伏