IBM研发基于PCM的个性化AI芯片，算力是GPU百倍

2024.04.04 Ai芯天下

    最近发表在Nature上的一篇论文中，IBM Research AI团队用大规模的模拟存储器阵列训练深度神经网络（DNN），达到了与GPU相当的精度。研究人员称，这种“芯片”可以达到 GPU 280 倍的能源效率，并在同样面积上实现 100 倍的算力。这是在下一次AI突破所需要的硬件加速器发展道路上迈出的重要一步。
    IBM Research 研究员 Stefano Ambrogio之前担忧：我们可以在一个比 GPU 更快的系统上进行训练，但如果训练操作不够精确，那就没用。目前为止，还没有证据表明使用这些新型设备和使用 GPU 一样精确。”
    但在上周发表在《自然》杂志上的一篇论文中（Equivalent－accuracy accelerated neural－network training using analogue memory），Ambrogio 和他的同事们描述了如何利用全新的模拟存储器和更传统的电子组件组合来制造一个芯片，该芯片在运行速度更快、能耗更少的情况下与 GPU 的精确度相匹配。
    新的存储技术难以训练深层神经网络的原因是，这个过程需要对每个神经元的权重进行上下数千次的刺激，直到网络完全对齐。Ambrogio 说，改变这些设备的电阻需要重新配置它们的原子结构，而这个过程每次都不相同。刺激的力度也并不总是完全相同，这导致神经元权重不精确的调节。
    因此，研究人员创造了“突触单元”来解决这个问题，每个单元都对应网络中的单个神经元，既有长期记忆，也有短期记忆。每个单元由一对相变存储器（ PCM ）单元和三个晶体管和一个电容器的组合构成，相变存储器单元将重量数据存储在其电阻中，电容器将重量数据存储为电荷。
    PCM 是一种“非易失性存储器”，意味着即使没有外部电源，它也保留存储的信息，而电容器是“易失性的”，因此只能保持其电荷几毫秒。但电容器没有 PCM 器件的可变性，因此可以快速准确地编程。
    当神经网络经过图片训练后可以进行分类任务时，只有电容器权重被更新了。在观察了数千张图片之后，权重会被传输到 PCM 单元以长期存储。认为最终的芯片会被设计为与 GPU 协同工作的形式，以处理全连接层的计算，同时执行其他任务。他还认为处理全连接层的有效方法可以被扩展到其它更广泛的领域。
    Ambrogio 表示主要有两种方向的应用：将 AI 引入个人设备，以及提高数据中心的运行效率。但明显其更具吸引力的优势在于创造个性化的 AI。
    IBM2018市场战略：

    截至今年3月31日，IBM2018年第一季度的营收为191亿美元，同比增长5％。继上个季度后，再次结束连续22个季度下滑的局面，第二次实现营收增长。IBM预计到今年年底将达到400亿美元的战略要求。
    IBM所谓的“战略必要性”收入，即未来增长产品和服务，例如云、认知计算、沃森、分析、移动和安全等业务，在过去12个月中为收入377亿美元，增长12％，占IBM收入的47％。
    6月6日，透过2018 IBM社交协作峰会，IBM发布了一系列基于Watson技术的社交协作解决方案，并向业界展示了众多深入各行业企业业务流程的成功案例。无论是医药、金融、制造业等传统行业，或是独角兽级别的初创企业，IBM企业社交协作已经全面深入企业业务深水区，成为其数字化转型中不可或缺的助力
    2018年，IBM在企业社交协作方面另一个值得期待的动作就是即将推出DominoV10版本。据悉，轻代码／无代码应用将是其主要特点。相信在轻量化无代码的趋势下，越来越多企业用户可以脱离软件开发商和较长的开发周期，更便捷更快速地应用IBM多年积累的企业协作技术。
    在过去几年：在人工智能领域 IBM 签下 16000 份合同、400 份区块链合同！在量子计算领域，也正与 JP摩根大通和戴姆勒等伙伴合作实施多个项目的合作。