AI芯片有多强大?TPU竟然比CPU快80倍!

小彭

    我们生活在一个技术推动整个文明基石的时代。但是,尽管拥有所有辉煌的发明和技术进步,今天世界比以往更倾向于速度和敏捷性。我们已经从传统的有线拨号互联网连接转移到第四代无线网络。光纤的广泛分布使得连接到互联网并以快速的速度访问数据成为可能。同样,当涉及到处理器和GPU时,我们已经从仅包含6000个晶体管的传统8位8080微处理器芯片转变为时钟速度高达1.7 GHz的最先进的Octa核心处理器。
    
    人工智能的发展越来越抽象,越来越复杂。从早期简单的是与否的判断,到后来精准的识别,可以在复杂的场景里找出特定的目标,再到后来,出现 AlphaGo 这样可以做出主动的决策的 AI,甚至智能如 AlphaGo Zero,可以完全依靠自学实现快速成长。
    人工智能经过这么长时间的发展,在网络的种类、复杂程度和处理的信息量上都发生了天翻地覆的变化。网络种类上,从早期的 AlexNet 和 GoogleNet 到现在各种各样的 GAN(生成对抗网络)以及各种深度强化学习的网络,它们各自网络结构都有不同,开发者在适应最新的网络上常常会遇到一些麻烦。
    
    处理的信息量也在成倍地增长,算力需求越来越高的情况下,对搭载处理单元的体积有更多限制的机器人实际上存在着在智能水平上升级的障碍。这就是为什么人工智能芯片不断升级迭代的原因。
    人工智能的终极目标是模拟人脑,人脑大概有1000亿个神经元,1000万亿个突触,能够处理复杂的视觉、听觉、嗅觉、味觉、语言能力、理解能力、认知能力、情感控制、人体复杂机构控制、复杂心理和生理控制,而功耗只有10~20瓦。
    可能有很多人会问,目前在人工智能领域,NVidia GPU为什么具有无可撼动的霸主地位,为什么AMD的GPU和NVidia GPU性能相差不多,但是在人工智能领域的受欢迎的程度却有天壤之别。
    2011年,负责谷歌大脑的吴恩达通过让深度神经网络训练图片,一周之内学会了识别猫,他用了12片GPU代替了2000片CPU,这是世界上第一次让机器认识猫。
    2016年,谷歌旗下Deepmind团队研发的机器人AlphaGo以4比1战胜世界围棋冠军职业九段棋手李世石(AlphaGo的神经网络训练用了50片GPU,走棋网络用了174片GPU),引发了围棋界的轩然大波,因为围棋一直被认为是人类智力较量的巅峰,这可以看做是人工智能史上的又一个重大里程碑事件。
    谷歌并不是唯一一家为这种设备上的AI任务设计芯片的公司。 ARM,Qualcomm,Mediatek和其他公司都制造了自己的AI加速器,而Nvidia制造的GPU在培训算法市场上占据了主导地位。
    然而,Google的竞争对手并没有控制整个AI堆栈。 客户可以将他们的数据存储在Google的云端; 使用TPU训练他们的算法; 然后使用新的Edge TPU进行设备上推断。而且,他们很可能会使用TensorFlow创建他们的机器学习软件--TensorFlow是由Google创建和运营的编码框架。
    
    这种垂直整合具有明显的好处。 Google可以确保所有这些不同的部分尽可能高效,顺畅地相互通信,使客户更容易在公司的生态系统中玩游戏。
    2016年5月的谷歌I/O大会,谷歌首次公布了自主设计的TPU,2017年谷歌I/O大会,谷歌宣布正式推出第二代TPU处理器,在今年的Google I/0 2018大会上,谷歌发布了新一代TPU处理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升,可达10亿亿次。
    TPU全名为Tensor Processing Unit,是谷歌研发的一种神经网络训练的处理器,主要用于深度学习、AI运算。在7月份的Next 云端大会,谷歌又发布了 Edge TPU 芯片抢攻边缘计算市场。虽然都是 TPU,但边缘计算用的版本与训练机器学习的 Cloud TPU 不同,是专门用来处理AI预测部分的微型芯片。Edge TPU可以自己运行计算,而不需要与多台强大计算机相连,因此应用程序可以更快、更可靠地工作。它们可以在传感器或网关设备中与标准芯片或微控制器共同处理AI工作。