资料来源:头条《人工智能影响力报告》中的人工智能十大热门芯片
iPhone X内部搭载了一颗全新定制的处理器——A11 Boinic,用来承担人脸识别和移动支付的工作负荷。双核心A11芯片运算量能够达到6000亿/s。在智能手机上安装专业化的芯片,意味着主芯片运算量减少,电池寿命提高。
作为AI算法的“摆渡人”,到底有哪些智能芯片被AI热烈追求?
1、GPU
GPU(Graphics Processing Unit):图形处理器,又称视觉处理器、显示核心、显示芯片,是一种专门在电脑、移动设备(平板电脑、智能手机等)、工作站、游戏机等终端设备上进行图像运算工作的微处理器。
GPU与CPU类似,是显卡的“心脏”,只不过GPU是专为执行复杂的数学和几何计算而设计的。
GPU作为应对图像处理需求而出现的芯片,其海量数据并行运算的能力与深度学习需求不谋而合,因此,被最先引入AI领域。
多数GPU拥有2D或3D图形加速功能。如果CPU想画一个二维图形,只要发个指令给GPU,如“在坐标位置处画个长和宽为a×b大小的长方形”,GPU就可以迅速计算出该图形的所有像素,并在显示器指定位置(x, y)上画出a×b的长方形。
GPU已经不再局限于3D图形处理了。在浮点运算、并行计算等部分计算方面,GPU拥有数十倍乃至于上百倍于CPU的性能。
AI最近几年的成绩离不开深度学习,而大多平台都在使用GPU来运行深度学习的算法。GPU强大的并行运算能力缓解了深度学习算法的训练瓶颈,从而释放了人工智能的全新潜力。
2、CPU
CPU(Central Processing Unit):中央处理器,一块超大规模的集成电路,它的功能主要是处理指令、执行操作、控制时间、处理数据。运作原理分为提取、解码、执行和写回4个阶段。
由于GPU是图像处理的专业选手,所以CPU处理图像的效率远远低于GPU。但是CPU是通用的数据处理器,处理数值计算是它的强项,所以它是不会被GPU取代的。
3、FPGA
FPGA(Field-Programmable Gate Array):现场可编程门阵列。它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物,具有一定的可编程性,能够同时进行数据、任务并行计算。
单从性能角度来看,FPGA弱于GPU,但在性能功耗比、灵活配置硬件结构方面,FPGA强于GPU。FPGA对深度学习领域的上层软件兼容性更强,是助力深度学习的一大技术。
在医疗、基因序列分析领域,对图像纹理、分辨率、相关性、储存空间、分析和理解要求都很高;在与视频相关的领域内,如金融、安防行业,对数据流的处理有一定的要求。FPGA已经具备了解决以上问题的特殊优势。
4、TPU
TPU(Tensor Processing Unit),专为机器学习量身定做的处理器,执行每个操作所需的晶体管数量减少,因此效率也大大超过GPU。
5、寒武纪
寒武纪是一种神经网络芯片,目标是实现人工智能。目前寒武纪包含三种原型处理器结构:
目前寒武纪包含三种原型处理器结构:寒武纪1号(DianNao):面向神经网络的原型处理器结构;
寒武纪2号(DaDianNao):面向大规模神经网络;
寒武纪3号(PuDianNao):面向多种机器学习算法。
寒武纪1号DianNao,包含一个主频:0.98GHz,神经网络基本运算峰值性:4520亿次/s,65nm工艺下功耗:0.485W,面积:3.02mm2的处理器核。DianNao的面积和功耗仅为CPU核的1/10,但是平均性能超过CPU核的100倍。
6、NPU
NPU:嵌入式神经网络处理器,为深度学习而生的专业芯片。采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。
中国首款(NPU)“星光智能一号”,是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,在人脸识别运用上准确率可高达98%。不过“星光智能一号”并不是真正意义的神经网络专用芯片,而是一款可以运行神经网络的DSP。
7、Tesla P100 GPU
英伟达(NVIDIA)推出的特斯拉P100(Tesla P100)显卡,搭载了基于最新帕斯卡构架的GPU GP100,单个芯片上集成了150亿个晶体管。
Tesla P100可实现相当于数百个CPU 服务器节点的性能,可提升数据中心的吞吐量和中心效率、减少节点数量,可执行深度学习神经网络任务。
8、Xeon Phi
Xeon Phi,更像是与CPU协同工作的GPU,在最新公布的超级电脑500强中,有7款电脑采用的是Xeon Phi芯片。
9、TrueNorth
TrueNorth:百万神经元类人脑芯片。
脑补:重量只有几克,尺寸只有邮票大小,却集成了54亿个硅晶体管,4096个内核,100万个“神经元”、2.56亿个“突触”,能力相当于一台超级计算机,功耗却只有65毫瓦。
毫无疑问,认知能力是TrueNorth的强项。TrueNorth可以执行感知、交互、识别等任务:它可以在地震时自动发出海啸警报,而传统计算机根本不可能完成这样的任务;TrueNorth可以部署在超级计算机Watson上,从而大大提高Watson的能力和能效。
10、DPU
DPU(Distributed Processing Unit):分散处理单元,常应用于DCS控制系统中。
DPU除了可以实现70多种特殊功能及150多种过程控制算法,还能够执行数据采集、标度变换、报警限值检查、操作记录、顺序事件记录等任务。
随着人工智能应用规模和需求的不断扩大,AI革命正在积极促进专用计算芯片的研发。通用芯片向定制芯片过渡,并最终走向类脑计算芯片,将会成为人工智能芯片发展的大势所趋。