共计 1930 个字符,预计需要花费 5 分钟才能阅读完成。
几款主流的人工智能芯片
main types of ai chips
人工智能的高级阶段是深度学习,而对于深度学习过程则可分为训练和推断两个环节:训练环节通常需要通过大量的数据输入或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,需要的计算规模非常庞大,通常需要 gpu 集群训练几天甚至数周的时间,在训练环节 gpu 目前暂时扮演着难以轻易替代的角色。推断环节指利用训练好的模型,使用新的数据去“推断”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少,但仍然涉及大量的矩阵运算。
在推断环节,除了使用 cpu 或 gpu 进行运算外,fpga 以及 asic 均能发挥重大作用。目前,主流的人工智能芯片基本都是以 gpu、fpga、asic 以及类脑芯片为主。
1.fpga
即专用集成电路,一种集成大量基本门电路及存储器的芯片,可通过烧入 fpga 配置文件来来定义这些门电路及存储器间的连线,从而实现特定的功能。而且烧入的内容是可配置的,通过配置特定的文件可将 fpga 转变为不同的处理器,就如一块可重复刷写的白板一样。fpga 有低延迟的特点,非常适合在推断环节支撑海量的用户实时计算请求,如语音识别。由于 fpga 适合用于低延迟的流式计算密集型任务处理,意味着 fpga 芯片做面向与海量用户高并发的云端推断,相比 gpu 具备更低计算延迟的优势,能够提供更佳的消费者体验。在这个领域,主流的厂商包括 intel、亚马逊、百度、微软和阿里云。
2.asic
即专用集成电路,不可配置的高度定制专用芯片。特点是需要大量的研发投入,如果不能保证出货量其单颗成本难以下降,而且芯片的功能一旦流片后则无更改余地,若市场深度学习方向一旦改变,asic 前期投入将无法回收,意味着 asic 具有较大的市场风险。但 asic 作为专用芯片性能高于 fpga,如能实现高出货量,其单颗成本可做到远低于 fpga。
谷歌推出的 tpu 就是一款针对深度学习加速的 asic 芯片,而且 tpu 被安装到 alphago 系统中。但谷歌推出的第一代 tpu 仅能用于推断,不可用于训练模型,但随着 tpu2.0 的发布,新一代 tpu 除了可以支持推断以外,还能高效支持训练环节的深度网络加速。根据谷歌披露的测试数据,谷歌在自身的深度学习翻译模型的实践中,如果在 32 块顶级 gpu 上并行训练,需要一整天的训练时间,而在 tpu2.0 上,八分之一个 tpupod(tpu 集群,每 64 个 tpu 组成一个 pod)就能在 6 个小时内完成同样的训练任务。
3.gpu
即图形处理器。最初是用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器,可以快速地处理图像上的每一个像素点。后来科学家发现,其海量数据并行运算的能力与深度学习需求不谋而合,因此,被最先引入深度学习。2011 年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果,结果表明,12 颗英伟达的 gpu 可以提供相当于 2000 颗 cpu 的深度学习性能,之后纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在 gpu 上加速其深度神经网络。
gpu 之所以会被选为超算的硬件,是因为目前要求最高的计算问题正好非常适合并行执行。一个主要的例子就是深度学习,这是人工智能(ai)最先进的领域。深度学习以神经网络为基础。神经网络是巨大的网状结构,其中的节点连接非常复杂。训练一个神经网络学习,很像我们大脑在学习时,建立和增强神经元之间的联系。从计算的角度说,这个学习过程可以是并行的,因此它可以用 gpu 硬件来加速。这种机器学习需要的例子数量很多,同样也可以用并行计算来加速。在 gpu 上进行的神经网络训练能比 cpu 系统快许多倍。目前,全球 70% 的 gpu 芯片市场都被 nvidia 占据,包括谷歌、微软、亚马逊等巨头也通过购买 nvidia 的 gpu 产品扩大自己数据中心的 ai 计算能力。
4. 类人脑芯片
类人脑芯片架构是一款模拟人脑的新型芯片编程架构,这种芯片的功能类似于大脑的神经突触,处理器类似于神经元,而其通讯系统类似于神经纤维,可以允许开发者为类人脑芯片设计应用程序。通过这种神经元网络系统,计算机可以感知、记忆和处理大量不同的情况。
ibm 的 truenorth 芯片就是其中一个。2014 年,ibm 首次推出了 truenorth 类人脑芯片,这款芯片集合了 54 亿个晶体管,构成了一个有 100 万个模拟神经元的网络,这些神经元由数量庞大的模拟神经突触动相连接。truenorth 处理能力相当于 1600 万个神经元和 40 亿个神经突触,在执行图象识别与综合感官处理等复杂认知任务时,效率要远远高于传统芯片。