JavaScript 已停用。必须启用 JavaScript 才能使用本网站的所有功能。
人工智能 (AI) 有能力彻底改变生活和社会。在与此相关的业务中,人们的注意力开始集中在何时、由谁、以何种形式实现能够释放人工智能潜力的人工智能芯片。 IT和半导体行业的巨头们集体着手开发AI芯片,就像传说中的强国争夺掌握着巨大力量的“圣杯”。然而,每家公司设想的AI芯片的规格却有着惊人的不同。这是因为我们相信,理想的人工智能芯片是能够增强我们当前业务优势,同时也能让我们在未来取得长足进步的芯片。各家公司现有业务定位的差异,直接导致了AI芯片的差异。在该系列的第二部分中,我们将解释人工智能芯片中使用的技术以及每个公司芯片的特性。
内部结构适合人工智能相关处理的人工智能芯片必将形成巨大的市场。美国研究公司 Tractica 预测,深度学习芯片市场将从 2016 年的 563 万块芯片和 513 亿美元价值快速增长到 2025 年的 4120 万块芯片和 122 亿美元(图 1)。期间年均增长率达到惊人的422%。
![]() |
目前,应用人工智能的信息系统与早期用真空管制成的计算机处于同样的状态,体积庞大、无力,同时消耗大量电力。由于人工智能本身是新生事物,在特定领域取得了令人瞩目的成果,但构建和运行系统的成本巨大,而且不能说好用。
无论是自动驾驶汽车还是在工厂进行预测性维护的物联网系统,许多用户都必须等待 AI 芯片投入实际使用才能获得收益。从风险投资公司到大型企业,无数公司已经开始开发人工智能芯片。
在作为现有计算机核心芯片的微处理器方面,曾主导PC市场的英特尔已经占领了从服务器到笔记本电脑的市场。随后,在智能手机时代,ARM处理器内核开始流行。微处理器市场已由Intel 和ARM 主导。
从现在起,人工智能将在信息系统中发挥核心作用,这些现有芯片的威力将再次崩溃。市场之战将从头开始。无论是人工智能芯片的引入方,还是使用人工智能芯片的用户公司,都在屏息以待,何时、谁、什么样的人工智能芯片将主导市场。
IT公司和半导体制造商发布的AI芯片规格极其多样化。区别不在于传统微处理器的规格水平,而在于芯片的整体设计理念。看来每家公司都在聚集自己最好的技术来开发芯片,以支持自己在人工智能时代的业务,这种情况将持续未来20到30年。
不过,粗略地分类也不是不可能。关注各公司AI芯片的规格和内部结构,可分为以下三种类型(图2)。
![]() |
第一个是微处理器或GPU*1,FPGA*2到更适合人工智能处理的形式。在这里,我想称之为“现有芯片的进化”。英特尔、英伟达和高通等公司正在基于这一概念制造芯片。从制造商阵容中可以看到,有许多厂商在个人电脑和智能手机等现有应用市场中拥有既得利益。计划是利用现有优势,逐步构建适应时代要求的能力。
第二个是人工智能芯片,其内部配置已针对人工智能相关处理进行了优化。这里,我们暂且将其称为“第一代AI芯片”。在本系列的第 1 部分中,我解释了 AI 芯片处理的神经网络内部的计算处理具有明显的特征。简单回顾一下,推理处理对以 8 位整数表示的低精度数据执行大量乘法累加运算,学习处理对以 16 位或 32 位浮点数表示的高精度数据执行大规模乘法累加运算。第一代人工智能芯片采用的规格符合这些算术处理的特点。谷歌、富士通和MobileEye是基于这一理念制造芯片的典型公司。
第三种是脑形芯片,利用硬件来模仿神经网络的功能和结构。这里,我们暂且将其称为“第二代AI芯片”。上述两类AI芯片除了基于FPGA的芯片外,基本上都是处理器。每次执行操作时,根据操作内容读取指令和要操作的数据,执行完操作后,将操作结果写入存储器。这种类型的处理系统称为诺依曼计算机。然而,第二代人工智能芯片具有非诺依曼型结构,神经网络中的计算功能由硬件实现。 IBM 和 NEC 正在基于这一概念制造芯片。风险投资公司和大学也正在积极开发它。
下面我们将详细讲解这三款代表性芯片所采用的技术。首先是Google的“TPU*3''是第一代AI芯片的技术示例。接下来我们谈谈现有芯片演进类型中搭载的技术及其应用领域。最后我们来介绍一下第三系列第二代AI芯片的技术。
Google 的 TPU 是第一代 AI 芯片的代表,是了解专门从事 AI 相关处理的芯片特性的完美主题。这是因为该公司发表了大量的学术论文和解释性文件。
TPU不是研发阶段的芯片,而是已经在数据中心等地方投入实际使用的芯片。 TPU 已用于该公司的服务“Google 搜索”、“街景”、“Google 照片”和“Google 翻译”。
用于推理处理的TPU是28nm工艺*4700MHz工作频率和40W功耗的ASIC*5与通常以超过 3GHz 的频率运行的服务器微处理器相比,您会发现它们的速度慢得令人难以置信。然而,根据 Google 的说法,它比使用通用微处理器或 GPU 执行神经网络计算快 15 到 30 倍(图 3)。此外,其高效率突出,单位功率性能提高30至80倍。
![]() |
顺便说一下,简称为TPU的芯片是专门用于推理处理的芯片,还有另一种名为“Cloud TPU”的芯片,旨在加速学习处理。除了崭露头角的人工智能研究人员和半导体工程师之外,TPU和云TPU的开发目前还涉及大卫·帕特森(David Patterson)和诺曼·朱皮(Norman Jouppi)等传奇研究人员,他们领导了微处理器的发展,创造了一个可以与棒球界的Oh和Nagashima时代以及歌手方面的披头士乐队相媲美的时代。以完美的阵容,让您感受到业界开启新时代的热情。
TPU 使用各种技术来提高对推理处理至关重要的大量乘积和运算(图 4)。在这里我想介绍四种替代技术。
![]() |
首先,“量化”*6”的技术,要计算的 32 位数据的精度统一降低为 8 位。谷歌表示,在用于图像识别的神经网络中,需要处理的数据原本为 91 MB,通过量化可以减少四分之一,达到 23 MB。此外,与该处理并行地,浮点运算被整数运算取代,从而显着减小了运算单元的电路尺寸和功耗。
典型的 GPU 在单个芯片上有数千个 32 位浮点乘法器。然而,对于TPU,算术单元的数量已经增加,以适应每个算术单元更小的电路规模,并且配备有65,536个8位整数乘法器。通过允许推理精度存在微小差异,乘法器的数量增加了 25 倍,从而提高了速度。
接下来是“CISC*7的经典处理器架构。 TPU 具有十多个专用指令,可以使用单个指令执行推理处理中使用的复杂操作。这最大限度地减少了读写数据和指令所需的工作。
TPU还使用“矩阵处理器”,其中许多执行相同操作的处理器核心以二维方式排列。*8”的核心排列方法。这允许时钟信号*9的每个周期可以执行数十万次操作。用 Google 的话说,“通过采用矩阵处理器,类似于一次打印一个字符的打字机的微处理器处理,使用 TPU 变得更快,类似于一次打印一页文档的打印机。”
此外,作为在芯片上实现大规模矩阵处理器的方法,它使用了“脉动阵列”,这是一种与传统CPU和GPU完全不同的结构。在普通处理器中,每次运算完成时,根据程序中写入的指令执行的运算结果都会保存在寄存器中,寄存器是要运算的数据的临时存储器。*10然而,在脉动阵列中,操作的结果不会写回寄存器,而是用作下一个操作的输入。由此,TPU 的功耗性能比达到了典型 CPU 的 83 倍、GPU 的 29 倍。
Google 于 2017 年透露了 Cloud TPU,这是一种用于学习处理的 AI 芯片(图 5)。虽然目前尚未透露详细规格,但已知每颗芯片的性能为 45 TFLOPS,在训练机器翻译模型时比最快的 GPU 快 4 倍。从这个信息来看,它似乎配备了16位浮点运算单元。
![]() |
据说学习过程需要执行高精度浮点运算,但不断出现的研究结果表明简化运算的可能性。富士通已经证明,即使使用8至16位整数运算单元处理深度学习学习结果,推理处理的质量也几乎可以保持不变。在手写字符识别中,使用32位浮点运算进行学习处理时,识别率为9890%,但16位时的识别率为9889%,8位时的识别率为9831%,识别率几乎没有变化。使用 16 位时功耗可降低 50%,使用 8 位时可降低约 75%。该公司计划于2018年出货AI芯片“DLU*11”。
GPU 是一种最初设计用于加速 3D 图形处理的芯片。由于3D图形处理需要高精度浮点运算,因此它配备了适合学习处理的所有功能。然而,推理处理中的计算精度被过度指定。
推理处理预计将安装在自动驾驶汽车、工厂检查设备、监控摄像头中的图像识别等各种设备中,潜在市场巨大。为此,GPU厂商正在将第一代AI芯片的精髓融入到自己的产品中并提交规格。这是一款人工智能芯片,是现有芯片的演进。
最大的GPU公司NVIDIA在2016年下半年开始出货的“Tesla P4”和“Tesla P40”产品中引入了高速执行8位整数运算的特殊指令。此外,顶级服务器GPU“Tesla V100”配备了名为“Tensor Core”的计算单元,可加速乘法累加运算。推理使用 16 位浮点运算,而学习则混合使用 16 位和 32 位运算。此外,微软正在为头戴式显示器HoloLens开发一款名为HPU(全息处理单元)的AI芯片。*12'',该芯片集成了24个Tensilica DSP内核,并添加了AI指令。该芯片也遵循现有芯片的演变。
FPGA是一种像GPU一样用于AI相关处理的现有芯片,可以通过编程自由改变芯片内部的电路配置。因此,可以构建一个相对精简的神经网络。然而,有一个缺点。无法执行浮点运算,而浮点运算对于学习处理至关重要。 Intel在其收购的FPGA制造商Altera的产品Arria 10上安装了32位浮点乘法器和加法器,使其更适合AI相关处理。
微处理器也正在配备适应人工智能相关处理的功能。英特尔增强了服务器计算机微处理器“Xeon Phi”的功能,提高了 16 位或更少的浮点运算速度。该公司努力加强在科学计算中不常使用的低精度浮点运算,似乎是为了提高人工智能在学习处理方面的竞争力。
神经网络有多种类型,它们的使用取决于应用(图 6)。例如,在图像识别处理中处理高清图像时,输入参数的数量会增加。如果“狗”或“猫”等识别结果项的数量增加,则输出参数的数量将增加。此外,如果您想通过更高级的识别来提高正确答案的比率,请使层更深。当您想要在识别(例如语音识别)中利用单词上下文时,您可以使用可以反映处理历史记录的神经网络模型。类似的事情。
![]() |
TPU 并不是专门用于特定神经网络的芯片。尽管我们引入了专门从事人工智能相关处理的技术,但我们仍然保持多功能性,以加速各种类型神经网络的计算处理。这是因为它旨在安装在需要高速执行任何应用程序的人工智能相关处理的数据中心服务器上。此外,深度学习是一项正在发展的技术,即使开发出更先进的模型,它也必须是可扩展的。
像TCP这样的第一代AI芯片可以说是从GPU等高度通用的芯片中大胆去除了AI相关处理所不需要的功能的芯片。那么,如果我们开发一款专门针对特定神经网络类型的人工智能芯片,我们是否可以让它变得更快?实际上已经有基于这样概念的AI芯片了。 Mobileye 的 ADAS(高级驾驶辅助系统)和自动驾驶汽车图像识别芯片 EyeQ 就是代表性的例子。对于识别自动驾驶汽车拍摄的图像的应用程序来说,很容易唯一地定义相机的分辨率、要分类的项目数量以及所需的精度。这使得开发专门的人工智能芯片成为可能,浪费更少,而不需要通用的多功能性。
AI 芯片存在的理由是以更低的功耗和更低的成本更快地执行 AI 相关处理。根据这些指标,第一代人工智能芯片和第二代人工智能芯片压倒性优于现有芯片的高级版本。因此,如果你想知道这是否最终会成为第二代人工智能芯片的全部内容,那么它可能不会发生。
芯片的市场价值不仅仅取决于其是否适合人工智能相关处理。 EyeQ的用途仅限于ADAS等图像识别处理,当然具有高性能,但它无法安装在数据中心服务器上。这是因为它不适合图像识别以外的应用中的AI相关处理。这就是为什么可以支持各种神经网络的 TPU 的存在是有价值的。
现有芯片演进类型也是如此。在不仅使用人工智能相关处理而且还使用基于程序的控制处理、图形处理等的系统中,现有芯片演进类型的发挥范围可能会大大扩展。一个典型的应用是自动驾驶汽车。近年来,不少汽车厂商纷纷加强人工智能研发能力,旨在开发自动驾驶汽车。这些进展让人觉得自动驾驶只能通过人工智能技术来实现,但事实并非如此。
如果我们更详细地了解自动驾驶汽车内部的流程,它们可以分为四个任务(图 7)。 “信息收集”涉及使用摄像头和传感器获取信息并提取有意义的信息。 “分析和识别”涉及解释所获取信息的含义并了解汽车及其周围环境。 “行动决策”根据了解的情况决定如何移动汽车。这就是“机械控制”,根据计算机指令精确控制油门、方向盘、刹车等。
![]() |
其中,AI芯片非常适合“分析和识别”。“信息收集”需要数字信号处理的性能,因此DSP和FPGA都适合。 “行动决策”需要能够模拟周围情况并模拟汽车运动的处理性能,因此 GPU 是理想的选择。 “机构控制”要求具有通用性能,能够按照程序确定的程序处理各种情况,因此适合微处理器。
早期的自动驾驶汽车无法使用单个芯片执行所有四项任务,因此它们可能需要使用各种不同类型的芯片。然而,如果有一天可以在单个芯片上执行多项任务,则将需要多功能芯片。 NVIDIA已经引领了这一趋势,推出了图像识别SoC“Xavier”,它将GPU和微处理器集成到单个芯片中。
不仅是自动驾驶汽车,监控摄像头、监控工厂产品的传感器、物联网设备等也将配备使用人工智能相关处理的先进“分析和识别”功能,并结合“信息收集”、“行为判断”和“机构控制”等功能。在此类应用中,作为现有芯片演进的人工智能芯片可能会得到广泛使用。在该系列的第三部分中,我们将阐述未来的方向,重点关注神经形态芯片(第二代人工智能芯片)的发展趋势。
[继续第 3 部分]伊藤元明(伊藤元明)
光线有限公司代表
在富士通担任工程师 3 年半导体开发工作,在 Nikkei Micro Devices、Nikkei Electronics、Nikkei BP Semiconductor Research 等公司担任记者/台/主编 12 年新闻工作,在 Techno Associates(Nikkei BP 和三菱商事的合资智库)担任顾问 6 年为制造商业务提供支持,以及在日本担任广告制作人 4 年营销支持Nikkei BP 技术信息组的广告部门。
2014年,他独立成立了光线有限公司。该公司提供专门从事技术营销的支持服务,公司考虑并付诸实践如何向目标受众(主要是科技公司)准确传达技术的价值。