JavaScript 已停用。
必须启用 JavaScript 才能使用本网站的所有功能。

科学报告

AI芯片开启新的信息处理范式

文本:伊藤元明
2017.11.30
AI芯片开启新的信息处理范式

AI芯片的演变和使用才刚刚开始。未来几十年,我们将随着各种技术的不断引入而不断发展,创造出一个又一个每个时代所需的有用应用。然而,人工智能芯片仍然是计算机的一种。当前计算机面临的独特技术挑战也会给AI芯片的演进带来问题。特别是,除非我们解决阻碍计算机变得更快的基本问题(即冯·诺依曼瓶颈),否则无法设想人工智能芯片的增长前景。在本系列的第三篇中,我们将阐述神经形态芯片的发展趋势,这将为未来AI芯片的持续演进铺平道路。

当今使用的大多数计算机都是围绕一个已经使用了大约 70 年的基本原理构建的。一般认为,诺依曼架构是由天才数学家约翰·冯·诺依曼发明的。*1''是通用计算机的结构(图1)。它是一项具有不可替代价值的技术,因为它具有强大的多功能性,可以自由地进行各种计算。高度通用的计算机可以用于多种用途,例如文字处理、网页浏览和游戏,只有诺伊曼类型的计算机才成为可能。

AI芯片分为三类
【图1】Neumann架构的结构
创建者:伊藤元明

上次解释了 Google 的“TPU”*2''这样的第一代AI芯片以及智能手机和家用游戏机中的CPU都是基于Neumann类型的。

诺伊曼型基很难提高性能

诺伊曼型已经统治计算机世界很多年了,但70年后,它已经开始出现技术枯竭的迹象。有一个重要的缺点,除非采取基本措施,否则不能指望进一步提高性能。

在诺伊曼型中,每次执行运算时,运算单元都会从存储设备中读取指令和数据,运算结束后丢弃指令,并将结果写入存储设备中。每个程序都会重复此过程。乍一看,这似乎是一个乏味的过程,就像每天通勤到遥远的工作场所一样。然而,由于它们工作得非常仔细,一一检查每条命令并确保数据放置在正确的位置,因此它们能够毫不混乱地执行各种任务。

诺依曼类型能够通过加速运算单元和存储设备之间的通信来加速整个系统。然而,近年来,通过连接两者的布线来提高信号传输速度已变得不可能。

通常,电子设备使用金属布线来连接元件和电路。这些电线根据其材料和形状而具有电容,并且需要一定的时间将信号从一端传输到另一端。这与当您通过连接到水龙头的空软管流水时的原理相同,需要一段时间水才会从末端流出。

这种延迟在诺依曼类型中是不可避免的,是提高计算机整体性能的障碍。换句话说,无论工作场所的工作效率提高多少,所能完成的工作量都受到通勤时间长度的限制。这种性能改进的障碍被称为“冯诺依曼瓶颈”。*3」。

对于刚刚开始发展的人工智能芯片开发者来说,这是一个巨大的问题。有许多应用希望通过进一步提高人工智能芯片的性能来实现,例如自动驾驶汽车、先进机器人、做出准确诊断的医疗系统以及实时自动翻译器。我们不能简单地说,“存在瓶颈,因此我们无法进一步提高性能。”

彻底模仿人脑结构

因此,为了为更高的性能铺平道路,一些公司和研究机构已经放弃了诺伊曼模型,并开始开发基于全新原理的人工智能芯片。代表性公司是IBM。其他已开始研发的公司包括英特尔、惠普和犹他大学、NEC 和东京大学、日本产业技术综合研究所和松下、东芝、电装和东北大学。

“看看人脑的结构,它不是记忆与计算分离的诺伊曼式大脑。而且,它只消耗20W的能量,实现了比任何现有计算机更先进的处理。那么为什么不彻底模仿大脑的结构呢?”这就是IBM和其他公司在寻找新的基本原理时所关注的重点。

目前提出的所有人工智能芯片都在不同程度上依赖大脑的神经网络来对其行为和结构进行建模。谷歌的TPU使用程序来重现神经网络的结构和功能,神经网络由神经元(神经细胞)和突触(神经细胞之间的连接)组成,采用诺伊曼型结构。芯片内部运算单元的规格针对AI相关处理进行了优化,可以说该芯片几乎模仿了大脑的运动。

相比之下,IBM 和其他公司瞄准的芯片被称为“神经形态芯片”,它通过集成算术单元和存储单元而不是分离它们来重现神经网络的物理结构。在AI芯片的演进中,可以称为“第二代AI芯片”。然而,由于脑形芯片不使用诺依曼芯片,因此失去了通用性,无法执行逻辑运算。然而,在人脑中,左半球负责逻辑思维,右半球负责直觉认知。 IBM认为,不久的将来计算机的基本配置将是基于诺伊曼模型的传统计算机和基于脑形芯片的AI系统之间的角色分工(图2)。

从传统芯片与神经形态芯片的组合到融合
【图2】“传统型”与“脑形芯片(神经形态芯片)”的组合到融合
来源:IBM 主页

2014年,IBM在科学杂志《Science》上发表了世界上第一个脑形芯片“TrueNorth”的论文。从这里开始,我们将解释使用TrueNorth所使用的技术的脑形芯片的特性和结构。

AI芯片可以嵌入到所有装置和设备中

TrueNorth 是第二代 AI 芯片,开创了脑形芯片的先河,该芯片使用 54 亿个晶体管整合了 100 万个神经元和 256 亿个突触(图 3)。 28nm工艺*4制造,芯片面积为43cm2,与典型微处理器的尺寸相同。

``TrueNorth''包装照片和内部结构
【图3】“TrueNorth”包装照片及内部结构
来源:IBM 主页

据说人脑有大约 1000 亿个神经元和大约 100 万亿到 150 万亿个突触。虽然 TrueNorth 远不及人类大脑的大小,但据说其大小与昆虫大脑相当。*5正如昆虫拥有极其先进的感官,具有“准确定位空中小猎物”和“有动物可以吸血”等特定能力一样,TrueNorth 似乎能够实现“检测地震和发布海啸警报”和“监测石油泄漏”等特定应用的足够能力。

TrueNorth 的特别之处在于,它可以执行每秒复制 46 亿次的突触运动,而功耗仅为 70 至 200 mW,与助听器的功耗大致相同。 GPU目前用于执行AI相关处理*6的功耗功耗为数百瓦,而作为第一代AI芯片的TPU为40瓦,因此TrueNorth的节能效果非常出色。由于其功耗极低,可以通过电池供电,因此供电和散热的电路和器件可以大大简化,AI芯片的应用范围将大大扩展。先进的人工智能芯片可以融入小型机器人、便携式电子翻译机,甚至办公室和商店的各种设备中,就像用于控制家用电器的微型计算机一样。

使用芯片并联扩大规模

TrueNorth 在一块芯片上实现了 4096 个核心,这是数据处理的最小单位。每个核心包括运算电路、存储器和用于核心间通信的路由器。在第一代人工智能芯片 GPU 和 TPU 中,神经网络中神经元之间的连接强度以及交换的数据存储在外部存储器中。 TrueNorth则将运算单元和存储设备合并到一个核心中,指令和数据的读写都在核心内完成。因此,冯诺依曼瓶颈可以显着减少。

每个核心都配备了可再现 256 个神经元和 262,144 个突触的电路,通过使用 23 种参数调整每个神经元的行为,可以再现从简单的神经网络模型到极其复杂的模型的所有内容。

TrueNorth 中的 64 x 64 核心排列在具有 256 个输入和 256 个输出的二维网状布线上(图 4)。然后,核心内的路由器功能用于在核心之间交换信号。此外,通过将这些芯片布置在板上,可以进一步扩大神经网络的规模,使其能够执行更复杂的处理并提高准确性。 IBM已经制作出了一个系统原型,该系统在一块板上排列了16个芯片,大约有1600万个神经元和大约41亿个突触,据说其规模与青蛙的大脑相当。此外,通过连接其中三块板,他们创建了一个具有约 4800 万个神经元和约 123 亿个突触的原型系统,其大小相当于老鼠的大脑。

TrueNorth 芯片照片和带有 16 个芯片的主板
[图4]“TrueNorth”芯片照片和带有16个芯片的板
来源:IBM 新闻稿

进一步降低功耗的另一个想法

TrueNorth除了放弃诺依曼式之外,还有一个特点就是模仿大脑神经回路的功能。这是采用一种称为“事件驱动电路”的电子电路操作方法。其机理及特点如下(图5)。

同步电路和事件驱动电路的区别
[图5]同步电路与事件驱动电路的区别
来源:IBM 主页

大多数电子电路使用一种称为“同步电路”的机制进行操作。处理复杂程序的大型电子电路被分成较小的电路,每个电路按照时钟信号以桶队的方式依次处理,时钟信号像节拍器一样指导运动的节奏。比如2GHz这样的数字,表示计算机CPU的性能,代表其节奏的频率,2GHz表示每秒执行20亿次桶旅。

该系统的优点是可以轻松设计出质量稳定的电子电路,但另一方面,所有电路始终处于活动状态,并且时钟信号需要分发到芯片的每个角落,因此往往会消耗大量功耗。

另一方面,在事件驱动电路中,只有输入信号的电路被激活并执行处理。换句话说,只有必要的电路运行,不需要时钟信号的布线,从而显着降低功耗。此外,在神经网络中,信号进入相邻的神经元,并且该神经元的激活(放电)被用作引起周围神经元放电的信号。事件驱动电路的操作可以说与神经网络类似。

然而,实际上,TrueNorth 发送 1kHz 的极慢时钟信号(每秒 1000 次)。之所以使用时钟信号,虽然速度较慢,但​​因为芯片外部的电子电路是同步电路,输入来自图像、声音、传感器等的数据,并及时从芯片输出推理结果。据说大脑处理视觉信息所需的时间约为1毫秒,并且1个1kHz周期的周期被设置为相同。

IBM 正在开发 TrueNorth,作为 SyNAPSE 项目的一部分,该项目由美国国防高级研究计划局 (DARPA) 资助 5350 万美元。该项目的长期目标是创建一个拥有100亿个神经元和100万亿个突触的系统,功耗为1000瓦,体积小于2升。虽然电力消耗的规模和效率无法与人类相提并论,但目标值却是让你几乎看不到他们的背影。该公司表示,实现这一目标将使TrueNorth能够用于公共安全、视障人士的视觉辅助、健康监测和自动驾驶等应用。

非易失性存储器的又一次飞跃

脑形芯片是全新概念的半导体芯片,技术成长空间仍然很大。目前,许多公司、大学和研究机构正在引入各种想法来进一步提高性能并降低功耗。

特别是非易失性存储器领域的研发案例正在增加,非易失性存储器是脑形芯片中的存储设备。 TrueNorth 使用 SRAM 作为存储器,用于存储反映学习结果的神经网络。 SRAM的存储器在电源关闭时会被擦除,因此在使用时需要持续供电。通过将其替换为非易失性存储器,即使电源关闭,非易失性存储器也能保留其记忆,从而可以实现更低的功耗。

犹他大学与惠普联合开发的脑形芯片“ISAAC”采用电阻式存储器(ReRAM)作为存储器。*7)。日本产业技术综合研究所和松下半导体解决方案公司也致力于利用 ReRAM 实现脑形芯片。另一方面,IBM 开发了*8*9)(图 6)。

使用相变存储元件的脑形芯片原型
[图6]使用相变存储元件的脑形芯片原型
来源:IBM 主页

纳入学习功能的考虑

采用非易失性存储器也有可能成为解决当前脑形芯片最大挑战的解决方案。挑战在于整合学习功能。 AI相关处理包括学习处理(从数据中学习处理方法)和推理处理(根据学习结果对输入数据进行分类并提取趋势),但TrueNorth只能执行推理处理。使用GPU等预先学习的学习参数被传输到芯片并执行推理处理。然而,这种方法不允许在配备该芯片的设备上进行学习,这限制了它的使用。

使用ReRAM的芯片和使用PCM的芯片都利用了存储元件的电阻值通过重复接收来自外部的脉冲(信号)而改变的特性。正在开发通过优化材料和元件结构来不断改变电阻值,并将其用作学习熟练程度的技术开发。 TrueNorth 将突触连接的强度存储为数字值,但其想法是,如果可以将其表示为模拟值(电阻值的差异),则可以使用基于流经存储元件的电流值的模拟电路来执行乘积和运算。这种结构和原理类似于大脑中的神经网络,是一种集记忆和计算于一体的结构,所以如果实现的话,将与诺依曼类型完全背离。

此外,如果能够在施加少量脉冲时使电阻值变化较小,并且在频繁施加脉冲时使电阻值变化较大,则这可以用于学习。进行推理处理的脑形芯片本身可以添加学习处理功能,扩大应用范围。然而,技术障碍很高,因为需要开发一种与所使用的存储材料的电阻变化特性相匹配的学习算法。

利用终极存储元素统一存储和计算

东北大学国际集成电子研究中心 (CIES) 开发了一种非易失性存储器技术,可应用于基于诺依曼的 AI 芯片和基于大脑的芯片,并且适合较低功耗(图 7)。磁隧道结 (MTJ)*10) 这是一种使用类似于仅存储 1 位数据的微型硬盘的存储元件作为 AI 芯片的存储设备的技术。

东北大学开发的MJT设备的结构和工作原理(上)以及在AI芯片中的应用(下)
[图7]东北大学开发的MJT元件的结构和工作原理(上)以及在AI芯片中的应用(下)
来源:以上为东北大学新闻稿,以下根据东北大学资料添加

与相同的非易失性闪存、电阻变化型、相变型等相比,MTJ元件在读/写速度、最大重写次数以及与构成运算单元的CMOS电路的兼容性等方面具有优越性。05n至10n秒的快速写入速度有利于缩短学习内容的更新时间并在边缘侧整合学习功能。最大重写次数为1015次,比可变电阻型的106次高出9位数,适合提高学习次数上限,开发决策更准确的AI芯片。此外,可以在03至04V的低电压下写入数据,因此无需升压即可与逻辑电路一起使用。

该大学还原型设计了一款基于 Neumann 的 AI 芯片,其存储设备由 MJT 元件组成(图 7 底行中的①),从而可以仅激活存储设备中被访问的部分。结果,我们确认可以仅激活所有安装的 MJT 元件的 005%,并仅用 600μW 进行图像识别处理。此外,我们还原型设计了一款脑形芯片,其中作为存储设备的 MTJ 元件分布在运算单元旁边(图 7 下排的(2)),并证明与第一代 AI 芯片相比,可以实现高三个数量级的功率效率和高两个数量级的集成度。

AI 芯片的演变才刚刚开始。在接下来的几十年里,它可能会分阶段变得更加复杂。至于脑形芯片,人脑的结构和工作原理尚未完全阐明,因此只能以牺牲通用性的方式实现。然而,物联网系统和自动驾驶汽车等技术的发展取决于人工智能芯片的演进。

[脚注]

*1诺依曼架构
在诺依曼型体系结构中,通用计算机由五个功能组成:“运算单元”、“存储设备”、“控制设备”、“输入设备”和“输出设备”,以及连接这些功能的数据传输机制。在诺依曼型之前的计算机中,计算程序是通过用电线连接运算单元来指定的,因此每次改变计算程序时都必须重新接线。另一方面,在诺伊曼型中,描述操作步骤的程序被存储在存储装置中,并且程序中的指令从顶部按顺序读出并由运算单元执行。由于可以容易地重写程序,因此可以容易地改变计算过程。世界上第一台诺依曼计算机是 1949 年在英国开发的 EDSAC。现在所谓的诺依曼结构的想法似乎是 ENIAC 的开发者 John Mauchly 和 John Eckert 的作品。然而,由于该报告是以诺伊曼的名义撰写的,他作为顾问参与了开发项目,因此被称为诺伊曼型。
*2TPU
TPU 是 Tensor Processing Unit 的缩写,是 Google 开发的 AI 芯片的名称,专门用于加速 AI 相关处理,尤其是推理处理。
*3
即使使用 Neumann 类型,也可以通过并行执行操作来提高性能。然而,提倡并行性会导致通用性的丧失。正如本系列到目前为止所解释的,许多与人工智能相关的流程可以轻松并行化,因此冯诺依曼瓶颈似乎不会对提高人工智能芯片的性能产生重大影响。然而,仅依靠并行化来提高性能会增加元件和布线的数量,从而难以减小尺寸和降低功耗,这限制了使用范围。
*428nm工艺
为安装在半导体芯片上的微型晶体管制造最小线宽为28 nm的芯片的制造技术称为28 nm工艺。最小线宽越小,大规模电路制造芯片的速度就越快。目前,10nm工艺芯片已经投入实用,并应用于电脑和智能手机中。谷歌的TPU使用的是老一代的技术,另一方面也可以说还有很大的进步空间。
*5
在开发 TrueNorth 之前,IBM 于 2011 年制作了一款具有 256 个神经元和 64,000 或 256,000 个突触的芯片原型。据称,这款原型芯片的规模相当于蚯蚓的大脑。
*6GPU
GPU 是图形处理单元的缩写。具有专用运算单元和专门用于图形处理和图像处理的内部结构的处理器。虽然它不能像微处理器那样有效地处理各种指令,但它具有适合并行处理的内部配置,可以同时对大量数据执行相同的操作。近年来,它们利用其卓越的计算能力被用于科学计算。这种使用 GPU 的方法被特别称为“GP(通用)GPU”。
*7ReRAM
电阻随机存取存储器的缩写。指利用因施加电压而产生的电阻变化的半导体存储器。
*8
相是指物质的状态,例如液体、固体或晶体结构。当相变时,各种物理性质会发生变化。
*9PCM
相变随机存取存储器的缩写。半导体存储器利用了结晶相具有低电阻并且其中晶体结构已经塌陷的非晶相具有高电阻的事实。
*10DLU
磁隧道结的缩写。 MTJ元件是微小的存储元件,具有三层基本结构:磁性层/势垒层/磁性层,每层都非常薄,厚度为几纳米或更小。当两个磁性层的磁化强度彼此平行时,MTJ元件的电阻较低,而当磁化强度反平行时,MTJ元件的电阻较高。通过施加电流,磁性层一侧原子的自旋方向发生改变,从而反转磁性。
作家

伊藤元明(伊藤元明)

光线有限公司代表

在富士通担任 3 年半导体开发工程师,在 Nikkei Micro Devices、Nikkei Electronics、Nikkei BP Semiconductor Research 等公司担任记者/台/主编 12 年新闻工作,在 Techno Associates(Nikkei BP 和三菱商事的合资智囊团)担任顾问 6 年为制造商业务提供支持,以及在日本担任广告制作人 4 年营销支持Nikkei BP 技术信息组的广告部门。

2014年,他独立成立了光线有限公司。该公司提供专门从事技术营销的支持服务,公司考虑并付诸实践如何向目标受众(主要是科技公司)准确传达技术的价值。

网址:http://wwwenlight-inccojp/

我也想读

科学报告

新文章

阅读最多的文章

加载中
加载中
  • 分享!
  • 脸书
  • 推特