有一个关于 NVIDIA 如何从游戏和图形硬件转向主宰 AI 芯片的虚构故事。早在 2010 年,现任 NVIDIA 首席科学家的比尔·达利 (Bill Dally) 与斯坦福大学的前同事、计算机科学家吴恩达 (Andrew Ng) 共进早餐,当时他正在与谷歌合作一个项目。
Ng 在 Google X 实验室从事一个项目,旨在构建一个可以自行学习的神经网络。神经网络在 YouTube 上播放了 1000 万个视频,并学会了如何挑选人脸、身体和猫——但要做到这一点,系统需要数千个 CPU(中央处理单元),即为计算机提供动力的主力处理器。“我说,'我敢打赌我们可以只用几个 GPU 就可以做到,'”Dally 说。GPU(图形处理单元)专门用于处理更密集的工作负载,例如 3D 渲染——这使得它们在为 AI 提供动力方面优于 CPU。
Dally 求助于现在在 NVIDIA 领导深度学习研究的 Bryan Catanzaro,以实现这一目标。他做到了——仅用 12 个 GPU——证明 GPU 提供的并行处理在训练 Ng 的猫识别模型方面比 CPU 更快、更有效。
但卡坦扎罗希望人们知道 NVIDIA 并没有因为那次机会早餐而开始在人工智能方面的努力。事实上,在 2008 年加入 NVIDIA 之前,他还是伯克利分校的研究生时就一直在为 AI 开发 GPU。“NVIDIA 在这个市场上的地位并非偶然,”他说。
现在 NVIDIA 主导了 AI 芯片,这一切的时间和方式似乎并不重要。NVIDIA 由首席执行官黄仁勋于 1993 年与他人共同创立,其主要收入来源仍然是图形和游戏,但在上一个财政年度,其用于数据中心的 GPU 销售额攀升至 67 亿美元。2019 年,前四大云提供商 AWS、谷歌、阿里巴巴和 Azure 中 97.4% 的 AI 加速器实例(用于提高处理速度的硬件)部署了 NVIDIA GPU。Cambrian AI Research 的分析师 Karl Freund 表示,它占据了人工智能算法训练市场“近 100%”的份额。500 强超级计算机中近 70% 使用其 GPU。几乎所有 AI 里程碑都发生在 NVIDIA 硬件上。Ng 的 YouTube cat finder、DeepMind 的棋盘游戏冠军 AlphaGo、OpenAI 的语言预测模型 GPT-3 都在 NVIDIA 硬件上运行。
尽管取得了这样的成功,但卡坦扎罗对 NVIDIA 盲目地从游戏中偶然发现 AI 的持续暗示感到恼火。“我发誓,几乎我读过的每一个故事都讲述了 GPU 恰好在人工智能方面表现出色,而 NVIDIA 通过向新市场出售现有芯片而幸运地获得了暂时的意外收获,很快它们就会被取代由初创公司提供,”Catanzaro 说。“但 10 年来,英伟达在如何进入人工智能市场方面一直非常具有战略意义。”
十年过去了,该市场已经成熟,可以进行颠覆。越来越多的企业开始使用人工智能来理解他们收集的海量数据,而政府则将资金投入深度学习研究以保持领先地位。中美之间的竞争尤为激烈;德勤分析师 Costi Perricos 表示,人工智能将成为各国竞争的“下一种超级大国”。与此同时,深度学习模型的规模和复杂性不断增加,需要更多的计算能力。
OpenAI 的 GPT-3,一个可以写出合理文本段落的深度学习系统,就是一个极端的例子,它由 1750 亿个参数组成,这些参数是构成模型的变量。它的计算成本估计为 460 万美元,此后被具有 1.6 万亿个参数的谷歌语言模型超越。需要更高效的硬件来处理更多参数和更多数据以提高准确性,同时还要防止人工智能成为更大的环境灾难——丹麦研究人员计算出训练 GPT-3 所需的能量可能具有驾驶的碳足迹700,000公里。
我们需要更多的人工智能芯片,我们需要更好的人工智能芯片。虽然 NVIDIA 的早期工作为 GPU 制造商提供了领先优势,但挑战者正在竞相迎头赶上。谷歌于 2015 年开始制造自己的芯片;在 2016 年收购 Annapurna Labs 后,亚马逊去年开始将 Alexa 的大脑转移到自己的 Inferentia 芯片上;百度拥有昆仑,最近估值为 20 亿美元;高通拥有 Cloud AI 100;IBM 正在致力于节能设计。AMD 收购 Xilinx 用于 AI 数据中心工作,Intel 在 2019 年为其 Xeon 数据中心 CPU 添加了 AI 加速;它还收购了两家初创公司,2016 年以 4.08 亿美元收购了 Nervana,2019 年以 20 亿美元收购了 Habana Labs。尚未被抢购的初创公司已经发布了自己的硬件,在过去几年中,Graphcore、SambaNova、Cerebras、Mythic AI 等公司发布或试用了 AI 芯片。
我们仍处于人工智能的早期。那些猫是十年前才算出来的;这些初创公司中的大多数都只有几年的历史。随着智能物联网设备开始机器对机器的革命,随着越来越多的数据流动,所有人都对同一件事有自己的看法:拥有人工智能芯片的未来。
机器学习是一种与众不同的计算工作负载,需要使用不太精确的数字进行大量数***算。传统的高性能计算 (HPC),其中多个系统连接在一起以构建超级计算机来处理复杂的工作负载,例如科学模拟或金融建模,需要高精度数学,如果不是更高,则使用 64 位数字。AI 计算也需要庞大的计算基础设施,但所使用的数学不太精确,数字是 16 位甚至 8 位——类似于 80 年代的超写实图形和像素化游戏之间的区别。人工智能芯片初创公司 Cerebras 的首席执行官安德鲁·费尔德曼 (Andrew Feldman) 表示:“数学大部分都很简单,但有很多。”
AI 芯片是任何经过优化以通过 Google 的 TensorFlow 和 Facebook 的 PyTorch 等编程框架运行机器学习工作负载的处理器。在训练或运行深度学习模型时,AI 芯片不一定会完成所有工作,而是通过快速处理最密集的工作负载来作为加速器运行。例如,NVIDIA 的盒装 AI 系统 DGX A100 使用 8 个自己的 A100 “Ampere” GPU 作为加速器,但还配备了 128 核 AMD CPU。
AI 并不新鲜,但我们以前缺乏使深度学习模型成为可能的计算能力,让研究人员等待硬件赶上他们的想法。“GPU 的出现打开了大门,”另一家制造 AI 芯片的初创公司 SambaNova 的联合创始人兼首席执行官 Rodrigo Liang 说。
2012 年,多伦多大学的研究人员 Alex Krizhevsky 在一年一度的 ImageNet 计算机视觉挑战赛中击败了其他竞争对手,该挑战赛让研究人员相互竞争以开发可以识别图像或其中物体的算法。Krizhevsky 首次使用由 GPU 驱动的深度学习来击败手工编码的工作。到 2015 年,ImageNet 比赛的所有顶级成绩都使用 GPU。
深度学习研究爆炸式增长。提供 20 倍或更多的性能提升,NVIDIA 的技术运作良好,以至于当英国芯片初创公司 Graphcore 的联合创始人开店时,他们无法与投资者会面。“我们从风投那里听到的是:'什么是人工智能?'”联合创始人兼首席技术官 Simon Knowles 回忆起 2015 年去加利福尼亚寻求资金的旅行时说。“这真的很令人惊讶。” 几个月后,也就是 2016 年初,一切都变了。“然后,每个人都热衷于人工智能,”诺尔斯说。“然而,他们对薯条并不感冒。” 新的芯片架构被认为没有必要;NVIDIA 涵盖了该行业。
但是,在 2016 年 5 月,谷歌改变了一切,Cerebras 的费尔德曼称之为“虚张声势的战略决策”,宣布它已经为人工智能应用开发了自己的芯片。这些被称为张量处理单元 (TPU),旨在与公司的 TensorFlow 机器学习编程框架配合使用。诺尔斯表示,此举向投资者发出了一个信号,即新处理器设计可能存在市场。“突然间,所有的风投都在想:那些疯狂的英国人在哪里?” 他说。从那时起,Graphcore 已经筹集了 7.1 亿美元(5.15 亿英镑)。
英伟达的竞争对手辩称,GPU 是为图形而不是机器学习而设计的,尽管其强大的处理能力意味着它们在人工智能任务方面比 CPU 更好,但由于精心优化和复杂的软件层,它们的市场主导地位仅持续了这么长时间。“NVIDIA 在隐藏 GPU 的复杂性方面做得非常出色,”Graphcore 联合创始人兼首席执行官 Nigel Toon 说。“它之所以有效,是因为他们创建的软件库、框架和允许隐藏复杂性的优化。NVIDIA 在那里承担了一项非常繁重的工作。”
但是忘记 GPU,争论是这样的,你可能会从头开始设计一个具有全新架构的 AI 芯片。有很多可供选择。Google 的 TPU 是专用集成电路 (ASIC),专为特定工作负载而设计;Cerebras 制造了一个晶圆级引擎,这是一个比任何其他芯片大 56 倍的庞然大物;IBM 和 BrainChip 以人脑为模型制造神经形态芯片;Mythic 和 Graphcore 都制造了智能处理单元 (IPU),尽管它们的设计有所不同。还有很多。
但 Cantazaro 认为,许多芯片只是 AI 加速器的变体——任何能提升 AI 的硬件的名称。“我们谈论 GPU、TPU 或 IPU 或其他任何东西,但人们对这些字母过于执着,”他说。“我们之所以称 GPU 是因为我们所做的事情的历史……但 GPU 一直是关于加速计算的,人们关心的工作负载的性质在不断变化。”
任何人都可以竞争吗?NVIDIA 在核心基准测试 MLPerf 中占主导地位,MLPerf 是深度学习芯片的黄金标准,尽管基准测试是棘手的野兽。Cambrian AI Research 的分析师 Karl Freund 指出,MLPerf 是一种由包括谷歌在内的学术界和行业参与者设计的基准测试工具,目前由谷歌和英伟达主导,但初创公司通常不会费心完成所有工作,因为建立一个系统最好花在别处。
英伟达确实很麻烦——而且每年都超过谷歌的 TPU。“谷歌发明了 MLPerf 来展示他们的 TPU 有多好,”英伟达解决方案架构和工程负责人 Marc Hamilton 说。只是比 TPU 快一点。”
为了确保它在一个版本的基准测试中名列前茅,NVIDIA 将一台内部超级计算机从 36 个 DGX 盒升级到了惊人的 96 个。这需要重新布线整个系统。为了足够快地做到这一点,他们简单地切断了电缆——汉密尔顿说这是价值约一百万美元的套件——并运送了新设备。这可能有助于突出基准驱动的疯狂行为,但它也激发了重新设计DGX 的:当前一代块现在可以组合成 20 个组,无需任何重新布线。
在基准测试和超级计算机方面,您可以随时添加更多芯片。但对于 AI 计算的另一面——边缘推理——这是一个不同的故事。
英伟达在 2020 年欲以 400 亿美元的价格收购 ARM,这家英国芯片设计公司的架构为全球 95% 的智能手机提供支持,这引起了全世界的关注。但反应并不完全是积极的。ARM 联合创始人 Hermann Hauser 不再在公司工作,但仍保留股份,他称这是一场“灾难”,可能会破坏 ARM 在市场上的中立性。世界各地的监管机构——欧盟、英国、中国和美国——正在密切研究该交易。
ARM 设计芯片,将知识产权授权给公司以供其使用。如果 AI 芯片制造商需要用于系统的 CPU,他们可以从 ARM 获得芯片设计许可,并按照他们的规格制造。竞争对手担心英伟达控制 ARM 可能会限制这些合作伙伴关系,尽管黄“明确”表示英伟达会尊重 ARM 的开放模式。据报道,英国政府正在考虑对国家安全的任何影响,尽管 ARM 目前归日本软银所有,而且中国担心 ARM 归一家美国公司所有,这可能意味着其设计在现有限制下被禁止出口到列入黑名单的中国公司。
ARM 是将深度学习应用于现实世界的芯片的主要设计者——所谓的边缘推理。这意味着这笔交易可能会对市场形态产生巨大影响;在 ARM 的帮助下,NVIDIA 可以凭借其 GPU 和边缘优势在数据中心领域占据主导地位。
什么是边缘推理?NVIDIA 强大、高性能的系统会处理数据以训练和应用模型,但还有另一种 AI 工作负载称为推理,这是使用经过训练的模型然后解释某些东西的更轻量级的任务——例如无人驾驶汽车理解什么它的相机可以看到,一个智能手机应用程序会发现你的脸的边缘,将猫耳朵贴在你的***照上,或者一个医学成像模型在扫描中发现癌症的迹象。由于需要大量的计算能力,训练是在数据中心完成的,但推理可以在两个地方找到。
第一个也在数据中心:当你向 Alexa 或 Siri 提问时,它会被发送回亚马逊和苹果的服务器进行转录和回复。第二个推理发生在终端用户设备中,例如相机、汽车和智能手机——这被称为边缘计算。这需要较少的处理能力,但需要快速(没有人愿意等待他们的无人驾驶汽车思考后再决定是否刹车)。
英伟达目前在数据中心方面占据主导地位。它的 A100 处理用于训练的数据,而推理被虚拟化为更小的微型服务器,允许在同一硬件上同时发生 50 个或更多推理工作负载。这对于像 AWS 这样提供 AI 即服务的科技巨头很有帮助,因为多家公司可以使用相同的硬件而没有数据泄露的风险。在边缘,NVIDIA 拥有用于无人驾驶汽车的 DRIVE 和用于现场推理的 EGX,但低功耗芯片并不是它的传统专长——如果你曾经使用过游戏笔记本电脑,你会注意到它需要插入电源比 Chromebook 更频繁。低功耗芯片是ARM的领域,这也是英伟达斥资400亿美元收购该公司的原因。
谈到人工智能,ARM 的努力主要集中在两个领域。首先,它正在将软件框架安装到其现有的 CPU 上。对于更密集的工作负载,它开发了一种称为 Ethos 的神经处理单元 (NPU),用作加速器。ARM 的 IP 产品部总裁 Rene Haas 表示,使用 Ethos-U55 的设备应该很快就会到货,因为获得该设计许可的公司已经生产了芯片。
有了边缘人工智能,语音助手将不再需要将语音上传到 AWS 或 Apple 服务器进行处理,而是可以根据本地智能做出响应。“它允许工作在靠近源头的地方完成,这在很多方面都有助于提高效率,”Haas 说,并指出将数据来回发送到云会消耗电池电量。
NVIDIA 欧洲、中东和非洲地区副总裁戴维·霍根 (David Hogan) 表示:“我们谈论物联网已经很长时间了,但直到现在才实现这一愿景。” “正是这种转变是我们收购 ARM 计划的核心。”
NVIDIA 的乐高式系统使构建变得更加容易。八个 A100 芯片构成了它称为 DGX 的计算系统的核心——这与运行笔记本电脑的英特尔或 AMD 芯片之间的关系相同。DGX 售价 199,000 美元,是一台完整的 AI 计算机,具有内存和网络以及其他所有功能,设计为相对即插即用。Cambridge-1 由成排的金盒子组成,每组 20 个 DGX,称为 SuperPod。
汉密尔顿说,Cambridge-1 将成为英国最大、最强大的人工智能超级计算机,在世界上排名第 30 位(尽管排名可能会发生变化)——但它只会是 NVIDIA 自己的集合中的第五大。Cambridge-1 使用 80 个 DGX A100 盒子建造,而最大的 Selene 则使用 560 个盒子。
英伟达在英国建造 Cambridge-1 的部分原因是收购ARM,因为收购意味着该公司在英国获得了员工。虽然它不是整体最快的,也不是最大的,但剑桥 1 号声称拥有两个第一。汉密尔顿称其为世界上第一台云原生超级计算机,因为它具有类似于 AWS 的分区功能,让公司可以使用相同的硬件而不会出现安全漏洞或数据泄露的风险。这让 Cambridge-1 有了第二个第一:这是 NVIDIA 将向外部合作伙伴开放的唯一超级计算机,让大学和医疗保健巨头 AstraZeneca、Oxford Nanopore 和 GSK 运行自己的深度学习模型。
为什么英伟达要建造自己的超级计算机?原因之一是它需要玩具来吸引最优秀的人。早在 2016 年,NVIDIA 还没有超级计算机,Facebook 和 Google 正在抢购最优秀的 AI 研究人员。“这不是因为他们付给他们更多,”汉密尔顿说。“这是因为谷歌和 Facebook 拥有数以千计的 GPU 用于开展业务,并且让他们的 AI 研究人员可以使用这些 GPU。”
现在,NVIDIA 的超级计算机 Selene 是世界第五大计算机,仅次于日本一台、中国一台和美国政府拥有的两台。汉密尔顿说,这意味着如果你是一名想要获得最快 AI 硬件的研究人员,你可以为中国、美国或 NVIDIA 工作。中国的目标是到 2030 年成为人工智能的全球领导者,而美国则希望保持其技术领先地位;在人工智能方面已经存在紧张局势,但最近两国之间的贸易战可能会将其变成一场军备竞赛。作为一家美国公司,NVIDIA 并没有完全避免此类问题。
Cantazaro 的 40 人实验室的研究人员开发了可在 NVIDIA 自己的系统中使用的 AI,但该实验室还充当系统架构师的“玻璃容器”,可以窥探未来深度学习模型的工作方式。“如果你想为未来制造芯片,你希望它对未来有用,你必须有能力预测未来最重要的工作负载是什么——它们在计算上是什么样子,”坎塔扎罗说。“如果你搞砸了,你就制造了错误的芯片。” 芯片的设计和制造需要数年时间,因此这种远见是必要的。
如果开发的模型不再在 GPU 上运行,或者至少不能在 GPU 上运行,会发生什么?NVIDIA 的 Dally 承认这是一种可能性,但由于大多数研究人员都在研究 GPU,他认为这不太可能。“在新模型起飞之前,我们通常已经听说过它,并有机会对其进行测试并确保它在我们的 GPU 上运行良好,”他说。
其他人不同意 - 并认为 GPU 可能会阻碍深度学习模型发挥其全部潜力。“每个人都将他们的模型用于当今的技术,”Cerebras 的 Feldman 说。“我们最高兴和最兴奋的事情之一是一群正在编写全新模型的客户。” 他说今年 Cerebras 将展示它所谓的“GPU 不可能完成的工作”的例子——在 GPU 上根本无法完成的工作。
Graphcore 的 Toon 说,研究人员早就告诉他,今天的硬件阻碍了他们。他的搭档诺尔斯将其比作奥威尔的新话,简单的语言可以防止人们思考更复杂的想法。“有一些想法,例如概率机器学习,仍然受到阻碍,因为像 GPU 这样的今天的硬件不允许它继续前进,”Toon 说。“比赛将是 NVIDIA 能够以多快的速度发展 GPU,还是会推出新的东西来实现这一点?”
麻省理工学院计算机科学和人工智能实验室的研究员尼尔·汤普森 (Neil Thompson) 注意到研究人员在人工智能会议上的一种趋势,暗示计算限制阻碍了他们的模型,限制了他们的选择和数据集,并迫使一些人在工作中留下错误,因为他们无法负担不起重新运行模型来解决问题。“它真的很普遍,如果我们要像迄今为止一样实践它,这对于深度学习的未来来说是一个非常大的问题,”他说。
Thompson 及其同事分析了 1,058 篇 AI 论文,发现机器学习的计算需求远远超过硬件改进或模型训练效率。在这条道路上,系统有朝一日将花费数亿甚至数十亿美元来训练——并且还有其他成本。“使用更多 GPU 的问题在于,每次 GPU 数量增加一倍,成本就会增加一倍,环境足迹、碳和污染也会增加一倍,”汤普森说。
他认为,仅靠硬件解决方案——无论是来自 NVIDIA 还是挑战者——都不足以阻止人工智能创新陷入困境。相反,我们需要构建更高效的模型并更好地利用我们已有的模型。诸如稀疏性之类的想法——忽略数据集中的零以节省计算——可以提供帮助,因为对数据更加有条不紊,只将其与相关参数进行比较。另一个想法是将我们从模型中学到的东西提炼成更轻量级的方程,只运行模型的相关部分而不是大量的通用部分。
如果没有这样的努力,我们将需要更大的数据中心。但人工智能不应该仅限于那些买得起超级计算机的人。汤普森说,“计算机能力较低的大学已经成为从事高端深度学习工作的大学的一小部分”。“能玩游戏的人还是不少的,但是随着计算负担的增加,玩家的数量越来越少。我们已经到了一些人被排除在外的地步。”
可以削减成本,这可能是初创公司赢得客户对抗现有企业的一种方式。AWS 去年将 Habana Labs 的芯片添加到其云中,称这位英特尔拥有的以色列设计师的运行成本降低了 40%。Habana Labs 首席商务官 Eitan Medina 表示:“为了让 AI 惠及所有人,而不仅仅是富人,你真的需要提高性价比。”
AI 已经存在偏见问题,而对硬件的不平等访问加剧了这一问题。“这意味着我们只会看到硬币的一面,”NVIDIA 新兴领域负责人 Kate Kallot 说。“如果你不考虑世界上的大部分人口……我们将如何解决世界各地的挑战?” 她指出联合国的可持续发展目标:许多人工智能研究人员正在将他们的工作转向解决贫困和气候危机等挑战,但这些问题将在很大程度上影响新兴市场。
还有其他挑战要添加到组合中。大流行期间处理器的制造受到限制,而去年中美之间的贸易摩擦引发了人们对全球芯片工厂主要在亚洲的担忧,欧盟最近承诺到 2030 年生产全球五分之一的高端芯片. 芯片设计师主要将制造外包——NVIDIA 是由台湾台积电制造的——尽管英特尔有自己的代工厂。今年 3 月,英特尔宣布计划在美国开设两家新工厂,首次为外部设计人员生产芯片,或许可以让美国在制造方面拥有更多控制权。
随着这些障碍的克服和芯片的不断发展,人工智能将扩展到触及所有事物,类似于连接的浪潮,看到 Wi-Fi 支持和应用程序添加到从烤面包机到冰箱的物体上。但在未来,智能不仅意味着连接互联网,还意味着嵌入人工智能。“它将无处不在,”ARM 的 Haas 说。“在未来几年内,它将在每一个计算应用程序中无处不在。”