B体育12月6日,谷歌官宣了了全新的多模态大模型 Gemini,包含了三个版本,根据谷歌的基准测试结果,其中的 Gemini Ultra 版本在许多测试中都表现出了“最先进的性能”,甚至在大部分测试中完全击败了 OpenAI 的 GPT-4。
而在Gemini出尽了风头的同时,谷歌还丢出了另一个另一个重磅炸弹——全新的自研芯片TPU v5p,它也是迄今为止功能最强大的 TPU。
根据官方提供的数据,每个 TPU v5p pod 在三维环形拓扑结构中,通过最高带宽的芯片间互联(ICI),以 4,800 Gbps/chip 的速度将 8,960 个芯片组合在一起,与 TPU v4 相比,TPU v5p 的 FLOPS 和高带宽内存(HBM)分别提高了 2 倍和 3 倍。
除此之外,TPU v5p训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 训练嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每个 pod 的总可用 FLOPs 方面的可扩展性也比 TPU v4 高出 4 倍,且每秒浮点运算次数(FLOPS)增加了一倍,单个 pod 中的芯片数量也增加了一倍,大大提高了训练速度的相对性能。
Salesforce 高级研究科学家Erik Nijkamp表示:“我们一直在利用谷歌云TPU v5p对Salesforce的基础模型进行预训练,这些模型将作为专业生产用例的核心引擎,我们看到训练速度有了显著提高。事实上,Cloud TPU v5p 的计算能力是上一代 TPU v4 的 2 倍之多。我们还非常喜欢使用 JAX 从 Cloud TPU v4 到 v5p 的无缝轻松过渡。我们很高兴能通过精确量化训练(AQT)库对 INT8 精确格式的原生支持来优化我们的模型,从而进一步提高速度B体育。”
Lightricks 核心生成式人工智能研究团队负责人 Yoav HaCohen 博士表示:“利用谷歌云 TPU v5p 的卓越性能和充足内存,我们成功地训练了文本到视频的生成模型,而无需将其拆分成单独的进程。这种最佳的硬件利用率大大加快了每个训练周期,使我们能够迅速开展一系列实验。在每次实验中快速训练模型的能力促进了快速迭代,这是我们的研究团队在竞争激烈的生成式人工智能领域的宝贵优势。”
谷歌 DeepMind 和谷歌研究院首席科学家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院观察到使用TPU v5p芯片的LLM训练工作负载的速度比TPU v4代提高了2倍。对 ML 框架(JAX、PyTorch、TensorFlow)和协调工具的强大支持使我们能够在 v5p 上更高效地扩展。有了第二代 SparseCores,我们还发现嵌入式工作负载的性能有了显著提高。TPU 对于我们在 Gemini 等前沿模型上开展最大规模的研究和工程工作至关重要。”
对于谷歌来说,Gemini是应对Open AI的一柄利器,而TPU v5p则是一块敲门砖,用它来垒起一道抵御英伟达GPU的高墙,软件硬件双管齐下,似乎它在AI时代里已处在不败之地。
作为一家科技公司的谷歌,其实早在 2006 年就考虑为神经网络构建专用集成电路 (ASIC),但到了 2013 年,情况变得紧迫了起来,谷歌的科学家们开始意识到,神经网络快速增长的计算需求与数据中心数量存在着不可协调的矛盾。
当时的 Google AI负责人Jeff Dean经过计算后发现,如果有1亿安卓用户每天使用手机语音转文字服务3分钟,其中消耗的算力就是Google所有数据中心总算力的两倍,而全球安卓用户远不止1亿。
数据中心的规模不可能无限制地扩张下去,谷歌也不可能限制用户使用服务的时间,但CPU和GPU都难以满足谷歌的需求:CPU一次只能处理相对来说很少量的任务,GPU在执行单个任务时效率较低,而且所能处理的任务范围更小,自研成了最后的出路。
谷歌立下了一个小目标:针对机器学习这一目的来构建特定领域计算架构(Domain-specific Architecture),还要将深度神经网络推理的总体拥有成本(TCO)降低至原来的十分之一。
通常,ASIC 的开发需要数年时间,但谷歌却仅用了 15 个月就完成了TPU处理器的设计、验证、制造并部署到数据中心。TPU 项目的技术负责人 Norm Jouppi(也是 MIPS 处理器的主要架构师之一)这样描述冲刺阶段:
“我们的芯片设计速度非常快。这确实非常了不起。我们在没有修正错误或更改掩膜的情况下,就开始出货第一个芯片。考虑到我们在构建芯片的同时还在招聘团队,然后招聘 RTL(电路设计)人员,并急于招聘设计验证人员,这一切都非常忙碌。”
代表着谷歌技术结晶的初代TPU 采用了 28 纳米工艺制造,运行频率为 700MHz,运行时功耗为 40W,谷歌将处理器包装成外置加速卡,安装在 SATA 硬盘插槽中,实现即插即用。TPU 通过 PCIe Gen3 x16 总线GB/s 的有效带宽。
与 CPU 和 GPU 相比,单线程 TPU 不具备任何复杂的微架构功能,极简主义是特定领域处理器的优点,谷歌的TPU一次只能运行一项任务:神经网络预测,但每瓦性能却达到了GPU的30倍,CPU的80倍。
谷歌在这件事上表现得非常低调,直到2016年的Google I/O开发者大会上,首席执行官Sundar Pichai才正式向世界展示了TPU这一自研成果。
Pichai对参会的嘉宾表示,DeepMind研发的AlphaGo能够击败韩国棋手李世石,底层硬件里的TPU功不可没,TPU就像希腊神话中引发特洛伊战争的女人——海伦,它的出现引起了“成千芯片与之竞逐”。
但谷歌并未止步于此,几乎是在第一代TPU完成后,就立刻投入到了下一代的开发当中:2017年,TPU v2问世;2018年,TPU v3推出;2021年,TPU v4在Google I/O开发者大会上亮相……
而谷歌对于AI芯片也愈发得心应手:第一代 TPU 仅支持 8 位整数运算,这意味着它能进行推理,但训练却遥不可及;而TPU v2,不仅引入了HBM内存,还支持了浮点运算,从而支持了机器模型的训练和推理;TPU v3则在前一代基础上,重点加强了性能,且部署在 Pod 中的芯片数量翻四倍。
到了TPU v4,Pichai更是骄傲地表示:“AI技术的进步有赖于计算基础设施的支持,而TPU正是Google计算基础设施的重要部分。新一代TPU v4芯片的速度是v3的两倍多。Google用TPU集群构建出Pod超级计算机,单台TPU v4 Pod包含4096块v4芯片,每台Pod的芯片间互连带宽是其他互连技术的10倍,因此,TPU v4 Pod的算力可达1 ExaFLOP,即每秒执行10的18次方浮点运算,相当于1000万台笔记本电脑的总算力。”
到了2023年的今天,TPU已经成为了AI芯片的代名词之一,成为了继CPU和GPU后又一重要的处理器,它部署在谷歌数十座数据中心当中,每天完成着数以亿计的AI计算任务。
2017年的Google Cloud Next 17 大会上,谷歌推出了名为Titan的定制安全芯片,它专为硬件级别的云安全而设计,通过为特定硬件建立加密身份,实现更安全的识别和身份验证,从而防范日益猖獗的BIOS攻击。
Titan芯片面向的并不全是谷歌自己,它的出现是为了说服企业,数据存在谷歌云中比企业的本地数据中心更安全,谷歌表示,自研的Titan芯片通过建立强大的基于硬件的系统身份,来验证系统固件和软件组件,保护启动的过程,这一切得益于谷歌自己创建的硬件逻辑,从根本上减少了硬件后门的可能性,基于Titan的生态系统也确保了设施仅使用授权且可验证的代码,最终让谷歌云拥有了比本地数据中心更安全的可靠性。
Titan的出现,只不过是小试牛刀,2021年3月,谷歌在ASPLOS 会议上首次介绍了一块应用于YouTube服务器的自研芯片,即Argos VCU,它的任务很简单,就是对用户上传的视频进行转码。
根据数据统计,用户每分钟会向YouTube上传超过500小时的各种格式的视频内容,而谷歌则需要将这些内容快速转换成多种分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和各种格式(例如,H.264、VP9或AV1),没有一块具备强大的编码能力的芯片,想要快速转码就是一件不可能的事情。
谷歌尝试过两种解决方案,第一种是英特尔的视觉计算加速器(VCA),包含三个 Xeon E3 CPU,内置 Iris Pro P6300/P580GT4e 集成图形内核和先进的硬件编码器,第二种则是利用英特尔至强处理器外加软件编码来完成任务。
但不论是前者还是后者,都需要庞大的服务器规模和巨额的电力损耗,于是,谷歌开启了又一块自研芯片——VCU的研发。负责监督 YouTube 庞大基础设施的 Google 工程副总裁斯科特·西尔弗 (Scott Silver) 表示,从2015年开始,大约有 100 名 Google 工程师组成的团队投身设计第一代Argos 芯片,在此后几年当中,这支团队不仅完成了研发,还让芯片应用在谷歌的数据中心当中,而Argos的实力也得以展现——它处理视频的效率比传统服务器高 20 到 33 倍,处理高分辨率 4K 视频的时间由几天缩短为数小时。
下一代Argos或许早已悄悄在谷歌服务器中上线了,根据报道,谷歌自研的第二代VCU将支持 AV1、H.264 和 VP9 编解码器,可以进一步提高其编码技术的效率,也将会是YouTube内容创作生态的最有力支撑。
而谷歌最强的大招还得是最复杂的手机SoC。2021年10月19日,一场秋季发布会上,搭载谷歌首款自研芯片 Tensor 的旗舰手机 Pixel 6 系列首次亮相。
谷歌高级副总裁 Rick Osterloh 在发布会上表示,这款芯片是“公司历史上最大的移动硬件创新”,而谷歌CEO Sundar Pichai更是早早地在推特上晒出了Tensor芯片的照片,对于自研项目的自豪感溢于言表。
即便如此,谷歌的自研芯片的布局也已初具雏形,从TPU到Titan,从VCU到Tensor,谷歌走过了十年的旅程,而它试图全盘掌握这个硅片组成帝国的野心也昭然若揭。
对于谷歌来说,要钱有钱,要技术有技术,要应用场景有应用场景B体育,可以说是各大科技巨头中在自研AI芯片这条路上走得最远的,其他厂商目前还在源源不断地给英伟达账户打钱,但谷歌却早已做好了两手准备,不少人甚至将它视为如今英伟达垄断局面的最强挑战者B体育。
与微软和亚马逊相比,谷歌最突出的优势,就是从系统级的角度设计TPU,单个芯片固然重要,但在现实世界中如何在系统中组合使用则更为重要。虽然英伟达也从系统角度思考问题,但他们的系统规模比谷歌更小,范围也更窄。而且谷歌还在 TPU 之间使用了定制的网络堆栈 ICI。与昂贵的以太网和 InfiniBand 部署相比,这种链路延迟低、性能高,类似于英伟达的 NVLink。
事实上,谷歌的 TPUv2 可以扩展到 256 个 TPU 芯片,与英伟达的 H100 GPU 数量相同。在 TPU v3 和 TPU v4 中,这一数字分别增加到了 1024 和 4096个。根据趋势线,而最新的 TPU v5p 则可以扩展到 8960 个芯片,而无需通过低效的以太网。
此外,谷歌在OCS、拓扑结构、DLRM 优化上也具有独到的优势,十年来积攒的经验优势帮助谷歌的TPU在数据中心里和AI大模型中大展身手,在具体应用中,用遥遥领先来形容也不过分,未来谷歌完全摆脱英伟达GPU的掣肘,也并非不可能。
TPU的自研始于2013年,能在15个月里快速部署到数据中心,同时实现快速迭代性能猛增,除了夜以继日的谷歌研究人员外,另外一家公司提供的帮助也极其重要。
根据2020年摩根大通分析师哈兰·苏尔的报告,谷歌TPU v1至v4这几代均是由博通共同设计的,当时它已经开始生产采用7nm 工艺的TPU v4,并开始与谷歌合作设计采用5nm工艺的TPU v5
苏尔表示,博通的专用集成电路(ASIC)业务2020全年收入为 7.5 亿美元,高于 2016 年的 5000 万美元B体育,除了芯片设计之外,博通还为谷歌提供了关键的知识产权,并负责了制造、测试和封装新芯片等步骤,以供应谷歌的新数据中心,博通还与其他客户如Facebook、微软和AT&T等公司合作设计ASIC芯片。
而根据2022年博通的财报,其将 ASIC 收入分为两部分:路由和交换以及计算卸载。计算卸载在数据中心内分两步处理。当提出计算请求时,路由器和交换机会决定由数据中心的哪个部分来处理这项工作。一旦决定,处理器(通常是 CPU 或 GPU,如 Nvidia 设计的处理器)就会进行计算,然后由这些路由器和交换机再次通过互联网或专用网络发送回最终用户。
就收入而言,博通是全球第二大人工智能芯片公司,仅次于英伟达,其ASIC的销售额达数十亿美元,而这正是谷歌为响应微软与 OpenAI 合作而加大 TPU 部署的结果,光是一家谷歌的TPU就让博通的ASIC收入翻了两番还多,谷歌没交给英伟达的人工智能税,以另一种形式进了博通的口袋。
无论是哪家公司,都不会心甘情愿继续交这笔钱的,因而在今年9月就传出了谷歌准备在2027年前结束与博通的合作关系,消息人士称,谷歌高管已经设定了放弃博通的目标,转而开始考虑起了它的竞争对手Marvell,此前两家公司就TPU 芯片的定价问题陷入了长达数月的僵局。
虽然后面谷歌官方又出来辟谣,表示目前没有计划改变与博通的合作关系,但私底下两家不合已经是人尽皆知的事情了。
谷歌在TPU上算了一笔聪明帐,在微软等巨头乖乖交钱的时候,它掏出了TPU v5p来对抗英伟达B体育,但它没想到的是,几年前还不起眼的ASIC合作,如今却成了TPU发展路上最大的一颗绊脚石,只要扩大TPU的部署规模,就得不断加钱给博通。
如此想来,巨头们真的是躲得过初一,躲不过十五,躲过了英伟达GPU高达70%的利润,却躲不过像博通这样的合作公司,微软这些巨头,想要在AI芯片上省钱,今后难免会遇到像谷歌今日一般的困局吧。