AWS成为首家在云端装备英伟达GH200 Grace Hopper超级芯片的云服务提供商,同时将在其平台上推出英伟达DGX Cloud NVIDIA AI的“训练即服务”。AWS和英伟达公司将合作推动Project Ceiba,构建全球最快的GPU驱动AI超级计算机
·云计算领域正在经历一场激烈的霸主争夺战,AWS和微软处于这场竞争的最前沿,两者都在定制芯片上下了功夫,也都采取了某种“双管齐下”的思路:既推出自研芯片,也同时提供英伟达最新AI芯片这样的可选项。
太平洋时间11月28日,亚马逊云科技在美国拉斯维加斯举办2023 re:Invent全球大会。 重写后的内容:亚马逊云科技于11月28日在美国拉斯维加斯举办了2023 re:Invent全球大会
在2023 re:Invent全球大会上,亚马逊云科技(Amazon Web Service,AWS)宣布与英伟达扩大战略合作,将联合推出先进的基础设施、软件及服务,以推动客户在生成式AI(Generative AI)方面的创新。这一消息是在太平洋时间11月28日在美国拉斯维加斯发布的
AWS还宣布推出专为训练人工智能系统而设计的第二代芯片Trainium2,以及通用Graviton4处理器。云计算领域正在经历一场激烈的霸主争夺战,AWS和微软处于这场竞争的最前沿,两者都在定制芯片上下了功夫,也都采取了某种“双管齐下”的思路。
首个在云端配备英伟达GH200的公司
亚马逊云科技首席执行官亚当·塞利普斯基(Adam Selipsky)表示,“亚马逊云科技与英伟达合作已经超过13年,我们的合作起源于推出全球首个配置GPU(图形处理器)的云端实例。现在我们推出最广泛的英伟达GPU解决方案,可用于各种工作负载,包括绘图、游戏、HPC高性能计算、机器学习,直到现在的生成式AI。”
黄仁勋,英伟达的创始人兼首席执行官,也身穿标志性的皮衣出现在发布会现场。在与塞利普斯基对话时,他表示:“生成式AI正在改变各种云端负载,为多元内容创作提供加速计算动能。我们的共同目标是为每个客户提供成本效益高的先进生成式AI。为此,英伟达和亚马逊云科技进行全面合作,涵盖AI基础设施、加速库、基础模型以及生成式AI服务。”
双方将英伟达与亚马逊云科技技术优势相结合,为训练基础模型和构建生成式AI应用提供理想环境,具体包含英伟达新一代GPU、CPU(**处理器)与AI软件的最新多节点系统,以及亚马逊云科技的Nitro System先进虚拟化与安全平台、Elastic Fabric Adapter(EFA)互连技术和UltraCluster(超大规模集群)扩展能力。
亚马逊云科技与英伟达此次扩大合作主要包括四个方面:
·亚马逊云科技成为第一家在云端配备英伟达GH200 Grace Hopper超级芯片的云厂商。英伟达GH200 NVL32多节点平台为运用英伟达NVLink与NVSwitch技术连接32个Grace Hopper Superchips组成的实例。此平台将在Amazon Elastic Compute Cloud(Amazon EC2)实例上可用,与亚马逊的网络相连,由虚拟化(Amazon Nitro System)及超大规模集群(Amazon EC2 UltraClusters)提供支持,让共同客户能扩展至数千个GH200超级芯片。
在亚马逊云科技平台上即将推出英伟达DGX Cloud NVIDIA AI“训练即服务(AI-training-as-a-service)”。这项服务将是首个配置GH200 NVL32的DGX Cloud,可为开发者提供具备最大共享内存的单一实例。在亚马逊云科技上运行的DGX Cloud将加速训练具备超过1兆参数的先进生成式AI和大型语言模型
· 英伟达与亚马逊云科技合作推动Project Ceiba,构建全球最快的GPU驱动的AI超级计算机,这是一个配备GH200 NVL32与Amazon EFA互连技术的大规模系统,该系统部署在亚马逊云科技上,为英伟达研发团队提供服务。该超级计算机将前所未有地配置16384颗英伟达H200超级芯片,能处理65 exaflops(衡量超级计算机性能的单位,每秒浮点运算可达一百亿亿次)速度等级的AI运算,英伟达使用该超级计算机推动其全新生成式AI的创新。
Amazon Web Services (AWS)旗下的亚马逊云科技即将推出三种Amazon EC2实例。其中,P5e实例将配置英伟达H200 Tensor Core GPUs,适用于大规模和先进的生成式AI及HPC高性能计算工作负载。G6和G6e实例将分别配置英伟达L4 GPUs和英伟达L40S GPUs,可运行广泛的应用,包括AI微调、推理、绘图和影片工作负载等。G6e实例特别适用于开发3D工作流程、数字孪生和其他使用英伟达Omniverse的应用,用于连接和构建各种生成式AI的3D应用
据塞利普斯基透露,亚马逊云科技正运用英伟达NeMo框架训练新一代大语言模型Amazon Titan。Amazon Robotics也已开始借助英伟达Omniverse Isaac打造数字孪生,在虚拟化环境中推动自主仓库的自动化、优化以及规划,完成之后再部署到真实环境。
最新自研芯片Trainium2和Graviton4
据塞利普斯基介绍,Trainium2的性能是其前身(2020年12月推出的第一代Trainium)的四倍,能源效率是其前身的两倍。10万个Trainium芯片可提供65 exaflops的计算能力,相当于每个芯片可提供650 teraflops(每秒执行一万亿次浮点运算)的计算能力。
AWS表示,由10万个Trainium芯片组成的集群可以在数周而不是数月内训练出3000亿参数的大语言模型,这大约是OpenAI的大语言模型GPT-3大小的1.75倍。
据AWS介绍,初创公司Databricks和OpenAI竞争对手Anthropic计划使用新的Trainium2芯片构建模型。但AWS没有透露AWS客户何时可以使用Trainium2实例,只是表述为“明年某个时候”。
亚马逊云科技计算和网络副总裁大卫·布朗(David Brown)表示,“芯片是用户所有工作负载的基础……Graviton4是我们在短短五年推出的这一系列的第四代,是我们至今功能最强大和最具能效的芯片。”
AWS发布的第二款芯片是基于Arm架构的自研服务器CPU芯片Graviton4,旨在用于推理。据塞利普斯基介绍,与在Amazon EC2上运行的上一代Graviton处理器Graviton3相比,Graviton4的计算性能提高了30%,核心数量增加了50%,内存带宽增加了75%
由Graviton4支持的R8g实例已推出预览版,AWS客户目前已可以开始测试该处理器,该实例计划在未来几个月内全面上市。
云计算领域的主导者所采取的“双管齐下”策略
目前,云计算领域正经历着一场激烈的竞争,AWS和微软位居争夺的前沿。为了在这场竞争中获得优势,这两家巨头都进行了大量的芯片定制投资
定制芯片的本质是为了应对当前生成式人工智能、大型模型的训练和运行所需GPU短缺的情况。据巴伦周刊报道,英伟达最高性能的芯片交付时间已经排到了2024年。为了减少对GPU的依赖,那些有能力承担GPU成本的公司正在研发定制芯片,以用于创建、迭代和产品化大型模型
从微软和AWS两个云计算厂商可以观察到一种“双管齐下”的思路:既推出自研芯片,也同时提供英伟达最新AI芯片这样的可选项。此次亚马逊云科技在推出自己推理训练芯片的同时,也提供对英伟达最新AI芯片H200的访问。11月初,微软也采取了类似的思路,推出了首款人工智能芯片Maia 100,并表示微软云(Azure)将配备英伟达H200 GPU。
此外,还需要注意的是,AWS还展示了他们在量子计算领域的一些最新进展。其中包括最新的量子纠错硬件设计。这种新的架构有望利用更少的超导组件来产生可控的逻辑量子比特,从而为超大规模量子计算机的构建铺平道路