NVIDIA Hopper 架构 GPU 将很快流片

消息称 NVIDIA Hopper 架构 GPU 即将完成流片。
Hopper 的名字来自赫柏，伟大的女程序员，被誉为编译之母。
作为 A100 的后继产品，猜测其顶级核心会命名为GH100，它面向数据中心高性能计算、人工智能等，对应产品应该叫做H100。
它是 NVIDIA 第一次采用MCM多芯封装，内部集成两颗芯片，每个芯片拥有288个SM流式多处理器，相比A100增加多达2.6倍，制造工艺则有望是台积电5nm。

来了，他来了

有网友透露，基于Hopper 架构的GH100，其芯片面积约为1000mm²，这会是迄今最大的GPU，这还是单个计算模块。
考虑到引入MCM 设计，新的顶级计算卡会有两个计算模块。预计面向高性能计算（HPC）会采用标准方案，面向深度学习（DL）会采用巨大独立缓存方案。

有网友根据之前泄露的资料和流传的信息，归纳了基于Hopper 架构的GH100部分细节信息。
GH100将有48MB的L2缓存，相比于Ampere 架构GA100的40MB有所提高，不过相比Ada（Lovelace）架构的旗舰芯片AD102的 96MB 少了一半。
GH100将配置8组GPC，每个GPC配备了9组TPC，每个TPC里有两组SM，若每组SM的CUDA核心配比数量没有发生变化，意味着共有144组SM和18432个CUDA核心。而8组GPC中仅有1组具有3D引擎，其他7组都不会配备。

NVIDIA 发布 Hopper 架构 GPU 核心 GH100，还有基于新核心的加速计算卡 H100、AI 计算系统 DGX H100。
GH100核心采用台积电 4nm工艺，单芯片设计，集成多达800亿个晶体管。完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元)，而每组SM有128个FP32 CUDA核心，总计18432个。
显存支持六颗HBM3或者HBM2e，控制器是12组512-bit，总计位宽6144-bit。Tensor 张量核心来到第四代，共有576个，另有60MB二级缓存。扩展互连支持PCIe 5.0、NVLink第四代，整卡对外总带宽4.9TB/s。

性能方面，FP64/FP32 60TFlops(每秒60万亿次)，FP16 2000TFlops(每秒2000万亿次)，TF32 1000TFlops(每秒1000万亿次)，都三倍于A100，FP8 4000TFlops(每秒4000万亿次)，六倍于A100。

完整的 GH100 芯片具有72组TPC， 144 个 SM，每个 SM 有 128 个 FP32 CUDA 内核，从而在最大配置下产生 18432 个 CUDA 内核。
H100计算卡采用SXM、PCIe 5.0两种形态。
SXM5 版本只开启了66组TPC、132个SM，总计有16896个CUDA核心、528个Tensor核心。
PCIe 5.0 版本只有57组TPC，114个SM，总计有14592个，Tensor核心只有456个。

SXM 版 H100、PCIe 版 H100 性能对比

DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器，拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

性能方面，AI 算力32PFlops(每秒3.2亿亿次)，浮点算力FP64 480TFlops(每秒480万亿次)，FP16 1.6PFlops(每秒1.6千万亿次)，FP8 3.2PFlops(每秒3.2千亿次)，分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

NVIDIA 还设计了全新的 VNLink Swtich 互连系统，可以连接最多32个节点，也就是256颗H100芯片，称之为“DGX POD”。在这套系统内，还有20.5TB HBM3内存，总带宽达768TB/s，AI 性能高达1EFlops(100亿亿亿次每秒)，实现百亿亿次计算。

NVIDIA 把 Grace CPU 处理器、Hopper H100 GPU 核心集成到一张卡上，命名为 Grace Hopper。Grace CPU 基于ARMv9架构指令集设计，72个核心。Hopper GH100 GPU 18432个CUDA核心、576个Tensor核心。两颗芯片并排放置，彼此之间通过NVLink总线进行芯片间通信，带宽达900GB/s。
H100计算卡则只开启了16896个CUDA核心、528个Tensor核心，Grace Hopper 卡上大概也是这个规格。

NVIDIA 还发布了Grace CPU SuperChip，单卡整合两颗Grace CPU，NVLink C2C互连，总计144个核心、396MB缓存、1TB/s LPDDR5X ECC内存，功耗500W。

NVIDIA还发布了 H100 CNX，同时集成H100 GPU、CX-7 SmartNIC 网络芯片，支持PCIe 5.0，最高支持7个多GPU实例并发。

H100 与 A100、V100 规格对比

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
20回复贴，共2页
，跳到页

<<返回终结之谷瀑布吧

分享到:

日	一	二	三	四	五	六