Xe HPC 架构的基础也是Xe核心(Xe Core),但因为面向的是计算而非图形,内部结构有所不同,包括8个512-bit矢量引擎、8个4096-bit矩阵引擎,数量对比Xe HPG都减半,但位宽分别翻了一倍、两倍,算力更凶猛。
矢量引擎每时钟周期可执行256个FP32、256个FP64、512个FP16等数据操作,矩阵引擎则每时钟周期支持2048个FP32、4096个FP64、4096个BF16、8192个INT8。
与矢量引擎、矩阵引擎搭档的,是一个更宽的宽加载/存储单元,每个时钟周期取回512字节数据。每个Xe核心集成512KB一级数据缓存,又称共享内部显存。
