大家知道,Intel GPU多年来的基本模块一直都是“执行单元”(EU),Xe HPG架构上变成了全新的“Xe核心”(Xe Core)。
Xe核心中又包含16个256位矢量引擎(XVE)、16个1024位矩阵引擎(XMX)、192KB共享缓存、载入存储单元等等,其中缓存可以根据工作负载,在一级缓存、共享本地内存(SLM)之间动态分配。
Xe核心的上一层级是渲染切片(Render Slice),每个包含4个Xe核心、4个光追单元、4个纹理采样器、几何前端、光栅前端、HiZ单元、2个像素后端。
渲染切片可以多组结合扩展,Arc显卡最多有8个。
Arc显卡完整支持DX12 Ultimate、Vulkan,并且同时支持DXR光追、Vulkan光追。
这就是Arc显卡完整的内部架构图。
矢量引擎改进了ALU单元,提供专用的FP浮点执行接口,共享的INT/EM整数执行接口,每个时钟周期可以执行16个FP32操作、32个FP16操作、64个INT8操作。
由于AI算法核心几乎完全围绕矩阵乘法、累加算法,所以Xe核心里加入了单独的矩阵引擎,专门用于执行XMX指令。
它具备独立的执行端口,每个时钟周期可以执行128个FP16/BF16操作、256个INT8操作,512个INT4/INT2操作。
【XeSS:化腐朽为神奇的超分辨率缩放】
针对矩阵引擎不同指令的处理操作,Intel也做了详细的解释,我们来简单了解下。
MAC作为图形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以执行8次并行乘法,然后执行8次并行加法,每个时钟周期就是16个操作。
上图最左侧水平方向的前排、后排蓝色方块,就代表操作数,上下的方框则代表累积的源和结果。
DP4a指令是针对不需要32位精度的AI计算所做的优化,工作原理是将所有32位输入分成8位块,然后独立执行,总共32次并行乘法(紫色方块),每个时钟周期就是64个操作,相比标准SIMD MAC提高了4倍。
XMX指令也是每个操作分成4个块,然后独立相乘、累加,共有64个操作,每个时钟周期4个阶段就是256个操作,由此带来16倍的算力提升。
XMX矩阵引擎最直接的作用就是支撑XeSS超采样抗锯齿技术,类似NVIDIA DLSS、AMD FSR,可以通过低分辨率渲染、高分辨率缩放输出,提升游戏性能,并得到类似或超越原生的画质。
XeSS已经得到了十多款游戏的支持,不过目前还不可用,会在今年初夏正式面世。
下边感受一下XeSS在实际游戏中的效果,左侧是1080p原生渲染,右侧是4K XeSS缩放渲染,可以明显看到后者的画面质量高得多,细节也更加丰富、锐利。








