关于这次规模翻倍的问题,在NV社区就有官方回答。大概是这样:
Volta和Turing是每组SM内的FP32和Int32拆分开,每周期每SM可以执行64 FP32 op + 64 INT 32 op。在Ampere中,每组SM中的计算单元分为两条数据通路,一条由16个FP 32 CUDA Unit组成,另一条数据通路由16个 FP32单元和16个 Int32单元组成,所以Ampere的SM中的每个计算单元既可以在每周期内执行32个FP32 op,也可以在每周期内执行16个FP32和16个Int32 op,这样每组SM可以每周期执行128 FP32 op 或者是64 FP32 op + 64 Int 32 op。这次CUDA规模确实是翻倍了,不过同时能够达到的FP32和Int32吞吐其实和图灵相比没变,要么128 FP32 op要么64 FP32 + 64 Int32。现在是有一半的CUDA变回了传统意义上的CUDA。
Volta和Turing是每组SM内的FP32和Int32拆分开,每周期每SM可以执行64 FP32 op + 64 INT 32 op。在Ampere中,每组SM中的计算单元分为两条数据通路,一条由16个FP 32 CUDA Unit组成,另一条数据通路由16个 FP32单元和16个 Int32单元组成,所以Ampere的SM中的每个计算单元既可以在每周期内执行32个FP32 op,也可以在每周期内执行16个FP32和16个Int32 op,这样每组SM可以每周期执行128 FP32 op 或者是64 FP32 op + 64 Int 32 op。这次CUDA规模确实是翻倍了,不过同时能够达到的FP32和Int32吞吐其实和图灵相比没变,要么128 FP32 op要么64 FP32 + 64 Int32。现在是有一半的CUDA变回了传统意义上的CUDA。
