高通吧 关注:181,352贴子:4,697,830
  • 78回复贴,共1

原来安培CUDA规模翻倍是这么一回事。

只看楼主收藏回复

关于这次规模翻倍的问题,在NV社区就有官方回答。大概是这样:
Volta和Turing是每组SM内的FP32和Int32拆分开,每周期每SM可以执行64 FP32 op + 64 INT 32 op。在Ampere中,每组SM中的计算单元分为两条数据通路,一条由16个FP 32 CUDA Unit组成,另一条数据通路由16个 FP32单元和16个 Int32单元组成,所以Ampere的SM中的每个计算单元既可以在每周期内执行32个FP32 op,也可以在每周期内执行16个FP32和16个Int32 op,这样每组SM可以每周期执行128 FP32 op 或者是64 FP32 op + 64 Int 32 op。这次CUDA规模确实是翻倍了,不过同时能够达到的FP32和Int32吞吐其实和图灵相比没变,要么128 FP32 op要么64 FP32 + 64 Int32。现在是有一半的CUDA变回了传统意义上的CUDA。


IP属地:北京来自iPhone客户端1楼2020-09-05 12:00回复
    所以一个SM里其实包含48个CUDA Cores,但是只有32个Cores能同时启用?那么官网上标的CUDA Cores,比如3070有5888个Cores,能同时调用的是3925左右?那比2080Ti 4352个还少点


    IP属地:加拿大3楼2020-09-06 02:54
    收起回复
      2025-07-29 16:24:24
      广告
      不感兴趣
      开通SVIP免广告
      简单的说是不是就是把Tesla A100里面的fp64换成了fp32,在Tesla里面Int32加+fp32+fp64算一个cuda,RTX3080里面一个fp32算一个cuda,这就解释了为什么30系的cuda和单精度浮点性能暴涨,但是游戏性能和单精度性能不完全对等,所以游戏帧数没有理论性能提升那么大,或者不开光追游戏帧率提升更明显?


      IP属地:陕西来自Android客户端5楼2020-09-06 08:20
      收起回复
        这代感觉问题不少,光追性能比预期要低,下代应该有大改


        IP属地:江苏来自Android客户端6楼2020-09-06 12:26
        收起回复
          沒有等比例上升 除了fp32和int32應該還有其他因素
          比如紋理單元就沒有成比例上升 雖然快取加大提高效率 不過得看流程
          還有代碼的並行度


          IP属地:中国台湾7楼2020-09-06 14:03
          收起回复

            直接額外寫一篇好了
            堆一些讀取/寫入的單元確實很好 但隨著數量越大 能效/並行效率會變差 如果可以盡量計算(比如計算固化並強化壓縮、解壓縮)
            因為微縮芯片並不是所有地方等比例微縮
            再加上工藝技術等問題,導致架構必須增加寄存器、SMM單元內的並行性(當然不是盲目堆大)還有L1(甚至設計共享內存 TPC之類)
            堆紋理/光柵(實際上是光柵流程之一的單元 光柵引擎在GPC)
            等於需要大量存取寫入快取如果計算量 但計算強度不變 等於變量很多 單純堆上去存取效率會不好(還要看數據結構設計)
            memory相關的操作代價都很難堆上去 很花晶體管 純堆規模解決不了data movement 的相關效率問題
            所以一直都在想辦法改善單次的效率 還有改進算法(主要是數據結構帶來的存取優化)


            IP属地:中国台湾8楼2020-09-06 17:19
            收起回复