原来安培CUDA规模翻倍是这么一回事。【高通吧】

高通吧关注：184,983贴子：4,953,184

78回复贴，共1页

原来安培CUDA规模翻倍是这么一回事。

关于这次规模翻倍的问题，在NV社区就有官方回答。大概是这样：
Volta和Turing是每组SM内的FP32和Int32拆分开，每周期每SM可以执行64 FP32 op + 64 INT 32 op。在Ampere中，每组SM中的计算单元分为两条数据通路，一条由16个FP 32 CUDA Unit组成，另一条数据通路由16个 FP32单元和16个 Int32单元组成，所以Ampere的SM中的每个计算单元既可以在每周期内执行32个FP32 op，也可以在每周期内执行16个FP32和16个Int32 op，这样每组SM可以每周期执行128 FP32 op 或者是64 FP32 op + 64 Int 32 op。这次CUDA规模确实是翻倍了，不过同时能够达到的FP32和Int32吞吐其实和图灵相比没变，要么128 FP32 op要么64 FP32 + 64 Int32。现在是有一半的CUDA变回了传统意义上的CUDA。

送TA礼物

IP属地:北京

来自iPhone客户端1楼2020-09-05 12:00回复

所以一个SM里其实包含48个CUDA Cores，但是只有32个Cores能同时启用？那么官网上标的CUDA Cores，比如3070有5888个Cores，能同时调用的是3925左右？那比2080Ti 4352个还少点

IP属地:加拿大

3楼2020-09-06 02:54

收起回复

不感兴趣

开通SVIP免广告

简单的说是不是就是把Tesla A100里面的fp64换成了fp32，在Tesla里面Int32加+fp32+fp64算一个cuda，RTX3080里面一个fp32算一个cuda，这就解释了为什么30系的cuda和单精度浮点性能暴涨，但是游戏性能和单精度性能不完全对等，所以游戏帧数没有理论性能提升那么大，或者不开光追游戏帧率提升更明显？

IP属地:陕西

来自Android客户端5楼2020-09-06 08:20

收起回复

这代感觉问题不少，光追性能比预期要低，下代应该有大改

IP属地:江苏

来自Android客户端6楼2020-09-06 12:26

收起回复

沒有等比例上升除了fp32和int32應該還有其他因素
比如紋理單元就沒有成比例上升雖然快取加大提高效率不過得看流程
還有代碼的並行度

IP属地:中国台湾

7楼2020-09-06 14:03

收起回复

直接額外寫一篇好了
堆一些讀取/寫入的單元確實很好但隨著數量越大能效/並行效率會變差如果可以盡量計算(比如計算固化並強化壓縮、解壓縮)
因為微縮芯片並不是所有地方等比例微縮
再加上工藝技術等問題，導致架構必須增加寄存器、SMM單元內的並行性(當然不是盲目堆大)還有L1(甚至設計共享內存 TPC之類)
堆紋理/光柵(實際上是光柵流程之一的單元光柵引擎在GPC)
等於需要大量存取寫入快取如果計算量但計算強度不變等於變量很多單純堆上去存取效率會不好(還要看數據結構設計)
memory相關的操作代價都很難堆上去很花晶體管純堆規模解決不了data movement 的相關效率問題
所以一直都在想辦法改善單次的效率還有改進算法(主要是數據結構帶來的存取優化)

IP属地:中国台湾

8楼2020-09-06 17:19

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

78回复贴，共1页

<返回高通吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

原来安培CUDA规模翻倍是这么一回事。

登录百度账号

扫二维码下载贴吧客户端