网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月13日漏签0天
显卡吧 关注:7,837,969贴子:207,310,676
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 1回复贴,共1页
<<返回显卡吧
>0< 加载中...

5090和5090D在深度学习模型上的基准性能测试

  • 取消只看楼主
  • 收藏

  • 回复
  • 莫布兰
  • Vivante
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼



结果看图,黑色是实测,灰色是引用
全部在ubuntu系统测试,5090和5090D的pytorch、cuda、驱动版本一致,5090是B站用户提供的平台,非常感谢
结论:
•5090和 5090D在各种深度学习模型上的性能没有显著差异
•两者在 Swin Transformer上FP32设置下的性能表现显著低于理论性能
•两者在重复调用 nn.Linear类或者 nn.Functional.linear时,性能均出现显著下降
•Pytorch工程师的5090在重复调用nn.Linear时性能显著优于我们测试的5090和5090D
不发表主观看法,大家自己判断


  • 莫布兰
  • Vivante
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
最新消息!通过改变环境变量,可以修复Linear算子问题,在Swin模型基准测试上超过4090约100%,目前已经完全可以确定,在FP32下的训练和推理速度异常是BUG,不是锁!不是硬件锁,也不是软件锁!
结论就是在深度学习常用模型上,FP32和FP16精度下,5090D完全没有性能阉割
FP8和FP4推理已经很多人用FLUX模型测试过了,和5090速度没有显著区别。基于目前的观察,可以判断在FP8和FP4精度下,5090D也完全没有性能阉割!


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1回复贴,共1页
<<返回显卡吧
分享到:
©2026 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示