网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月30日漏签0天
wp7吧 关注:864,829贴子:68,114,317
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 首页 上一页 1 2 3
  • 90回复贴,共3页
  • ,跳到 页  
<<返回wp7吧
>0< 加载中...

回复:k710 gpu的真正频率是999mhz

  • 只看楼主
  • 收藏

  • 回复
  • ioncannon
  • 霸气外露
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
ARM Gxx系列(Bifrost)的Shader ALU是这样的,1个FMA加1个ADD/SF。每个ALU单元每周期可以做1个MAD+1个ADD,或者1个MUL,或者2个ADD(这是我觉得)。
根据这个,把Shader计算弄成50%的MADD,50%的ADD,能把Mali GPU的ALU拷满,功耗也是上了一个新的台阶,非常喜人
G76 MP10在这种情况下,FP16能跑出1TFLOPS了
反正ADD,MADD+ADD都是很符合理论值的。
FP16方面,单纯的Scalar是不能翻倍的。至少要Vec2才能翻倍,我估计哪儿还是限制在32bit?




  • zhu3536
  • 虎躯一震
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


bifrost每个ee 128bit fma + 128bit整数加/sfu,这个128bit整数加/sfu能跑浮点加,也能拆成4个fp32。ee之外,每个核心还多三分之一alu,g71、g51、g72每个核心多4个,g76多8个。多出的alu,不是所有运算都会参与。540除了256个madd alu外,还有三分之一左右的mul alu。540和bifrost处理vec3、vec2、scalar效率都还不错,以前那个“adreno的vec2只有vec4八分之一”的说法不攻自破了。想想也应该明白,scalar都能高效处理,vec3和vec2自然不成问题,标量架构全部拆成scalar来算就是了。
snapdragon profiler,realtime能看gpu的一些信息,540跑vec4 madd fp32时alu利用率在92.875%左右,256*2*0.71*0.92875 =337.6192gflops,和332.2gflops差不多 。new trace capture连不上app,new snapshot capture里点take snapshot直接把游戏给卡闪退了。


2026-05-30 20:55:35
广告
不感兴趣
开通SVIP免广告
  • 拉尼亚凯亚
  • 霸气外露
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
不是说挺省电吗


  • 思考猫生
  • 鸭梨山大
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
9p我用过一两天,夜拍感觉比xr还好,9p千元机照相都排不上号,可想苹果卖不出去很正常


  • 3rd仰望星空
  • 1L喂熊
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这个东西以前Anandtech也算过,理论上算出来是按1.5的倍数


  • 3rd仰望星空
  • 1L喂熊
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
假设Bifrost里确实有着ALU三分之一数量的独立运算单元,这部分单元可以跑32位FMUL,这可以解释MUL的操作数是理论值的三分之四倍的问题。考虑到MADD的操作数也是理论值的三分之四,MADD+ADD和ADD的操作数符合理论值,能不能认为Bifrost将一部分MADD计算送入这个单元做MUL,并与第二个stage的ADD/SF完成这个MADD?如果不是使用这部分ADD而是另有单元的话,MADD+ADD的能力将会是六分之七,而且也不好解释为什么这部分单元可以完成从MUL到MADD的中间步骤却不能去参与ADD操作。如此这般在仅执行MADD时,FMA和MUL单元都用满,ADD的占用率在三分之一。而在MADD+ADD 1:1计算的时候,由于FMA与ADD同时用满,即便使用MUL单元ADD也没空做第二步处理,所以并没有什么用。
按这样算出来的结果,G76MP10@720M,95%利用率
MADD 240*0.72*2*4/3*0.95=438
MUL 240*0.72*4/3*0.95=219
ADD 240*0.72*2*0.95=328
MADD+ADD 240*0.72*3*0.95=492
G71MP8@1037M,95%利用率
MADD 96*1.037*2*4/3*0.95=252
MUL 96*1.037*4/3*0.95=126
ADD 96*1.037*2*0.95=189
MADD+ADD 96*1.037*3*0.95=284
是不是差不多?但是以上这些依然没有用满所有单元,如果某些单元真的存在的话 。要继续验证,就需要在MADD的基础上用满余下的三分之二ADD,或者在MADD+ADD的基础上用满独立MUL。
也就是需要执行MADD+ADD 2:1,或是MADD+ADD+MUL 3:3:1,理论操作数会是ALU*GHz*10/3,即332G(960)/358G(970)/576G(980)/80G(k710)/96G(P60),要是有心情可以测一测。
当然,真从理论上讲,这个单元不存在。就算这个单元的存在还可以理解,Adreno里怎么会搞出来三分之一这样的数字呢?不但F32多了三分之一,F16也一样。既然要蒙不如蒙一个能整除的,假设在FMA上跑MUL的利用率和FMA差不多,540得到的性能应该是256*0.71*0.9175=166.77,实际却达到237.4,之间的差值70.63要比256*0.71*1/3=60.58还要大,效率超过1了可还行。需要的规模超过三分之一了,那就二分之一呗。算一下利用率有77.72%,也不怎么美好,我用506@650M测算的结果也一样,那我也没办法了就这样吧。总之我先把结果算出来,按这个二分之一MUL单元的猜想,跑满Adreno需要MADD+MUL 2:1,理论操作数是ALU*GHz*2.5,即454G(540)/104G(512)/69G(509)/52G(506@650M)。实际操作数大约是ALU*GHz*(2*.9175+0.5*.7772),即404G(540)/92G(512)/61G(509)/46G(506@650M)。MUL效率如果真这么低的话,给的MADD:MUL需要大于2:1了,否则FMA空载。
纸上谈兵,就酱


  • 数码爱好者
  • 1L喂熊
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
华为商城官网的麦芒7有写GPU频率,麒麟710 G51mp4真是1GHz


  • 暂时就叫这名了
  • 虎躯一震
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
玛丽的这个问题还仅存在于华为的gpu里,三星的还不一样
分别是9810和9820



登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 首页 上一页 1 2 3
  • 90回复贴,共3页
  • ,跳到 页  
<<返回wp7吧
分享到:
©2026 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示