回复：k710 gpu的真正频率是999mhz

ARM Gxx系列(Bifrost)的Shader ALU是这样的，1个FMA加1个ADD/SF。每个ALU单元每周期可以做1个MAD+1个ADD，或者1个MUL，或者2个ADD（这是我觉得）。
根据这个，把Shader计算弄成50%的MADD，50%的ADD，能把Mali GPU的ALU拷满，功耗也是上了一个新的台阶，非常喜人
G76 MP10在这种情况下，FP16能跑出1TFLOPS了
反正ADD，MADD+ADD都是很符合理论值的。
FP16方面，单纯的Scalar是不能翻倍的。至少要Vec2才能翻倍，我估计哪儿还是限制在32bit？

bifrost每个ee 128bit fma + 128bit整数加/sfu，这个128bit整数加/sfu能跑浮点加，也能拆成4个fp32。ee之外，每个核心还多三分之一alu，g71、g51、g72每个核心多4个，g76多8个。多出的alu，不是所有运算都会参与。540除了256个madd alu外，还有三分之一左右的mul alu。540和bifrost处理vec3、vec2、scalar效率都还不错，以前那个“adreno的vec2只有vec4八分之一”的说法不攻自破了。想想也应该明白，scalar都能高效处理，vec3和vec2自然不成问题，标量架构全部拆成scalar来算就是了。
snapdragon profiler，realtime能看gpu的一些信息，540跑vec4 madd fp32时alu利用率在92.875%左右，256*2*0.71*0.92875 =337.6192gflops，和332.2gflops差不多。new trace capture连不上app，new snapshot capture里点take snapshot直接把游戏给卡闪退了。

不感兴趣

开通SVIP免广告

不是说挺省电吗

9p我用过一两天，夜拍感觉比xr还好，9p千元机照相都排不上号，可想苹果卖不出去很正常

这个东西以前Anandtech也算过，理论上算出来是按1.5的倍数

假设Bifrost里确实有着ALU三分之一数量的独立运算单元，这部分单元可以跑32位FMUL，这可以解释MUL的操作数是理论值的三分之四倍的问题。考虑到MADD的操作数也是理论值的三分之四，MADD+ADD和ADD的操作数符合理论值，能不能认为Bifrost将一部分MADD计算送入这个单元做MUL，并与第二个stage的ADD/SF完成这个MADD？如果不是使用这部分ADD而是另有单元的话，MADD+ADD的能力将会是六分之七，而且也不好解释为什么这部分单元可以完成从MUL到MADD的中间步骤却不能去参与ADD操作。如此这般在仅执行MADD时，FMA和MUL单元都用满，ADD的占用率在三分之一。而在MADD+ADD 1:1计算的时候，由于FMA与ADD同时用满，即便使用MUL单元ADD也没空做第二步处理，所以并没有什么用。
按这样算出来的结果，G76MP10@720M，95%利用率
MADD 240*0.72*2*4/3*0.95=438
MUL 240*0.72*4/3*0.95=219
ADD 240*0.72*2*0.95=328
MADD+ADD 240*0.72*3*0.95=492
G71MP8@1037M，95%利用率
MADD 96*1.037*2*4/3*0.95=252
MUL 96*1.037*4/3*0.95=126
ADD 96*1.037*2*0.95=189
MADD+ADD 96*1.037*3*0.95=284
是不是差不多？但是以上这些依然没有用满所有单元，如果某些单元真的存在的话。要继续验证，就需要在MADD的基础上用满余下的三分之二ADD，或者在MADD+ADD的基础上用满独立MUL。
也就是需要执行MADD+ADD 2:1，或是MADD+ADD+MUL 3:3:1，理论操作数会是ALU*GHz*10/3，即332G(960)/358G(970)/576G(980)/80G(k710)/96G(P60)，要是有心情可以测一测。
当然，真从理论上讲，这个单元不存在。就算这个单元的存在还可以理解，Adreno里怎么会搞出来三分之一这样的数字呢？不但F32多了三分之一，F16也一样。既然要蒙不如蒙一个能整除的，假设在FMA上跑MUL的利用率和FMA差不多，540得到的性能应该是256*0.71*0.9175=166.77，实际却达到237.4，之间的差值70.63要比256*0.71*1/3=60.58还要大，效率超过1了可还行。需要的规模超过三分之一了，那就二分之一呗。算一下利用率有77.72%，也不怎么美好，我用506@650M测算的结果也一样，那我也没办法了就这样吧。总之我先把结果算出来，按这个二分之一MUL单元的猜想，跑满Adreno需要MADD+MUL 2:1，理论操作数是ALU*GHz*2.5，即454G(540)/104G(512)/69G(509)/52G(506@650M)。实际操作数大约是ALU*GHz*(2*.9175+0.5*.7772)，即404G(540)/92G(512)/61G(509)/46G(506@650M)。MUL效率如果真这么低的话，给的MADD:MUL需要大于2:1了，否则FMA空载。
纸上谈兵，就酱

华为商城官网的麦芒7有写GPU频率，麒麟710 G51mp4真是1GHz

玛丽的这个问题还仅存在于华为的gpu里，三星的还不一样

分别是9810和9820

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

首页上一页 1 2 3
90回复贴，共3页
，跳到页

<<返回wp7吧

分享到:

日	一	二	三	四	五	六