ARM Gxx系列(Bifrost)的Shader ALU是这样的,1个FMA加1个ADD/SF。每个ALU单元每周期可以做1个MAD+1个ADD,或者1个MUL,或者2个ADD(这是我觉得)。
根据这个,把Shader计算弄成50%的MADD,50%的ADD,能把Mali GPU的ALU拷满,功耗也是上了一个新的台阶,非常喜人
G76 MP10在这种情况下,FP16能跑出1TFLOPS了
反正ADD,MADD+ADD都是很符合理论值的。
FP16方面,单纯的Scalar是不能翻倍的。至少要Vec2才能翻倍,我估计哪儿还是限制在32bit?



根据这个,把Shader计算弄成50%的MADD,50%的ADD,能把Mali GPU的ALU拷满,功耗也是上了一个新的台阶,非常喜人
G76 MP10在这种情况下,FP16能跑出1TFLOPS了
反正ADD,MADD+ADD都是很符合理论值的。
FP16方面,单纯的Scalar是不能翻倍的。至少要Vec2才能翻倍,我估计哪儿还是限制在32bit?






拉尼亚凯亚








