高通吧 关注:185,632贴子:5,004,645

关于麒麟和联发科的第一代valhall架构GPU们@qq81

只看楼主收藏回复

关于麒麟和联发科的第一代valhall架构GPU们
@小白狼灰色 又很强地在实体店测了天玑800的gfxbench 曼哈顿3.1离屏的结果为
g57 MC4@ 748MHz为35fps/1.8w
对比
麒麟810的g52 2EE MC6@ 820MHz为34fps/2.5w
高通765g的adreno620为35fps/2w
天玑800这个成绩更优。
而时至今日玛丽valhall架构已经有多家多个平台采用了,这里拉一起对比一下。
下面这个表本来只是为了看天玑800的,后来越扩越大,所有加粗的项目并不明确,可以直接跳过。
实测最多的就是麒麟985/820和天玑1000L三项,非常完整。
所以以此为基础,讨论以下几个事实问题。


IP属地:重庆来自Android客户端1楼2020-05-08 02:17回复
    第二


    IP属地:浙江来自Android客户端3楼2020-05-08 02:31
    回复
      2026-01-19 11:34:51
      广告
      不感兴趣
      开通SVIP免广告
      首先是天玑800的实测结果,他选择的是0.1s一刷新,理论上会增加一点功率不过影响不大,空载段确实太短了,我也是按照其中最低值算的。
      整机功率2.27w,空载0.47w


      IP属地:重庆来自Android客户端4楼2020-05-08 02:43
      回复
        然后是之前就有人争论,在看到820/985的dieshot后可以明确,natt G57和trym G77就是同架构,屏蔽核心而来。


        IP属地:重庆来自Android客户端5楼2020-05-08 02:47
        回复
          回顾下Valhall架构本身,对比Bifrost(G76/G52),关于经常测试的烤机、gfxbench以及后面会扯到的相关问题:
          在bifrost中,一个ip核心作为处理单元,有3个执行引擎(G76/G52 3EE),每个EE中有8宽smid,也就是说一个G76/G52 3EE核心有3*8=24alu;比如麒麟990 G76MC16就有16*24=384alu;MTK G70的G52 3EE则有24*2=48alu;

          所有G76都是3EE的,但G52除了3EE也有低规格的2EE版,此时每个核心就只有2*8=16alu,所以如麒麟810上的G52 2EE,就有6*16=96alu。
          炮神烤机gpugflops里烤GPU单精度的madd时候就是这部分alu做功。
          G57/77用的新valhall架构中,一个核心有两个作为处理单元的cluster,可以把一个cluster看做一个EE(以期相对3EE的bifrost提高效率),每个cluste中有16宽的FMA,也就是说一个G57/77核心有2*16=32alu,比如麒麟820的g57mc6就有6*32=192alu;麒麟985的G77mc8就有8*32=256alu
          TMU纹理单元也有变化,相比G77/G52的吞吐量再次翻倍达到4texels/clock。但是像素吞吐量没变,也就是说texel:pixel从过去的1:1变为2:1。上面说了alu增加了3分之1,所以单个核心的alu:texel比例也变了,arm称这是随新时代下对GPU负载变化而做出的改变。


          IP属地:重庆6楼2020-05-08 03:46
          收起回复
            麒麟的G57/G77是阉割的“2EE版”云云/麒麟985的GPU是不是运行在804MHz,这其实是同一个关于规格的问题。频率其实都是从bugreport里读出来的基本不可能出错,也可以通过以下几个方面验证。
            1.烤机,几个实测了的SoC平台的GPU的alu规格我们是知道的,烤gpu(单精度madd)理论值是可以算出来的
            麒麟985-G77mc8@ 804MHz:8*32*0.804*2=411.648Gflops
            麒麟820-G57mc6@ 804MHz:6*32*0.804*2=308.736Gflops
            天玑1000L-G77mc7@ 695MHz:7*32*0.695*2=311.36Gflops
            都用gpugflops2.1.1版本烤的话玛丽效率一般在95-97%之间,性能模式下实测结果如图

            可见符合理论推算值,效率在96%左右。
            2.gfxbench的低水平测试中的算术逻辑单元2离屏测试
            如镇楼图所示,不仅麒麟985(167FPS)相比麒麟820(127FPS)提高31%,基本符合985相比820相同频率下33%的规格提升。
            同时按照规格计算985/820/MT6885的IPC,与同架构的天玑1000L相比也是吻合的(当然这个只存在演绎法中的对比不要轻易去跨服打怪,没意义的)
            3.gfxbench的低水平测试中的纹理测试
            同样如镇楼图,麒麟985相比麒麟820提高33%,完全符合985相比820相同频率下33%的规格提升。
            同时我也计算了下实测成绩和理论纹理填充率的效率,vallhall的G57/G77基本就在不到50%的水准,相比之前总结的bifrost还下降了,当然和其理论吞吐翻倍不无关系。
            综上,G77/G57本身也没见得有“3EE”,更别说“2EE阉割版”了;其次从实测看麒麟820和麒麟985的规格都是完整的,相比起同架构天玑1000L也没看到alu、tex上的差异(G52的2EE版就是相比3EE版缺一个执行引擎3分之1的alu,纹理像素吞吐不变的);同时可以看到运行gfxbench等频率都是确定在804MHz。


            IP属地:重庆7楼2020-05-08 04:32
            回复
              相比天玑1000L,麒麟985的GPU规格更大频率更高,但性能一样功耗更大的原因:
              可能有以下几点
              1. 各家对公版IP的驾驭能力不同,拿到的版本也不一定相同;
              2. 2*16bit的lpddr4x@ 2133MHz的内存
              麒麟820和985是同die的,所以都是用的单通道内存,攒过机的大概都有印象,移动端的lpddr4x把32bit分成2个16bit,要说这是“双通道”而双通道(4*16bit)是四通道我也拦不住个人习惯了。而天玑1000L用的4*16bit lpddr4x@ 2133MHz,带宽翻倍;
              所以我一直看985/820顶破天算个中高端跟旗舰不沾边的原因就在于,都知道通道数目是划分定位等级的天然鸿沟...移动端又没有显存,GPU的带宽压力并不小。
              3.镇楼图里,gfxbench里三个基础测试alu和纹理上面都说到了符合规格33%的差距,但是另一个曲面细分还没提,从麒麟985(84fps)和820(83fps)的曲面细分差异来看,很明显瓶颈了。无法确定是不是跟带宽有关,而且这也仅仅是性能瓶颈的一个方面...“带宽限制所以曲面细分瓶颈,所以985的理论性能不如同架构竞品”是很扯的因果错致,还不能这么说。


              IP属地:重庆8楼2020-05-08 04:57
              收起回复


                来自Android客户端9楼2020-05-08 05:20
                回复
                  2026-01-19 11:28:51
                  广告
                  不感兴趣
                  开通SVIP免广告
                  单通道内存(2*16bit)对GPU性能有多大影响?
                  这里先举例另外一组例子,同为G57/77架构的天玑1000L和天玑800,前者为4*16bit的内存,后者与麒麟985/820一样为2*16bit,但二者的规格差异从mc7到mc4,比985/820从mc8到mc6更大,IPC并没有出现麒麟一样的大滑坡。
                  而985在IPC上的这个滑坡,我认为才是带宽瓶颈的体现。
                  可以从天玑1000,D1000L和D800可以看到,扩展规模越大性能曲线(也可以说IPC)下滑得越厉害,当然也和测试的负载差异有关所以这里把aztec和曼哈顿都拉出来了。
                  根据实测结果,在没有带宽明显瓶颈的情况下如D1000L和D800,单双通道并不会有明显影响。
                  巴黎的精品贴中已经测得很详实了,麒麟980的G76mp10在gfxbench曼哈顿3.1离屏55fps左右下约10GB的带宽需求。理论上性能越大带宽压力越大,而新架构特别是移动端有针对性优化则会省带宽。
                  麒麟820上我没看出有明显的带宽瓶颈。


                  IP属地:重庆10楼2020-05-08 06:00
                  收起回复
                    假如麒麟985在双通道内存(4*16bit)下gpu性能可以提高多少?
                    假设其规模扩展下没有ipc下滑,按照麒麟820的ipc满打满算,曼哈顿3.1离屏约63fps。
                    而规模大一个核心且频率接近的天玑1000有81fps,emmmmmmmmmm


                    IP属地:重庆11楼2020-05-08 06:03
                    收起回复
                      。。。没事别熬夜 这些大白天写不好么


                      IP属地:湖北12楼2020-05-08 06:06
                      收起回复
                        是不是有天玑800plus?
                        天玑800确实是一个“系列”,而且联发科也有个G57mc5规格的soc平台...频率未知...
                        天玑800标准版mt6873v的cpu A76@2.0GHz看了下cache大概还是最低配,256KB L1和1m的L3,specint06差不多18.4/1w的样子,但4个同频A76的能效加上GPU表现比比麒麟810,甚至765G随随随便(就是有点孱弱无聊,除非按原计划618就赶到999赛高
                        所以如果其他爆料属实,836MHz的G57mc5确实能做到麒麟820的GPU性能水准;CPU超到2.6GHz大概能达到specint06 23.5,也略高于麒麟820的大核...
                        但如果属实4个同频2.6GHz的A76,我的眼神就像看天玑1000那4个同频2.6GHz的A77一样...充满关怀...


                        IP属地:重庆13楼2020-05-08 06:16
                        收起回复
                          gfxbench测试里天玑作弊没有?
                          anandtech锤过p90等一系列平台在pcmark等测试跑到天玑1000l的水平,至于天玑1000l自己作弊没有我也问了下原作者。


                          IP属地:重庆来自Android客户端14楼2020-05-08 06:28
                          收起回复
                            你好闲啊,同学。


                            15楼2020-05-08 06:38
                            回复
                              2026-01-19 11:22:51
                              广告
                              不感兴趣
                              开通SVIP免广告
                              花了不少功夫啊


                              IP属地:安徽来自iPhone客户端16楼2020-05-08 07:27
                              收起回复