高通吧 关注:183,444贴子:4,845,062

高通oryon架构可能在普通优化水平较低

只看楼主收藏回复

最近看到一些吧友讨论 oryon 芯片spec性能。小白用 gcc14 + -ofast + flto(非常激进优化)测试,高通和苹果芯片在 spec2017 int 上的差距,相比极客湾用 clang14 + -ofast(相对激进优化)的测试结果,看起来相对更小一点
这种相对差距更小的情况,可能是因为弱一些的架构在激进优化和 flto 下收益更明显。我自己用两款苹果芯片做过测试,把 m2 和 m4 用相同系统编译器 -o2(普通优化)和-ofast + flto(非常激进优化)对比,发现 m2 在-ofast + flto下相对提升比 m4 更明显。这说明对弱一些的芯片来说,激进优化和 flto 优化带来的性能提升更大,所以小白测试下 oryon 和 apple m3 的差距看起来相对较小
知乎james 也提到,前代8e的oryon 是他测试过的微架构中,coremark 在-o1(低级优化)和-o2(普通优化)下差异最大的微架构,-o2下性能很好,而-o1下甚至比不上 arm 中核 a715。这说明 oryon 对欠优化的代码耐受性不够,更依赖编译器的优化能力。james认为反映出高通oryon在 load/store 子系统和整体微架构设计上还有提升空间,如果编译器生成的代码不够优化,性能就会下降比较明显
实际手机和电脑里大多数优化都是-o2(普通优化)级别,所以 oryon 和苹果芯片在真实应用中的差距大概率比极客湾测试显示的更大一些
所以如果有感兴趣的吧友,可以在 clang 的情况下用-O2(普通优化)测试一下 oryon 和苹果芯片的差距。这样比较符合安卓和苹果生态,因为手机里大多数应用和系统都是在 clang 编译器下、使用普通优化等级(-O2)生成的,这更接近实际使用场景。看看敢不敢比,就看谁有兴趣亲自动手了


IP属地:澳大利亚来自iPhone客户端1楼2025-09-28 12:34回复
    反过来说,例如说M4和a19这类更强、更完善、微架构设计和子系统更细致的芯片来说,无论普通优化(-O2)还是激进优化(-Ofast + FLTO),性能提升幅度相对较小,因为这些芯片对代码本身的耐受性更高,已经能在低优化等级下发挥出较好的性能


    IP属地:澳大利亚来自iPhone客户端2楼2025-09-28 12:37
    回复
      2025-10-12 10:39:20
      广告
      不感兴趣
      开通SVIP免广告
      知乎james测试文章原话


      IP属地:澳大利亚来自iPhone客户端3楼2025-09-28 13:18
      回复


        IP属地:北京来自iPhone客户端4楼2025-09-28 13:20
        回复
          打个不恰当的比方。gpu中有simd和simt。simt编程简单,更容易跑高分。simd想要达到同样的效果必须得一次性塞进足够多的数据同时计算,否则可能吃不满。(mali在从midgard到bifrost架构时有个配图)


          IP属地:江苏来自Android客户端5楼2025-09-28 13:20
          收起回复
            牢intel表示这我熟啊,打磨编译器以提高spec ipc嘛


            IP属地:上海6楼2025-09-28 13:23
            收起回复
              高通一贯就是这样,包括他的 GPU 也是,高情商优化空间足够,按13话说有打磨的空间


              IP属地:江苏8楼2025-09-28 14:05
              收起回复
                再配上安卓一贯的白名单制度,实际还要打折,也就是现在性能溢出了,2500 和3500没啥区别


                IP属地:江苏9楼2025-09-28 14:07
                回复
                  2025-10-12 10:33:20
                  广告
                  不感兴趣
                  开通SVIP免广告
                  APP开发者只需要打包APK分发到应用商店就行了,高通刷分要考虑的就很多了


                  IP属地:山东来自Android客户端10楼2025-09-28 15:09
                  回复
                    高通是这样的,无论cpu还是gpu,都是应试教育架构


                    IP属地:广东来自iPhone客户端11楼2025-09-28 16:35
                    回复
                      deepseek说gb6.1以上用clang16编译,编译参数推测包括-o3 -flto -DNDEBUG -march=native -fomit-frame-pointer,开大力优化。
                      足够健壮的cpu,跑转译时的损耗也更少。


                      IP属地:湖北12楼2025-09-28 17:47
                      收起回复
                        面向跑分设计


                        IP属地:陕西来自手机贴吧13楼2025-09-28 18:03
                        回复
                          所以我是不是可以理解为,高通跑gcc这种已经经过他特别优化过的编译会更好?


                          IP属地:北京来自iPhone客户端14楼2025-09-28 18:05
                          回复
                            单核登顶了


                            IP属地:江苏来自Android客户端15楼2025-09-28 21:04
                            收起回复
                              2025-10-12 10:27:20
                              广告
                              不感兴趣
                              开通SVIP免广告
                              就那个jms去年的推测,按你这逻辑,高通实际使用各种吊打同spec跑分的公版,全局优化是吧,gb5现在都不宣传的玩意也优化是吧?


                              IP属地:四川来自Android客户端16楼2025-09-29 03:15
                              收起回复