网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月19日漏签0天
中国芯吧 关注:16,664贴子:324,686
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 1 2 下一页 尾页
  • 50回复贴,共2页
  • ,跳到 页  
<<返回中国芯吧
>0< 加载中...

龙芯3A6000、华为鲲鹏920B与Intel各代U GCC14 Spec2017性能比对

  • 只看楼主
  • 收藏

  • 回复
  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
知乎文章中包含各个测试报告地址,详情参考:https://zhuanlan.zhihu.com/p/711617301
前言
本文主要通过比对龙芯3A6000、华为鲲鹏920B(TSV120 2.9Ghz)和Intel各代CPU之间的Spec2017性能评测数据,来综合性判断3A6000、鲲鹏920B实际性能水平。不少龙芯粉丝一直认为GCC12、GCC13优化不足,不能准确测量出3A6000的成绩,因此本文采用ArchLinux+GCC14版本测试各个CPU,当然旧世界因为版本限制只能使用Loongnix+GCC8.3。
本轮测试各跑5组参数:O2、O3、Ofast、Ofast+native+flto、Ofast+native+flto+jemalloc,全部开启256位向量指令,x86开启-mavx2,LoongArch开启-msimd=lasx;
需要注意的是3A6000在march=native或la664参数下(GCC14下这两者等价),会默认使能-msimd=lasx,但在Ofast/O3/O2下-msimd=lasx需要手动开启,否则分数会低0.3分左右,比如GCC14下只开Ofast不加-msimd=lasx intrate1是4.2左右,开Ofast+-msimd=lasx intrate1是4.5左右(图表中的数据是加了-msimd=lasx的,测试报告里面包含了开启256向量和未开启的)。
其次是3A6000测试时,因为有人反馈AOSC跑分会比ArchLinux更高,但是实际验证未发现类似的情况,参数相同的情况下两者分数基本是一致的,详细可以看测试报告。
贴吧中有吧友把3A6000 的2017 intrate1跑到4.86,ArchLinux+GCC14+gfortran静态链接,ArchLinux系统默认是没有gfortran的相关静态库,猜测应该是这位吧友改了编译参数,重新编译了GCC及相关依赖库。此吧友之前ArchLinux+GCC14没有gfortran静态链接的情况下跑分是4.7,和我的4.69极为接近,另外x86也未开启静态链接,如3A6000做调整,意味着x86也需要重测,工作量太大,所以本文测试以4.69作为3A6000 intrate1最终成绩。
参与测试的主要CPU包括:
1、3A6000+2*8 DDR4 3200 新世界ArchLinux+旧世界Loongnix(12700使用的16G单条内存因为兼容性问题无法在6000上开机,因此只能将就2*8G);
2、Intel 2600K + 2*8G DDR3 1600,测了两次:默频3.8Ghz+超频到4.7Ghz(这颗U实际上5.1G都可以开机,但是考虑到我需要跑5个参数的Spec2017和Spec2006,需要的测试时间较长,夏天温度高且我用的散热器是6热管风冷,防止测到一半板U故障,因此频率定在4.7Ghz);
3、Intel 4790K@4.4Ghz + 2*8G DDR3 1600(Z87高端主板);
4、Intel 6820HQ@3.6Ghz + 2*8G DDR4 2400,选这颗U是因为3A6000官方宣传对标3.6Ghz的10100,6820HQ应该是和宣传最接近的一颗U,用的是笔记本,为了保持单核睿频稳定性,增加背部风扇;
5、Intel 9850HK@4.8Ghz + 2*8G DDR4 2800,默认单核最高睿频是4.6Ghz,但是在Spec2017不知为何显示的是4800Mhz,为了避嫌,索性小超到4.8Ghz;
6、Intel 10100@4.3Ghz + 2*8G DDR4 2133(主板是H410低端主板+插的是DDR4 3000的XMP条子,测完才发现没开启XMP,所以部分分数会低于4790K+Z87高端主板)
7、Intel 11700@4.9Ghz + 2*16G DDR4 3200
8、Intel 12700@4.9Ghz + 2*16G DDR4 3200
9、华为鲲鹏920(TSV120)@2.9Ghz,基于华为云KC2实例,测了两组实例4C16G/32C64G(单核跑分差别不是很大),软件环境分别是Debian12.4+GCC12.2和AOSC+GCC14,分数差异很小(6分和6.04分的区别);
PS:当然这样比对对鲲鹏920B不是很公正,因为这里面除了鲲鹏920B(40-64核),其他全部为桌面CPU,桌面CPU核心数更少,频率可以拉的更高(高20%以上),比如:
(1)、龙芯3A5000为2.5GHz,而同架构的32核服务器CPU 3D5000只有2.0GHz;
(2)、12900K最高单核睿频5.2Ghz,而48-64核的服务器产品最高睿频只有3.8-3.9Ghz;
当然也有人会说鲲鹏920的时候,64核版本和8核版本都是2.6Ghz,这个主要还是策略问题,国内信创厂商无法给华为性能上的竞争压力,服务器的频率就已经打的赢桌面U,为什么还要提升4-8核SKU产品的频率。
一、Spec2017 intrate1&fprate11.1、Ofast+native/la664+flto

说明:鲲鹏920B做了两次测试,一次是基于Debian12.4+GCC12.2,2017 intrate1跑分为6.0分,fprate1是9.0分。第二次是基于AOSC(高版本内核)+GCC14,并增加了内存和CPU核心数,但是分数相差不明显,2017 intrate1是6.04。
1.2、Ofast+native/la664+flto+jemalloc

1.3、Ofast

1.4、O3

1.5、O2

O2开启的编译优化参数已经非常少,是日常常用的编译参数,在O2编译参数下,3A6000不管是新世界还是旧世界依然只有10100/4790K的65-80%性能。
二、Spec2017 intspeed

两个都是intrate8,编译参数jemalloc有差异
三、Spec2017 intrate 8
由于整个测试对象包含了一些6核和8核的CPU还有一些笔记本U,这些CPU参与intrate8评测上没有太大意义(和3A6000对比多核性能的情况下),因此多核暂时只做3款CPU的比较:3A6000、4790K、10100

从评测数据可以看出来,由于3A6000多核互联性能比较拉胯,所以虽然4790K和10100全核睿频频率会降低,但是3A6000多核成绩仍然不占优,只有4790K和10100的80%左右性能。
三、总结
1、通过O2、O3、Ofast、Ofast+native/la664+flto、Ofast+native/la664+flto+jemalloc多个参数比对,3A6000的成绩基本是稳定的,不管单核还是多核均只有10100/4790K的70-80%性能;
2、不同操作系统、不同GCC、不同Glibc、不同编译参数下可以发现性能偏差轻松超过10%,甚至是20-30%性能,因此在实际做性能评测比对时,必须强调通环境一致性和编译参数一致(当然这个一致不是说字面的100%一致,这个一致是说CPU A开启了256位向量,那CPU B也应该开启256位向量,CPU A开了jemalloc,那CPU B也应该开jemalloc等等)
3、近期龙芯一直宣传下一代3B6600可以打败12/13代中酷睿,从测试结果看,并不能,3B6600目前PPT是30%IPC提升,20%频率提升,总共提升55%左右的性能,但是实际上3A6000和12700性能偏差接近一倍(而12700上面还有12700K、12900、12900K、13700、13900K,更不说12700还有4个小核,13700有8个小核),只提升55%性能无法追赶上12/13代酷睿(相同核心下性能)。
4、龙芯服务器CPU在华为鲲鹏面前没有性能竞争力,预计今年Q4发布的3D6000、3E6000按照3D5000的规律会降频,猜测3D6000实际频率是2.0Ghz左右,3E6000频率是1.8Ghz左右,折算Spec2017 intrate1的成绩分别是3.8-3.9、3.4-3.5左右,是相似核心数量的鲲鹏920B的55-65%性能,性能差距巨大,而鲲鹏920B是华为去年年底的产物。同时华为最近激进的CPU研发策略,一年做2次CPU Core设计迭代,华为今年肯定也会发布新的服务器U,后续这种差距只会拉的更大。


  • 大耳朵耻骨
  • KX-7000
    4
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这么说3d6000的IPC还真不错,那为什么不提高频率呢,是没钱优化还是架构决定了做不了高频?


2026-01-19 17:37:37
广告
不感兴趣
开通SVIP免广告
  • 照亮黑夜之光
  • 麒麟990
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有差距还有进步空间,等实物上市再做对比


  • -chipo-
  • 昇腾930
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
给大佬点赞。


  • crbaleisco
  • 麒麟9050
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这么看,3A6000 并不能赶上龙芯自己宣传的10代i3-10100……只有10100的80%水平
而华为 鲲鹏920B,倒是实实在在地赶上10100了


  • 陆逊
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

龙芯TDP虚标,实际功耗超100W


  • 心海岛主88
  • 麒麟9050
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
上一下920的numa互联延迟测试看看


  • 三叉戟2
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


2026-01-19 17:31:37
广告
不感兴趣
开通SVIP免广告
  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@烟雨行舟€ 笑死,我这个数据哪个数据没跑出你想要的成绩,给说说,相同参数贵吧最高也就4.7,我跑个4.69就是抹黑龙芯了?


  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
另外@烟雨行舟€ 看完贵吧,真的是能明白为何有人能相信母产10000金,官方也就打打降频到3.6g的十代i3,贵吧就开始拳打5.0g的6大核加8小核的1370p。
你怕是不知道13代酷睿小核spec2006 int 单核就可以上60分吧?


  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
@烟雨行舟€ 来,给你看看,贵吧哪位测出4.86的编译脚本,他在之前跑4.71的时候的编译脚本里面浮点那个编译选项是march=native然后没有static静态链接,为什么c和c++都开启静态链接,浮点是因为archlinux系统就不带这玩意儿,所以我用archlinux系统自带的gcc和gfortran是没法开启浮点static静态链接。没开启浮点静态链接,他跑了4.71,我跑出了4.69,你觉得我没跑出3a6000成绩?你觉得我劣化3a6000?你自己应该多跑几个测试,这种0.02的误差很容易出现,多跑几次就出现。
其次你再看4.86的编译参数,变化就两个,一个是浮点开启了静态链接,但是archlinux系统的gcc和gfortran是没有lgfortran这个静态库的,从哪里来?只能是自己改gcc编译配置文件,自己重新去编译,这里可能还涉及其他依赖库的编译。所以我说他魔改了archlinux的gcc有什么问题?




  • 广昆高速东延广州
  • 麒麟990
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
某CPU的



  • 广昆高速东延广州
  • 麒麟990
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • kakakubjcn
  • 麒麟990
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
楼主您好,请问下华为鲲鹏kc2的情况
第一张图是测的单核对比? 如果920b的频率只有2.9,那岂不是同频ipc比intel的12代还要高?


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 下一页 尾页
  • 50回复贴,共2页
  • ,跳到 页  
<<返回中国芯吧
分享到:
©2026 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示