网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月17日漏签0天
中国芯吧 关注:16,658贴子:324,820
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 1 2 下一页 尾页
  • 66回复贴,共2页
  • ,跳到 页  
<<返回中国芯吧
>0< 加载中...

揭秘龙芯是如何优化实现3a6000=十代酷睿四核不等式

  • 只看楼主
  • 收藏

  • 回复
  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
昨天的帖子无故被删,今天再发一次。
龙芯以及某位G字头网友在评测中直接表示3a6000对标十代酷睿四核处理器10100,但通过评测数据研究发现,3a6000实际性能(spec 2006 int rate1)离十代酷睿10100处理器有较大差距,先说结论:
这位G字头网友通过将10100降频17%,再通过定制化的GCC la664架构优化编译参数提升12.9%,最后再通过龙芯官方提供的未公开源码的GCC特定优化版本提升7%的跑分性能,实现和降频后的10100相似性能水平。而使用官方版本的GCC,3a6000单核性能为10100的71%,10900K的61%。
一、10100最高睿频4.3G,全核睿频4.1G。这位G字头网友的评测文章中,10100 spec 2006 int 跑分仅为42.5,并标注10100频率为3.6G。而其他网友以及评测博主显示10100的spec 2006 int rate1跑分在50分左右,G字头网友解释为需要中高端主板和热管或水冷散热10100才能达到49.x分(详情请参考图片1)。但实际上10100的TDP是65瓦,spec 2006 int rate1为单核跑分,单核TDP为16瓦,我们即使认为单核睿频功耗翻倍,最多也就32瓦,即使是供电最烂的寨板,也不至于无法提供32瓦的CPU供电,铝制散热器也是可以轻松解决32瓦散热问题。显然这位G字头网友是非常清楚的,但是毕竟不能直接造假,所以调出一个和3a6000优化后相似性能的频率,至于读者由于自己不清楚10100是4.3G这显然是读者自身的问题。
二、三级缓存问题,十代酷睿中10100为6M三级缓存,10900K为20M三级缓存,3a6000为16M三级缓存,spec2006跑分是一个三级缓存敏感的测试。通过查阅资料可以知道10900K在不超频的情况下spec 2006 int单核跑分在58分以上,所以究竟10900K单核性能能代表十代酷睿,还是10100单核性能能代表十代酷睿?
三、编译优化,3a6000在下面两个编译优化参数下有两种不同的跑分,其中Test1 spec 2006 int单核跑分为35.7,Test2跑分为40.1(参考图片2,目前3a6000已有开发板在某宝发售,也欢迎各位龙粉用数据来挑战,挑战时请附带编译参数和sepc截图):
loongson 3A6000 Test1 ->
GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops
loongson 3A6000 Test2 ->
GCC 8.3 -Ofast -static -flto -mcond-move-int -mforce-drap -mvecarg -march=la664 -mtune=la664
-msimd=lasx -ftree-vectorize -funroll-all-loops
两者的编译优化差异主要在一个mtune使用loongarch64,另外一个使用la664,查阅架构资料可以知道la664为3a6000微架构代号,而在GCC 8.3的官方版本中,我们是无法使用la664参数的,使用该参数需要使用龙芯官方提供的GCC版本:网页链接
通过龙芯提供的GCC源码以及GCC更新记录,可以知道龙芯的mtune参数主要有:loongarch64、LA464、LA664。LA664编译选项主要开启了SIMD向量化并行等一系列优化选项,从而能高效地从大L1和L3进行数据预取,造成缓存性能高。龙芯通用的设置为-mtune=loongarch64,LA464为3a5000 微架构的优化参数,LA664为3a6000微架构优化参数。
但是,如果仅用龙芯官方提供的GCC源码,以及开启微架构优化,spec 2006 int单核跑分仍然只有40分左右,这位G网友实际的43分是使用龙芯在评测机器中提供的已编译完成的spec工具完成的,我们可以推测这个未发布的GCC版本采用了更加激进的优化策略,而这种优化策略可能会带来计算结果的不可靠(Intel的ICC在某几个版本中就存在计算结果错误的情况)。




  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
在测试中,同样采用-mtune=alderlake进行针对性优化的Zen3或酷睿同代微架构处理器也可以做到与同样的性能增益幅度,性能提升在10.8%左右(参考图片3,5800x使用-mtune=alderlake的5800x spec 2006 int单核跑出75.9的高分,而使用core-avx2情况下跑分是68.5分)。
R7-5800X Test 1 ->
GCC 12.2 -Ofast -fomit-frame-pointer -march=x86-64 -mtune=core-avx2 -mavx -mavx2
R7-5800X Test 2->
GCC 12.2 -Ofast -march=alderlake -mtune=alderlake
同样的事情发生在兆芯的陆家嘴架构上,如果使用-mtune=lujiazui的编译选项,陆家嘴架构的spec性能同样会提高很多。


2026-01-17 23:20:38
广告
不感兴趣
开通SVIP免广告
  • -chipo-
  • 昇腾930
    14
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
被删除的帖子可以在后台尝试申诉一下。


  • hcdpz
  • KH-50000
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
其实很简单,spec06龙芯的gcc是有定向优化的,这一点胡伟武在业绩说明会上自己亲口承认的。


  • hcdpz
  • KH-50000
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
胡伟武同时也说spec17的“优化”还在进行中。这也解释了为啥guee跑了spec17 rate1 却死活不敢放出来。因为目前怂芯的spec17还没有优化到spec06的程度,rate1成绩跟spec06的成绩对不上。


  • 树下风与歌
  • 麒麟990
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
对比3a5000提升多少?按照3a5000单核等同于t7800算的话


  • kyokusanagi98
  • 麒麟9030
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
打不过就跑这儿来造谣,你要是不服,你也可以跑一个成绩来看看,不过我估计你没有那实际行动能力


  • 夜半孤行
  • FT-D3000
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
总感觉龙芯的人跟个XJ 组织似的,就他们牛,就不能说他们。。。。就你03年开始做,你没点积累我是不信,但是吹的太多。。。就没意思了。。。你只是把十几年的技术成果一起拿出来了,不代表能超英赶美。。。。


2026-01-17 23:14:38
广告
不感兴趣
开通SVIP免广告
  • 资深深度分析师
  • 麒麟9020
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
7zip早就跑了,2600k水平


  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有龙粉对我的数据有异议,认为我10100的50分是假的,10100不可能单核睿频到4.3G,龙粉可能不相信其他人的数据,guee的数据龙粉总得信吧
Guee亲测的数据,10100使用最垃圾的主板H510(注意guee的说辞,guee在回复中描述的是中高端主板,实际他测48.5用的是低端主板)+风冷+不开启微架构优化跑出了48.5的成绩:
https://gitee.com/guee/CPU-benchmarks/blob/master/2023-06/SPEC%20CPU%202006/i3-10100F%EF%BC%88UOS%E4%B8%93%E4%B8%9A%E7%89%88%EF%BC%89H510M-2666%E5%8F%8C%E9%80%9A%E9%81%93-%E5%BC%BA%E5%8A%9B%E9%A3%8E%E5%86%B7/int-base-speed/CPU2006.023.log
编译参数:
gcc -c -o av.o -DSPEC_CPU -DNDEBUG -DPERL_CORE -m64 -mavx2 -march=native -mtune=native -funroll-all-loops -ftree-vectorize -flto -static -Ofast


  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
另外目前3a6000的主板也陆续发货了,也欢迎其他龙粉使用龙芯官方gcc版本+以下编译参数,看看我的35.7是否是造假,随时欢迎各位龙粉拿截图来打脸:
GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops
另外也欢迎龙粉用-mtune=la664编译参数去测试5000,看看我说的微架构优化对la464不生效或副作用是否正确(注意一个是la664 一个是la464)
附件是Guee测试10100的各种成绩,低端主板+风冷测出48.5,虽然比b站部分数码博主的51分要低,但是基本相差不太大,guee用z490测出49.3:


  • 万里浮梦笙
  • FT-D3000
    5
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
还有龙CC内置jemalloc,对比x86公版GCC,已经是很不要脸了,要是用icpx能把龙芯打得妈都不认识


  • 哦iu一套软件
  • 麒麟9030
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
消化,连龙芯发布会都不敢发消息,这里怕龙芯怕得要死


  • 哦iu一套软件
  • 麒麟9030
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
你看看吧,这里发个3A6000的发布会信息,都会被删帖,你和人家玩技术,人家和你玩封锁,简直就是川普统治的世界啊


2026-01-17 23:08:38
广告
不感兴趣
开通SVIP免广告
  • Matterhorm
  • FT-D4000
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
来看看龙芯吧的删帖记录吧:
1、提示对方讨论技术问题不能靠骂,删帖
2、发一下guee的某个测试数据(guee在其他网站发的),删
3、发一下guee的链接,删(guee可是他们小吧主啊)
4、讨论下rv不可能被禁用,删
5、讨论下兆芯下一代CPU性能,删


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 下一页 尾页
  • 66回复贴,共2页
  • ,跳到 页  
<<返回中国芯吧
分享到:
©2026 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示