【图片】实测龙芯3C6000——和Intel Xeon Platinum差不多的性能水平_龙芯吧

　　龙芯3C6000分为三个子型号，后缀S、D、E分别代表16、32、64核。3C6000/S是16核32线程的基础型号，主频2.2GHz。3C6000/D是通过通过先进封装技术在CPU中集成了两个3C6000/S的硅片，构成32核64线程的CPU，主频2.1GHz。3C6000/E则封装了4个硅片，总共64核128线程，主频2.0GHz。三个型号都支持多路互联，最大支持组成128核256线程的整机系统。

　　龙芯3C6000系列CPU都基于龙芯中科自主设计的LoongArch指令集，CPU中的处理器核、互联总线、内存控制器、各种高速低速IO接口控制器……也都完全由龙芯中科自主设计。
　　龙芯3C6000获得了《安全可靠测评》二级认证，“二级”是当前测评标准的最高等级，但并不是龙芯3C6000的上限。因为测评标准要照顾多数国产CPU，所以龙芯CPU无法完全体现出不依赖国外技术授权的优势。
　　下图就是一台基于两颗龙芯3C6000/D的双路服务器。双路龙芯3C6000/D共16个DDR4-3200内存通道，插上了512GB（16×32GB）内存。板载一个NVME接口、两个min-SAS接口（兼容SATA）、两个千兆网口、一个BMC控制器和专用网口、多个USB3.0接口，以及其它接口。

　　每颗龙芯3C6000/D支持128个PCI-E 4.0通道，但受服务器空间限制，这款主板只引出了3个x16接口和6个x8接口，通过转接卡把PCI-E板卡横向安装，使8.89cm高的2U服务器能支持全高的PCI-E板卡。

　　在龙芯中科的官方宣传中，双路龙芯3C6000/D对标的是双路Intel Xeon Gold 6338。现在已经很少有国产CPU厂商以官方身份把自家产品与进口产品对标，大家在网上看到的性能宣传大多是媒体以讹传讹的产物，就算牛皮吹破了，厂商也能置身事外。
　　某些CPU企业非但产品性能语焉不详，甚至连基本的芯片参数都讳莫如深。而龙芯敢于公开每款商用芯片的详细参数和技术手册，因为龙芯不依赖美国技术授权，也不依赖境外先进工艺，所以既不惧怕因制裁而受到伤害，也不担心他人从细节信息推敲技术来源。
　　不过龙芯的公开资料也仅限于商用产品。像北斗导航卫星、歼-20航电系统、复兴号控制系统采用的龙芯CPU都有只言片语的说明。党的二十大报告中列举的十项重大科技成果中，也有七项使用或选用了龙芯CPU。这七大成果分别是：载人航天、卫星导航、探月探火、量子信息、核电技术、新能源、大飞机。这些项目中采用的龙芯CPU也属于保密范畴。

性能评估参考对象说明
　　只有经过实际测试，才能验证CPU的性能是否达到了宣传的高度。但笔者没有与3C6000/D对标的Intel Xeon Gold 6338，只在京东云上找到了基于Intel Xeon Platinum 8338C的云服务器。
　　几家主要的云服务器提供商对基于Intel Xeon第三代可伸缩架构的产品都没有开启睿频，CPU都是以默认频率运行。Intel Xeon Platinum 8338C的主频为2.6GHz，理论性能比Intel Xeon Gold 6338高30%。但作为性能测试的参照物，性能高一些低一些都没有关系。
　　除此之外，笔者在阿里云上发现了基于海光C86-7390的云服务器，便把它一起作为了测试对象。阿里云没有开启对海光CPU的睿频支持，海光C86-7390的实际运行频率保持为2.7GHz。
　　与双路龙芯3C6000/D对应的应该是64个物理核心的云服务器，但现在的云服务器提供商都不再提供CPU物理核心的选项，而是以vCPU取而代之。
　　根据云服务器提供商的说明，每个vCPU实际上都是一个“超线程”，也就是每两个vCPU对应一个物理核心。那么就要选择128个vCPU的产品，才能拥有64个物理核心。
　　但是京东云上配置了128个vCPU的Intel Xeon Platinum 8338C云服务器已经售罄，阿里云也没有128个vCPU的海光云服务器。笔者只好退而求其次，选择了配置64个vCPU，32个物理核心的产品用于性能对比。同时对双路龙芯3C6000/D的测试也缩减规模，只与云服务器进行“核对核”的比拼。
　　下表列出三款CPU的主要参数和测试环境说明：

SPEC CPU 2017综合性能基准测试
　　SPEC CPU是一款综合性的CPU性能评估工具，它的测试内容分为定点（整数）和浮点（小数）两大类，每类测试都包含若干个子项目。这些项目囊括了常见的计算任务，但又不局限于单纯的计算，更贴近于常规应用软件的程序逻辑。
　　SPEC CPU的源代码中没有包含针对特定指令集的优化，在软件层面完全依靠编译器和底层库的优化来决定CPU的性能发挥程度。只要对测试环境的优化是正常优化，那么测试成绩就能够体现出CPU的基础性能，也比较适合在不同架构的CPU之间进行对比。因此SPEC CPU是一种比较流行且具权威性的“CPU-内存子系统”基准性能测试工具。
　　SPEC CPU测试成绩的权威性导致很多CPU厂商为了刷写测试成绩，而通过定制编译器和底层库来针对SPEC CPU进行优化。例如ICC、AOCC、PhyGCC等编译器以及相关的优化库，能使测试成绩比正常水平提高百分之几十，但那些定制优化对常规应用软件基本无效，致使SPEC CPU的权威性遭到置疑。
　　如果ICC、AOCC、PhyGCC等编译器和各种加速库能使常规软件大幅度提高运行效率，那么PhotoShop、Auto CAD等专业软件，以及众多游戏软件就应该对它们趋之若鹜，而不是从不把它们用于软件生产环节。
　　因而要得到参考价值较高的测试成绩，就只能使用被广泛用于软件生产环节的编译器和系统环境，例如GCC、MSVC、LLVM编译器和Linux、Windows系统的常见版本。当性能测试、软件生产、实际应用，这三者的软件环境都相对一致，才能更为准确地体现CPU的综合性能，测试成绩才对普通用户有实际意义。
　　不过即使是同种类型的操作系统和编译器，针对不同指令集的优化水平也不同。目前操作系统和编译器对x86的优化比对龙芯LoongArch指令集的优化更加成熟，也因此随着基础软件环境的改进，龙芯CPU的性能表现能得到比x86产品更大的增幅。
　　例如下面使用不同版本的GCC编译器和Linux系统对龙芯3A6000和Intel i3-10100F进行单任务（单核）定点运算性能测试，就能明显看到随着编译器版本更新，龙芯和Intel的CPU测试成绩都随之提升。这也体现了CPU性能发挥很大程度上决定于编译器及操作系统的优化水平。

　　龙芯3A6000的主频为2.5GHz，而Intel i3-10100F的单核睿频高达4.3GHz，但两者的单核性能差距仅10%左右。因为Intel CPU多核并行时睿频会降低，所以两者的多核性能在多数应用中已是相同水平。下图是两者使用当前最新版GCC 15编译器时，得到的SPEC CPU 2017单核及多核测试成绩：

　　如果测试对象是频率较低的服务器CPU，那么龙芯和Intel产品的单核性能差距还能进一步缩小。下图是三款服务器CPU的SPEC CPU 2017单任务（单核）成绩：

　　在单任务定点运算综合性能的测试环节，龙芯3C6000/D和Intel Xeon Platinum 8338C的得分都是5.23，尽管他们的主频并不相同。主频最高的海光C86-7390成绩反而最差，若以海光每一代新品诞生时宣传的性能提升幅度计算，有一种对不上账的感觉。
　　在浮点运算综合性能方面，龙芯3C6000/D和Intel Xeon Platinum 8338C有较明显的差距，测试成绩体现出了龙芯在浮点及向量运算方面还有一些短板。
　　若计算每GHz的性能，同系列的服务器CPU都比桌面CPU更高一些，但Intel服务器CPU每GHz的性能相对于桌面CPU增加得更多。因此2.5GHz的3A6000单核性能接近于睿频4.3GHz的i3-10100F，而2.1GHz的3C6000/D的单核性能就只与2.6GHz的Intel Xeon Platinum 8338C相当。
　　服务器CPU更为重要的是多核并行性能，但云服务器的64个vCPU并不能与单路龙芯3C6000/D的32核64线程对应。因为从基于多路CPU的物理服务器上创建多核虚拟机时，所分配的物理核心会由多颗CPU分担，而不是集中于一颗物理CPU。每颗物理CPU都有各自的内存通道，当32个物理核心分布于多颗CPU时，实际可用的内存带宽也是数倍。
　　因此多任务（多核）测试时，笔者对于龙芯3C6000/D采用两种测试方案。一是测试单路CPU性能，二是模仿云服务器分配物理核心的方式，把32个物理核心分布于两颗CPU上。并且在测试成绩的图表中标注了多任务测试成绩相对于单任务成绩的提升倍数，更清晰地展示内存带宽与测试成绩的相关性。

　　上图的测试成绩都是32核64线程，64任务并行的测试结果。除了第一列是单路龙芯3C6000/D之外，另外三列都是把32个物理核心分布了在多颗CPU上。
　　单路3C6000/D的定点（整数）通用性能测试成绩仅为142，把32个物理核心分布在两颗CPU上之后成绩为169，比64个vCPU的Intel Xeon Platinum 8338C云服务器略低。单核成绩一致但多核成绩有差距，可能是因为3C6000/D实际的内存带宽略有不如所致。
　　浮点运算测试对内存带宽的要求更高，Intel Xeon Platinum 8338C也遭遇了内存瓶颈，使它的并行加速倍数低于龙芯3C6000/D和海光C86-7390，但测试成绩仍然最高。
　　总体上看，龙芯3C6000/D和Intel Xeon Platinum 8338C是相同的性能层级，但龙芯CPU多核并行时的性能发挥还与Intel存在差距。

龙芯3C6000/D的HPL浮点运算性能测试
　　HPL（The High-Performance Linpack Benchmark）是测试高性能计算集群系统浮点性能的基准程序。HPL通过对高性能计算集群采用高斯消元法求解一元N次稠密线性代数方程组的测试，评估高性能计算集群的浮点计算能力。
　　HPL的测试若想得到较好的成绩，参数配置较为繁琐。为了简化测试过程，笔者直接使用Phoronix-test-suite测试套件来测试HPL性能，参数由测试工具自动配置。这样虽然各款CPU都无法获得最好的测试成绩，但都在相同的条件下测试，就不会影响公平性。
　　对于双路龙芯3C6000/D服务器，笔者尝试通过numactl工具绑定CPU来进行单路测试。但发现numactl似乎对HPL测试无效，无论如何绑定CPU，测试结果都大同小异。因此下面的测试，龙芯3C6000/D是双路CPU共64核128线程，Intel Xeon Platinum 8338C和海光C86-7390都是32核64线程的云服务器。

　　在使用测试工具自动配置的情况下，各款CPU的测试成绩都并非最佳，但龙芯3C6000/D的成绩高达1084 GFlops，而Intel Xeon Platinum 8338C的测试成绩仅为124GFlops。这么大的差距并不是因为测试有误，而是可靠的结果。openbenchmarking网站上收录的Intel同级别产品的测试成绩也是这样的水平。
　　4核8线程的龙芯3A6000的HPL测试成绩在70GFlops以上，因而双路3C6000/D的64核128线程测试成绩超过1000GFlops是合理的。而Intel CPU的HPL测试成绩不是与核心数量成同等倍数增长，可能是设计思路不同的原因。
　　openbenchmarking网站上收录了单路Intel Xeon Platinum 8488C的测试成绩，8488C也是32核64线程，但CPU核心比8338C先进一代。并且测试设备是开启了睿频的实体机，测试成绩也才266GFlops，可以作为测试成绩可靠性的佐证。

　　64个vCPU的海光C86-7390云服务器测试成绩极差，为了避免争议，这里不提供测试结果。
　　HPL的测试成绩主要体现的是CPU在科学运算领域的性能，实际上与多数用户无关。但用于科学运算的芯片产品是美国限制我国进口的主要类型之一，包括海光引进的AMD Zen核心也被削弱。直到申威26010横空出世才使美国的出口限制形同虚设，龙芯CPU在科学运算方面的性能比普通的服务器CPU表现出众也十分合理。

x264视频编码性能测试
　　x264是基于CPU运算的h.264视频编码库，广泛应用于视频通话、在线会议、远程桌面、视频编辑等场景。
　　x264编码库的设计没有考虑过为核心极多的CPU优化性能，通常并行的CPU核心超过16个（32线程）之后，继续增加核心数量对编码速度的提高就微乎其微。
　　下面的截图是openbenchmarking网站上记录的部分CPU使用x264（默认参数）编码1080p视频的测试成绩，最后一列是多个测试的平均编码帧率。截图中第一行192（2 × 96）核和最后一行12核的编码速度差距不大，尽管前者的核心数量是后者的16倍。

　　使用多核服务器处理实际的视频编码任务时，通常是并行编码多个视频，每个任务绑定若干个CPU核心，以提高整体效率。如果把全部CPU核心用来编码一个视频，那么整体效率会大幅度降低。
　　因此笔者测试3款服务器CPU的视频编码速度时，都用numactl工具限制CPU只使用16核32线程来运行测试程序。
　　测试各款CPU使用x264编码视频的速度时，也是使用的Phoronix-test-suite测试套件。这个测试套件的测试结果可以提交到openbenchmarking网站，因此下方的测试成绩列表中，笔者捡选了一些openbenchmarking网站记录的同样为16核32线程的测试结果作为参考。

　　龙芯3C6000/D的视频编码性能低于Intel Xeon Platinum 8338C，这是意料之中的情况。在硬件方面，而龙芯的LASX向量指令集的位宽为256bit，而Intel Xeon Platinum 8338C支持位宽为512bit的AVX-512扩展。在软件方面，x264对x86的优化也比对LoongArch的优化更加成熟。海光C86-7390也得益于x86软件优化，在视频编码方面的性能表现接近于龙芯3C6000/D。
　　一些高端CPU用x264默认参数编码1080p视频的帧率超过300，是因为它们的某些特性（例如超大缓存、极高频率）使它在视频编码方面的表现特别优秀。在核心数量相同的前提下，它们综合性能约为龙芯3C6000/D和Intel Xeon Platinum 8338C的两倍左右。

总结
　　根据实际测试，龙芯3C6000系列CPU的综合性能与核心数量相同的基于Intel Xeon第三代可扩展架构的产品处于相同级别。在不启用睿频的前提下，龙芯3C6000/D的综合性能略低于同样32核64线程的Intel Xeon Platinum 8338C，但应该略高于龙芯公司自己对标的Intel Xeon Gold 6338。
　　实测过程中观察到双路龙芯3C6000/D服务器整机最大功率约750W，包括4个48W（12V4A）的主要散热风扇、512G内存、主板和BMC模块，以及电源自身损耗等。以此估算龙芯3C6000/D的最大功率与标称的TDP一致。
　　Intel的TDP是CPU不启用睿频、不使用向量指令时的最大功率。Xeon Platinum 8338C在2.6GHz的基础频率下的TDP为250W，如果启用睿频和向量运算，实际功率可能成倍增加。龙芯3C6000/D在2.1GHz的频率下最高功率为220W，如果把出厂频率提高到与桌面版3A6000的2.5GHz一致，功率也会大幅度提高，但在相同功率时的性能优于Xeon Platinum 8338C。
　　性能可与年份相近的进口产品对标的国产CPU凤毛麟角，龙芯3C6000系列以相对落后的工艺，较低的运行频率，追平规格更高的Intel产品，在国产CPU中更是绝无仅有。
　　而且龙芯CPU完全不依赖国外技术授权，技术演进的路线完全自己作主。而基于指令集授权的国产CPU被国外的指令集限定了技术路线，任何在设计方面的进步都要面对重重的专利壁垒。以至于不得不反反复复购买专利授权、长年累月缴纳授权费用和芯片版税。
　　龙芯CPU的进步只受限于自己的能力和国内可用的芯片生产工艺，CPU的研发成本主要是研发人员的工资而非向国外缴纳的技术授权等费用。所以说龙芯CPU是用国内的市场培养国内的信息技术全产业链的自主设计能力，而不是把自己的进步寄托于国外的授权。也因为龙芯CPU完全不依赖国外技术授权，所以龙芯3C6000系列是国内唯一的性价比优于进口产品的CPU系列。

真不错，刚好吃饭时看

辛苦楼主了，期待大规模应用早日到来！

这次真的太强了，非常惊艳

龙芯这板厂疑似有点five了，服务器的板子也能这么拉，华南精粤的寨板都没这么怂的
这文章问题有点多，服务器多核睿频是锁电压的，通常来说是1v，所以即使至强跑浮点和avx512都不会超过tdp，我手头的至强常规满负载只有60%tpd的功耗
“以相对落后的工艺，较低的运行频率，追平规格更高的Intel产品”，规格高在哪里？祖传四宽架构和抠门的缓存配置，看看我手头同时代的霄龙，告诉我高在哪里？

HPL测试成绩比理论浮点性能还高一点点，说明浮点单元达到了设计目标，软件也没有瓶颈。

8338和10100不是一个架构，前者10nm的icelake，架构性能相对有提升

这么强悍的CPU一定可以大卖特卖，龙芯准备🛫。

顶上去，支持楼主测试！

大作品，先回后看

兆芯怎么样

有核间延迟数据吗？想知道龙链效果怎样。

日	一	二	三	四	五	六

实测龙芯3C6000——和Intel Xeon Platinum差不多的性能水平

扫二维码下载贴吧客户端