【图片】国外专业媒体测试龙芯3A6000【中国芯吧】

来源：chipandcheese
LAM CHESHIER
2024 年 10 月 19 日
SPEC CPU2017 是一个行业标准基准套件。OEMs 用它来设定他们系统的性能预期，CPU 制造商通常用它来调整他们的设计。我们已发布了一些 SPEC CPU2017 的预估结果，现在回顾并运行先前文章中提到的 CPU 上的 SPEC CPU2017 将非常有趣。中国 CPU 特别有趣，因为它们通常不会被主流科技媒体测试，所以这是一个很好的起点。一些其他 CPU 也进行了测试，以提供比较数据。
测试结果为评估值(“estimated”意指非reportable），因为 SPEC CPU2017 (的reportable测试）有一长串的要求。我们致力于满足所有技术要求，比如从单个 runcpu 调用中完成所有测试套件，并使用单个文件系统。差异主要在于文档要求。和以前一样，我们使用 GCC 14.2.0 并运行裸金属 Linux。
GCC 14.2.0 从源代码编译而来，操作系统为 Debian （如果分发版的软件包中不可用，则使用Debian 的文件系统然后 chroot 到其中去运行测试）。编译优化标志设置为：让编译器执行针对测试 CPU 的 ISA 扩展的，典型优化级别。例如，编译优化标志： -O3 -march=native -mtune=native -fomit-frame-pointer 用于 x86-64，而编译优化标志： -O3 -mcpu=native -fomit-frame-pointer 用于 aarch64。

我们还将关注单线程性能，通过运行单个副本的 SPEC CPU2017 速率测试来实现。在评估 SMT 增益时存在一个小例外，这将通过将两个副本固定在单个核心的兄弟线程上进行测试来检验。
龙芯 3A6000
龙芯源于国家资助的微处理器研究项目。虽然现在是一家独立的公司，但其运营者仍是由中国科学院推动那些研究努力的同一些人。它还得到了中国政府的拨款。当前龙芯 CPU 使用定制的龙架构 64 指令集，与较老龙芯和 Godson核心使用的 MIPS 指令集密切相关。
3A6000 是我们最近获得的最新龙芯 CPU。它是一款支持 SMT 的 2.5 GHz 四核处理器。其每个 LA664 核心都是 6 发射，具有 256 位向量执行和良好的乱序执行能力。截至 2024 年 10 月，龙芯网站仍然表示 3A6000 适用于笔记本电脑和台式机。因此，3A6000 将与笔记本电脑和台式机 CPU 进行比较。在高单线程性能方面，这些客户端领域至关重要，因为许多消费级程序无法扩展到很多核心。

很遗憾，3A6000 无法提供与 AMD 和 Intel 近期客户端产品相当的单线程性能。

龙芯甚至在与 E-Cores 的竞争中落后，后者为了更好的密度牺牲了单线程性能。这并不是一个好兆头，因为这些密度优化的核心的目的是通过拥有大量核心来提高多线程性能。例如，Meteor Lake 有八个 Crestmont E-Cores。因此，龙芯的 3A6000 在四核 CPU 正逐渐退出市场的时代，甚至是在预算型 PC 构建中，也是一个较弱的四核处理器。

3A6000 在 SPEC CPU2017 的整数工作负载中通常不具备竞争力。只有在 520.omnetpp 中，龙芯才能接近英特尔即将推出的 E-Core 的 Crestmont。浮点测试中还有几个例子，龙芯表现良好。538.imagick、521.wrf 和 549.fotonik3d 在 3A6000 击败了 Crestmont。然而，Crestmont 在其他浮点测试中取得了显著胜利，并获得了更高的总分。

龙芯由于支持SMT，缩小了部分差距。在核心中运行两个线程为流水线的每个阶段提供了更多显式的并行性来，这通常会增加核心的利用率。

3A6000 在将两个测试副本绑定到同一核心的 SMT 线程上时表现出色，有超过 20%的性能提升。提升幅度与 AMD 的 Zen 5 相似。Zen 4 在 FP 子测试中提升较低，可能是因为即使没有第二个线程参与，这些测试也往往受限于核心。

即便两个 SMT 线程也无法提供与当前一代 AMD 单线程运行核心相当的性能。拥有 SMT 比没有好，龙芯在实现第一代 SMT 方面值得赞扬。但 3A6000 在四核 CPU 逐渐退出市场的时代仍然是一款慢速的四核处理器。SMT 并不能改变这一点，尤其是当英特尔和 AMD 的高性能核心也能从 SMT 中受益时。
在 3A6000 上运行 SPEC CPU2017 相当困难。我不得不从头开始编译 SPEC CPU2017 的工具集。我也像其他没有提供 GCC 14.2.0 软件包的系统一样，从头开始编译了 GCC，但使用全部八个硬件线程导致系统崩溃。当固定在两个核心上时，编译最终成功完成，但耗时非常长。
在处理 3A6000 时失去了一些理智之后，在第二个系统上重新使用编译的工具集和编译器才合理。

龙芯 3A5000
龙芯 3A5000 是 3A6000 的前身。它也运行在 2.5 GHz，但使用 4 路乱序的 LA464 架构。龙芯网站将 3A5000 描述为“适用于个人电脑、服务器和其他 IT 领域的通用处理器”。
3A5000 在 SPEC CPU2017 的单线程性能介于低功耗 Celeron J4125 和 AMD 的旧 Bulldozer 架构 FX-8150 之间。Bulldozer 在整数和浮点测试套件中分别比 LA464 快 19.5%和 7.3%，大约领先一代。

3A5000 也 3A6000 无法与英特尔 E 核心相匹配，甚至无法与 2015 年的 Skylake 架构相提并论。这对于被炒作能与 2017 年上市的 AMD 第一代 Ryzen 芯片竞争的芯片来说是一个令人失望的结果。尽管 i5-6600K 并非顶级的 Skylake 产品，但 3A5000 却难以站在同一个星球上。

Skylake在某些高 IPC 测试中，如 exchange2 和 x264，以荒谬的幅度领先。SPEC CPU2017 的浮点程序集描绘出类似的画面。

IPC，龙架构 64 指令集架构
SPEC CPU2017 以源代码形式发布，因此实际上是在对编译器和 CPU 进行基准测试。编译器代码生成与目标 ISA 固有地相关联，看到龙芯的 Loongarch64 指令集与其他相比如何，非常有趣。
一般来说，较低的执行指令数指向 ISA 和编译器代码生成更有效地表示工作负载的组合。Loongarch64 平均需要更多的指令，尽管在某些情况下它具有竞争力。
如果我将指令执行差异的几何平均值进行比较，x86-64 和 aarch64 出人意料地接近，x86-64 执行指令多出约 1.17%。龙芯比 x86-64 多执行 10.6%的指令，这是一个微小但仍然值得注意的差异。

在浮点程序套件中，龙芯比 x86-64 需要多 11.4%的指令。有趣的是，对于 aarch64 和 Loongarch64 执行指令差异的几何平均值几乎相同，Loongarch64 仅比 aarch64 低一个百分点。549.fotonik3d 和 554.roms 是异常值，Loongarch64 完成相同工作所需的指令比 x86-64 多 77.1%和 78%。也许在 Loongarch64 中有些东西非常难以表示。或者，编译器代码生成特别糟糕。

将指令集设置 aside，我们可以看看龙芯的架构在执行给定指令方面做得如何。性能监控事件表明，龙芯的 3A5000 和 3A6000 在每周期执行指令的数量方面竞争非常激烈。
然而，这并不转化为竞争优势，因为龙芯需要执行更多指令来完成相同的工作，更重要的是，无法达到具有竞争力的时钟速度。

我在这里通过租用 VM.Standard.E2.4 Oracle 云实例提供了 AMD Zen 1 的结果。其 Zen 1 配置与我所测试的其他任何配置都不同，因为核心似乎永久锁定在 2T 模式。一个线程即使在其兄弟线程空闲时，也只能看到一半的重排序缓冲区和寄存器文件容量，这在其他云服务中我没有观察到。然而，Oracle 云支持性能监控事件，而某些其他云服务不支持。
由于我没有 Zen 1 芯片可用，这是我能做到的最好。但这里 Zen 1 的数据应考虑到这一点。

龙芯 3A6000 在某些 SPEC CPU2017 工作负载中可以实现一些非常高的 IPC 数值，这可以弥补需要执行更多指令的问题。然而，即使与时钟速度适中的 Skylake 部件相比，这也无法弥补龙芯的时钟速度劣势。

日	一	二	三	四	五	六

国外专业媒体测试龙芯3A6000

扫二维码下载贴吧客户端