scaleX640 的核心带宽指标是卡间总带宽 1.6TB/s和HBM 总带宽 2304TB/s,这两项数据已在 2025 年 11 月 6 日乌镇峰会官方发布
注:片间互连总带宽 (573TB/s) 与卡间总带宽 (1.6TB/s) 是两个不同指标,前者衡量芯片内部通信能力,后者衡量加速卡之间的通信能力,共同构成了 scaleX640 的多层次高速通信体系。该产品的关键技术(如超高速正交架构、浸没相变液冷技术等)拥有 "100% 自主知识产权,不依赖任何国外专利授权 ",进一步证实了技术来源的单一性。
超高速正交架构:这一核心技术 "源自中科曙光十余年的互联技术研发,经过多代产品迭代优化 ",是实现 573TB/s 片间互连总带宽和 1.6TB/s 卡间总带宽的关键。
一拖二高密架构:这一设计是中科曙光的独创,实现了单机柜 640 卡的超高速互连。
scaleX640 采用 "算、存、网、电、冷一体化紧耦合系统设计
技术实现与架构特点1. 超高速正交架构
全互连网状拓扑:640 张加速卡通过专用高速链路直接连接,无需多级转发
单链路带宽:每条链路带宽达 25GB/s
无转发延迟:数据可在任意两张卡间直接传输,消除传统树形架构的转发损耗
2. 112G 背板线模组
采用112G SERDES(串行器 / 解串器) 技术构建背板线组
实现低至 200 纳秒的片间数据传输延迟(部分测试环境可达)
使 640 张加速卡 "如单一芯片般协同工作",GPU 间通信效率提升 15 倍
3. 一拖二高密架构
单机柜集成 640 张加速卡,形成高密度计算单元
柜内构建独立通信域,640 卡形成全互连网络
双 scaleX640 可组成千卡级计算单元 (1280 卡),柜间通过高速网络互连
性能优势1. 超低延迟通信
卡间通信延迟控制在 2 微秒以内(传统架构通常为 10 微秒 +)
某测试环境中延迟低至200 纳秒(0.2 微秒)
比华为灵衢 2.0 (5 微秒) 降低 60%,确保多卡协同训练同步性
2. 超高带宽吞吐
单卡间有效通信带宽≥100GB/s(实际应用中的聚合带宽)
支持每秒百万级交易数据的实时处理(金融风控场景)
某自动驾驶企业基于此平台,每天可处理500TB路测数据,效率提升 40%
超低延迟:微秒级响应的 "神经中枢"
卡间通信延迟控制在 2 微秒以内(部分测试环境低至 200 纳秒),较传统架构的 20 微秒 + 降低 90% 以上
彻底消除多级转发延迟:640 张加速卡通过专用高速链路直接连接,无需经过交换机等中间设备
多卡协同同步性提升:延迟抖动控制在 ±0.5 微秒,确保大规模并行计算中各节点 "步调一致"
性能对比:传统架构 640 卡训练时,因通信延迟导致实际算力利用率仅 60%,而 scaleX640 通过超低延迟设计使算力利用率提升至 90% 以上,整体性能提升 50%
中科曙光 scaleX640 超高速正交架构是全球首个实现单机柜 640 卡全互连的突破性设计,其核心优势在于将传统多级转发的树形架构转变为 "任意节点直连" 的网状拓扑,构建出业界领先的高带宽、低延迟、高可靠通信系统。
核心在于采用 112G SERDES 技术构建的背板线模组,形成 "正交网状" 拓扑结构,使 640 张加速卡中的任意两张都能直接通信,无需经过中间节点转发 。这一设计不仅消除了传统树形架构的 "带宽漏斗效应",还大幅降低了通信延迟,使 640 卡能像单一芯片一样高效协同工作。