中科曙光发布scalefabric：国产高端rdma技术突破，智算集群迎来“算力大动脉”-九游会j9登录入口

时间：2026-03-13 05:14 作者：钟景轩

在ai算力需求持续攀升的背景下，我国智算基础设施领域迎来关键突破。中科曙光近日宣布，成功研制出国内首款全栈自研的400g无损高速网络系统——scalefabric，该系统基于原生rdma架构打造，实现了从底层ip核到上层管理软件的100%自主可控，为超大规模智算集群提供了高性能网络九游会j9登录入口的解决方案。

当前，万卡级智算集群已成为ai大模型训练的主流形态。研究数据显示，在分布式训练场景中，网络通信耗时占比高达30%-50%，网络性能直接决定算力系统的整体效率。作为提升通信效率的核心技术，rdma网络凭借零丢包、高带宽、低延迟等特性，被全球顶级超算中心广泛采用。据top500榜单统计，全球约60%的高性能计算系统采用infiniband网络架构，但该领域的关键技术长期被海外厂商垄断。

中国工程院院士邬贺铨在视频致辞中强调："高速网络是算力基础设施的'神经中枢'，其自主可控性直接关系到国家算力安全与发展质量。面对大模型训练对网络提出的超低延迟、超高带宽、无损传输等严苛要求，发展自主rdma技术已成为产业界的共识。"

scalefabric系统的研发突破了多重技术壁垒。该系统构建了完整的自主技术体系，涵盖112g serdes ip核、交换芯片、网卡、交换机等核心硬件，以及驱动与管理软件。在性能指标上，400系列网卡采用pcie5.0接口，端口带宽达400gbps，端到端时延低至0.9微秒；交换机单端口带宽800gbps，整机交换容量双向64tbps，交换时延约260纳秒，支持800g×40或400g×80端口扩展，可满足万卡级集群的通信需求。

在稳定性与扩展性方面，该系统采用信用制无损流控机制，从根源上避免拥塞丢包，链路故障恢复时间小于1毫秒。经近万卡集群长达10个月的稳定运行验证，其交换机端口密度较英伟达ndr提升25%，网卡最大qp数支持提升100%，单子网互连规模达传统ib的2.33倍，可支撑最大11.4万卡集群部署，同时网络总成本降低30%。

实际应用层面，scalefabric已部署于国家超算互联网郑州核心节点，支撑三套总规模达3万卡的scalex智算集群稳定运行。中科曙光高级副总裁李斌透露，该系统成功支持跨pod组网及大规模并行训练任务，验证了国产原生rdma技术在高端智算场景的可行性。随着产品在超大规模集群中的落地，围绕scalefabric的高性能网络产业生态正在加速形成。

此次突破标志着我国在智算互联领域形成自主技术路径。依托在计算、存储、网络领域的长期积累，中科曙光已构建起"算-存-网"协同发展的完整算力底座，为ai基础设施提供系统级支撑。在"人工智能 "战略推动下，算力基础设施正进入升级周期，国产原生rdma网络的落地补齐了我国智算产业链的关键环节。

更多>同类内容

awe2026石头科技携全系新品亮相以创新技术	awe2026首驱科技展馆成焦点：央视专访、大
awe 2026华为全场景将迎享界惊喜彭磊透露	亚马逊全球开店“十省联动”启航，聚焦三大