工业技术网丨智能制造|工业自动化|工程技术解决方案权威平台
行业资讯

IB网络垄断已破,国产算力十万卡级难题何在?

Mar 20, 2026 IDOPRESS

3月12日,中科曙光在郑州正式发布全自研的scaleFabric高速网络产品,并宣布其已在位于郑州的国家超算互联网核心节点成功部署了万卡级国产智算集群。这一里程碑事件,标志着国产算力基础设施在突破“卡脖子”关键环节上迈出了坚实一步。

然而,当国产算力刚刚叩开万卡时代的大门,海外巨头英伟达已宣称构建了十万卡甚至更大规模的集群。从万卡到十万卡,国产算力需要跨越的不仅是数字的鸿沟,更是技术、生态与系统工程的全面挑战。

万卡初成与十万卡之距

“目前,从我知道的信息角度,曙光这个万卡是唯一一个(全国产化集群)。”中国科学院计算技术研究所王展在与笔者的沟通中直言。他的判断揭示了当前国产算力集群的一个现实:实现CPU、GPU、交换机芯片、网卡芯片全栈国产化的万卡集群,曙光scaleX是已知的孤例。与之形成鲜明对比的是,英伟达凭借其CUDA生态与InfiniBand(简称IB)网络,早已将集群规模推向了十万卡级别,并持续探索更大规模。

在国家超算互联网核心节点国产万卡集群亮相之前,高速互联领域的IB网络技术长期被英伟达形成垄断格局,其通过收购迈络思掌握了IB网络的核心技术,构筑起难以突破的技术壁垒,牢牢把控着全球高端算力集群的网络核心环节,国内算力产业向超大规模发展的步伐,正因这一关键技术的 “卡脖子” 问题备受制约。

这不仅仅是数字上的差距,其背后反映的是系统性能力的代际落差。

而曙光scaleX万卡集群的成功落地,依托自研的scaleFabric 高速网络实现了IB网络技术的国产化突破,一举打破了英伟达的技术垄断,成功解决了这一领域的“卡脖子”难题。

中科曙光高级副总裁李斌告诉笔者,从万卡到十万卡的突破,最核心的技术挑战并非来自计算节点本身,而在于互联系统。当集群规模呈数量级增长时,如何保证计算效率的可扩展性、如何维持超高可靠性,成为压倒性的难题。

无独有偶,中国信通院云计算与数字化研究所的郑立也曾公开表示,超大规模集群已成为国内外AI竞争的焦点。

据行业调查数据显示,到2025年底,全球智算基础设施投资规模巨大,而支撑下一代万亿乃至十万亿参数大模型,需要八万到十万卡左右的集群规模。国产算力若想参与这场顶级竞赛,就必须攻克超大规模组网的技术壁垒。

李斌跟笔者算了一笔简单的账:规模从百卡放大到十万卡,单点故障率即便极低,在系统层面也会被指数级放大。确保十万张加速卡能够高度协同、稳定持续运行数小时乃至数天完成一次大模型训练,其技术复杂度呈几何级数上升。

奇异摩尔联合创始人、产品及解决方案副总裁祝俊东从互联角度提供了更技术化的解读。他将超大规模集群(Scale Out)的挑战归纳为几个核心点:首先,随着规模扩大,对交换机的交换带宽和存储容量提出了极高要求(如25.6T、51.2T乃至更高),这是国产化需要追赶的。

其次,更关键的挑战在于端侧(网卡)和协议层面。传统基于IB或RoCEv2的协议面向的是“无损网络”,但当集群规模达到万卡乃至十万卡时,网络必然变为“有损网络”。这将引发一系列连锁问题:如何高效重传、处理丢包、管理大规模拥塞?祝俊东表示,其公司通过自研的Kiwi Fabric协议栈,采用更快速的检测与重传机制,来应对这些挑战。

然而,硬件和协议只是基础。祝俊东和李斌都强调了生态协同的极端重要性。祝俊东指出,到了超大规模,需要网络侧、计算侧、供电与机柜形态、上层控制系统进行整体协同。李斌则补充,这还需要与上层应用的算法和分布式训练流程深度耦合。北京科技大学储根深教授的优化实践印证了这一点:通过利用GPU显存直接互联技术,将通信路径优化,使万卡规模下某些软件的通信开销从50%降至10%。这表明,硬件能力必须通过软件栈的深度适配,才能转化为实际性能。

可靠性、协同与调优的三重挑战

实现十万卡级别的国产算力集群,绝非将现有万卡方案简单线性放大。李斌清晰地指出了三个核心挑战:大规模可靠性、与应用的深度协同、以及极高的软件系统调优门槛。这构成了国产算力向超大规模进发的“三重门”。

挑战一:超大规模下的可靠性“魔咒”。 可靠性是十万卡集群的生命线。曙光信息产业(北京)有限公司副总裁李柳指出,未来万卡、十万卡集群可能是常态,每一次计算失败背后都是巨大的成本损耗,“未来每算一次,我们争取一次性算成功”。他强调,规模扩大后,故障率恢复时间都是指数级增长,因此高可靠性是比高带宽、低延迟更重要的指标。

scaleFabric的设计正是围绕此展开,其采用与InfiniBand(IB)相同的基于信用的流控机制,从理论上保证无损传输,避免因少量丢包引发的性能雪崩。同时,曙光研发了链路故障路由快速恢复技术,将故障恢复时间降至毫秒级且与规模无关,并进行了长达10个月、累计超50万小时的设备稳定性测试。这些举措旨在对抗规模效应下的可靠性衰减,但真正的考验仍需在未来的十万卡真实业务环境中持续验证。

挑战二:与算法流程的深度协同。 算力集群的高效协同,不仅取决于硬件,更取决于上层应用的算法和分布式训练策略。李斌指出,集群能协同高效工作,“需要跟应用的算法和流程去高度的耦合”。这意味着硬件系统设计不能背离应用需求太远。

北京科技大学 计算机与通信工程学院储根深以其团队在工程计算软件上的优化实践为例,展示了这种协同的价值。通过利用scaleFabric支持的GPU显存直接互联(GDR)技术,他们将通信路径从“GPU->CPU内存->网络->CPU内存->GPU”优化为“GPU显存直通网络到GPU显存”,显著降低了通信开销。在其测试中,某些工程计算软件的通信时间占比从50%降至10%,在万卡规模下仍能保持较高的并行效率。这表明,硬件能力必须通过软件栈的深度适配和优化,才能转化为实际应用性能。然而,这种深度协同需要跨领域的专家团队,既懂芯片与系统架构,又懂AI算法与分布式框架,目前国内此类复合型人才团队仍显稀缺。

挑战三:极高的系统级调优门槛。 这是将硬件潜力充分释放的关键,也是国内产业相对薄弱的环节。过去看,国内大模型工程化落地能力比较弱,有很强的算法能力,但到大规模系统上效率往往很低。

真正让万卡以上集群性能发挥好,需要一支专业团队进行从硬件到软件的全栈调优。

科大讯飞AI工程院智算基础设施架构师鲍中帅从用户角度印证了这一点。他指出,国产单卡性能已对标甚至超越英伟达A100,但“从单卡到八卡,在一个机器内它的性能度做得还是比较好的,但是如果把它扩散到万卡,没有多少厂商有那么高的信心”。其核心瓶颈就在于网络以及基于网络的系统性调优能力。鲍中帅强调,实现“1+1=2”的前提是网络不成为瓶颈,而国内具备强大网络能力和集群方案能力的厂商并不多。这不仅是硬件的比拼,更是系统工程能力和软件栈实力的较量。

突破这三重挑战需要从芯片、网络、存储、冷却到系统软件、应用框架的“算存传一体化”协同设计。

未来高性能计算是一项系统工程,计算、存储、网络任何一环的短板都会被指数级放大。而曙光提出的scaleX超集群和算存传耦合架构,正是试图通过系统级创新,实现“1+1+1>3”的效果。然而,这条道路漫长且需要全产业链的紧密协作。

IB还是以太?用户习惯与产业现实的分野

在迈向超大规模的道路上,除了上述三个挑战之外,国产算力还面临着一个基础性的选择与挑战:高速互联的技术路线之争。当前主要存在InfiniBand(IB)和基于以太网的RoCE两条路径,它们背后代表着不同的技术传承、产业阵营和用户习惯,这一分歧深刻影响着国产生态的构建策略。

中科曙光scaleFabric选择了兼容IB生态的路线。其总工程师万伟解释,IB是“真正的无损网络”,这一特性对RDMA性能至关重要。然而,另一部分行业专家观点则认为:当前全球大部分智算中心还是基于以太网的RoCE技术,而非IB。有行业专家对笔者表示,IB最初主要服务于超算领域,被英伟达发扬光大后应用于智算,但由于其协议存在局限性,且互联网大厂已拥有成熟的以太网架构体系,若在智算领域单独部署IB网络,会大幅增加网络形态的复杂性。

这种分歧并非偶然,而是根植于用户背景。王展精准概括道:“做超算的行业从业者,原来用的是IB体系,所以他们肯定更喜欢用IB。但是现在做智算那帮人还是以互联网企业为主。这些互联网企业,他们原来做云的时候,他们就用的是以太网,所以他们觉得以太用得更顺手。”

IB网络,尤其是纯国产的IB网络实现万卡对于国产算力的“进化”意味着什么?首先,它意味着市场将是双轨并存的格局。李斌阐述了其开放生态的理念,希望支持国内不同算力芯片的适配。奇异摩尔则直接投身于RoCE路线的演进与优化,并针对其在大规模有损网络下的缺陷提出了自己的协议解决方案。

其次,这带来了增量部署的兼容性挑战。王展指出,在全新部署的国产集群上,应用可以无缝迁移。但如果用户想保留原有英伟达IB交换机,只替换国产网卡,可能会因英伟达的私有协议限制而无法通信。这体现了生态替代过程中的现实摩擦,也凸显了掌握自主核心技术的必要性。

因此,国产解决方案能否成功,不仅取决于单一技术路线的性能优劣,更取决于坚定并做强自主可控的 IB 技术路线,同时以开放的姿态,灵活适配IB与RoCE双轨生态,降低不同背景用户的迁移和运维成本。

乐观的一面是,国产算力正走出一条更具优势、更符合未来趋势的发展路径。祝俊东告诉笔者,美国走的是“暴力堆算力”的路线,追求单卡算力和规模的快速迭代;而中国则走高效集约、自主可控、开放共享的精细化发展路线,通过提升算力效率、降低成本,推动AI普惠,同时依托电力优势和互联技术的快速追赶,实现“以系统优势弥补单点差异“的高质量发展。在软件层面,国产厂商通过精细化优化,充分挖掘现有硬件的算力潜力;在架构层面,DSA路线、存算一体、重构计算等新型架构的探索,也为国产算力突破海外限制提供了新路径。

(责任编辑:zx0600)