近日,美国不断加大对我国高端芯片的封锁力度。11月12日和12月2日,美国商务部相继出台多项政策,以限制中国尖端半导体及相关制造设备企业发展。面对压力,国家各部委相继出台政策支持国产芯片发展,国产CPU和GPU已取得初步成果。然而,作为支撑CPU、GPU等计算芯片互联的RDMA网卡芯片,起步晚、规模小、发展慢,目前国内成熟商用RDMA网卡芯片最高性能不超过2×100G。在这一背景下,CCF YOCSEF天津于2024年12月14日在天津东凯悦酒店举办了主题为“芯脉相承:芯片之后,如何打通网络联接动脉?”的技术论坛,以探讨国产RDMA网卡芯片距离400G、甚至800G还有多远的路要走。
图1:论坛嘉宾合影
经过参会嘉宾的广泛探讨和热烈思辨,本次论坛观点总结如下:
1. 在国内RDMA网卡产业的未来发展中,芯片制程工艺的进步是RDMA网卡性能提升的核心动力,是推进产业发展的中流砥柱,但短期内难以实现重大突破,而硬件逻辑设计的创新则作为应对市场需求、缩小与国外先进水平差距的权益之计。专家指出,基于多核架构有望弥补我国芯片制程工艺的不足,将RDMA网卡速率提升至400G、甚至800G。
2. 专家普遍认为,无损网络对于充分发挥GPU算力至关重要,但部署难且成本高;有损网络在部分容忍丢包的训练场景中更具成本和扩展性优势,当前更加适合AI万卡集群互联。在Scale-Up与Scale-Out分离与融合的思辨点上,专家普遍认为, Scale-Up与Scale-Out短期是分离状态,但长期要坚持基于以太网,对这两种网络进行融合。
3. 专家呼吁,国产RDMA网卡技术标准和产业生态需要由中立科研机构或产业联盟来进行推动,在物理层、链路层、网络层和传输层形成RDMA技术标准,并与美国主导的UEC标准兼容互通,推动产业链上下游的合作,包括芯片制造商、网卡生产商、服务器供应商、数据中心运营商等,共同构建健康的产业生态 。
本次论坛由中国计算机学会(CCF)主办,CCF青年计算机科技论坛(YOCSEF)天津分论坛学术委员会组织,天津大学天津大学TANKLAB重点实验室和浪潮天津共同支持举办。YOCSEF天津AC委员、天津大学智能与计算学部李文信教授和CCF YOCSEF 天津 AC 委员浪潮集团(天津)教科研行业总监王琦共同担任执行主席,CCF YOCSEF 天津 AC 委员浪潮集团(天津)客户经理梁润泽担任线上主席。
图2:论坛执行主席李文信、王琦与在线主席梁润泽
引导发言阶段,论坛邀请了天津大学讲席教授、国家级领军人才徐江涛,CCF数字图书馆编委会主任苏金树教授以及中科驭数产品运营部副总经理曹辉作为引导发言嘉宾,分别从硬件集成电路技术发展机遇与挑战,大规模智算网络构建,以及大规模AI集群中的生态等角度对国产RDMA网卡芯片发展进行了展望。
徐江涛的引导发言主题为《后摩尔时代集成电路技术发展机遇与挑战》。徐江涛从集成电路的产业背景、发展历史、技术挑战与机遇以及典型芯片四个方面分析了后摩尔时代集成电路技术的现状与前景。徐江涛强调,集成电路是信息产业的核心基石,也是国家战略的重要支撑。面对全球技术封锁和产业链不安全性,中国需要突破工艺、装备和设计等关键环节的瓶颈。后摩尔时代中集成电路在技术层面需解决功耗、寄生参数和制造成本等问题,同时探索异构集成与感存算一体等新兴方向。市场层面,碎片化需求为创新中小企业带来了成长空间。徐江涛呼吁通过数字化与智能化制造技术实现集成电路技术的高效发展,并强调科研与应用结合的重要性。
图3:天津大学讲席教授、国家级领军人才徐江涛
苏金树的引导发言主题为《大规模智算网络的思考》。他指出,智能训练计算量正以每年10倍的速度飞速增长,远超摩尔定律所能预期。随着大模型的崛起,针对智能算力的需求激增,直接带动了对大算力与大网络的强烈诉求。为应对这一趋势,他重点剖析了多个层面的关键技术创新:在计算架构方面,通过优化GPU与计算部件间的带宽、引入NVLink突破PCIe瓶颈,以及采用混合精度计算与模型压缩等手段,大幅提升了计算与通信效率;在网络层面,通过定制化网络设计与先进拓扑结构,如Google的G-net与Nvidia的Infiniband技术,优化了大规模智算网络的通信性能。他的核心观点在于,计算架构和网络技术的协同创新是应对大规模智算挑战的关键路径,并为未来持续增长的智能算力需求与数据处理规模提供了清晰的发展方向。
图4:CCF数字图书馆编委会主任苏金树教授
曹辉的引导发言主题为《DPU助力AI算力网络联接》。曹辉指出,随着大模型和AI应用的普及,智能算力需求正急剧攀升,中国预计到2024年智能算力规模将达246EFLOPS,占全球30%,由此带来的算力资源与网络带宽挑战日益凸显。作为三大算力来源(CPU通用算力、GPU智能算力、DPU基础IO算力)之一的DPU,在AI算力网络中承担着关键角色。曹辉强调GPU与其他设备间的高效通信至关重要,通过GPU Direct RDMA技术,GPU可直接与设备进行数据传输,减少内存占用和CPU负担,提高整体AI模型性能。综上,DPU的引入与发展将显著增强AI算力网络联接能力,满足未来庞大的数据处理需求。
图5:中科驭数产品运营部副总经理曹辉
图6:执行主席李文信和王琦为三位引导发言嘉宾颁发感谢牌
三位引导发言嘉宾发言结束后,论坛进入了思辨环节。本次论坛的三个思辨议题为:“克服芯魔:国产400G RDMA网卡的技术突破,是侧重逻辑设计的创新还是等待制程工艺的进步?”、“突破软肋:万卡AI集群需要有损网络还是无损网络?Scale-Up和Scale-Out需要融合还是分离?”、“构筑生态:如何构建国产RDMA网卡技术标准与行业生态?”
在思辨环节,中科院计算所互连技术实验室主任、中国计算机互连技术联盟秘书长、无锡芯光互连技术研究院院长郝沁汾,复旦大学教授、国家特聘青年专家徐扬,苏州盛科通信股份有限公司副总裁、部委计算机网络组特聘专家、内生安全联盟理事成伟以及中国科学院计算技术研究所副所长、研究员包云岗围绕国产RDMA网卡芯片如何突破400G/800G贡献了自己观点。同时北京大学杨仝教授,南京大学郑嘉琦研究员,云脉芯联产品总监孙伟,浙江大学王则可研究员,阿里巴巴高级技术专家高佳琦以及天津分论坛10余位AC委员也参与了思辨。
针对第一个议题,部分专家强调,硬件逻辑创新是现阶段提升RDMA网卡性能的有效路径。在芯片制程工艺受限的情况下,通过优化协议处理效率,如结合RDMA与TOE技术,可在AI训练、HPC及数据中心互联等多场景中提供高效解决方案。通过针对特定应用场景的优化,硬件逻辑创新能平衡硬件升级的高成本,使14nm芯片在复杂场景中接近更先进制程工艺的表现。而部分专家认为,芯片制程工艺的进步是提升RDMA网卡性能、缩小与国际领先水平差距的关键,但芯片制程工艺短期内难以实现重大突破,尤其在带宽从200G升级至400G及更高时,国内芯片制程工艺难以为继。专家提出,可以通过多核架构的方式,部分弥补制程工艺的不足,例如以多个14nm核心等效实现7nm芯片算力,使RDMA网卡突破400G甚至800G。
图7:议题一部分思辨嘉宾
针对第二个议题,部分专家指出,无损网络通过流控机制避免数据丢失,从而最大化GPU算力利用率,尤其在分布式训练任务中具有重要作用。凭借低延迟和高稳定性的特点,无损网络被视为满足AI大模型训练需求的关键技术。然而,有损网络因无需专用设备而具备更低成本和更高可扩展性,特别适用于对数据丢包容忍度较高的训练场景。通过高效的丢包恢复机制,有损网络能够在性能与成本之间实现平衡。而对于Scale-Up与Scale-Out的融合与分离问题上,一些专家认为,融合可以简化网络架构,降低管理复杂度;另一些专家则认为,分离设计能够更好地满足单机内和跨节点任务的不同需求。短期来看分离可以快速构建AI大模型训练集群,满足目前产业需求,但从长期来看,随着RDMA网卡技术的进一步发展,融合方案将以更高的性能和灵活性成为主流。
图8:议题二部分思辨嘉宾
针对第三个议题,与会人员从各个方面展开了思辨讨论。专家们指出,标准的制定往往面临“闭环逻辑”的难题:厂商没有动力推动标准化,而用户则在现有方案下运行良好,缺乏主动变革的需求。这种局面导致标准制定的初期往往动力不足。因此,专家呼吁由中立科研机构、领先企业或政府支持的联盟为主导,形成突破性推动力,推动国产RDMA网卡技术标准和产业生态,在RDMA网卡物理层、链路层、网络层和传输层形成标准,通过发布开源参考实现,提供统一的技术基础,与美国主导的UEC标准兼容互通,让其他厂商在此基础上优化自己的方案,吸引更多企业加入,并逐步推动行业标准的发展,共同构建健康的产业生态。
图9:议题三部分思辨嘉宾
最后,CCF YOCSEF天津现任AC主席王朕(天津财经大学)感谢了本次出席活动的各位来宾,各位专家学者的真知灼见体现了论坛的专业深度,我们一定会认真总结思辨讨论内容,秉承YOCSEF一贯的“承担社会责任”的宗旨,用本次技术论坛形成的观点和问题解决思路为国产RDMA网卡芯片的发展贡献一份力量。
图10:天津分论坛AC主席王朕为四位思辨嘉宾颁发感谢牌