2025年8月16日,由中国计算机学会主办、CCF YOCSEF深圳组织的“超算互联网计算框架的机遇与挑战”技术论坛在鄂尔多斯CCF全国高性能计算学术年会(HPC China 2025)上顺利举行。HPC China由中国计算机学会高性能计算专业委员会创建,是国内高性能计算领域最具影响力的年度盛会之一。
本次论坛由YOCSEF深圳学术秘书、南方科技大学助理教授李卓钊和YOCSEF深圳委员、哈尔滨工业大学(深圳)教授施少怀共同担任执行主席,吸引了十余位来自高校和企业的专家学者参会。YOCSEF总部现任副主席鄢兴雨、深圳现任主席漆舒汉等也到场并深度参与了交流与讨论。
执行主席李卓钊和施少怀
引导发言:框架创新与跨域协同的多维探索
在引导发言环节,多位嘉宾从架构逻辑、硬件适配、算力调度和能效优化等多个角度探讨了超算互联网的发展路径。清程极智副总裁何万青指出,未来智算与超算的融合不仅是技术叠加,更是架构逻辑的重塑,他提出的“数据走向计算还是计算走向数据”是亟需回答的核心问题。
国防科技大学的张钊宁则介绍了在混合精度、量化和稀疏化等方面的探索,展示了通过软硬件协同优化显著提升大语言模型训练与推理效率的实践经验,并强调框架设计必须紧扣硬件生态而非一刀切。
鹏城实验室的彭涵阳结合“逻辑集中、物理分散”的虚拟超级集群建设经验,指出算力碎片化已成为制约中国大模型发展的瓶颈,并深入探讨了广域分布式大模型协同计算的关键技术,强调跨域训练框架和算法的重要性。
联科集团/联智科技的付鸿雁指出异构算力管理的难点在于“纳管—调度—安全”的一体化,并详细介绍了面向异构集群的Slurm与Kubernetes融合调度实践经验,说明跨域环境下的统一调度需要在兼容性与性能之间找到平衡。
哈尔滨工业大学(深圳)王强表示少量性能损失换取显著能效提升是现实可行的策略。他提出的“共享效益优化调度”理念,认为未来框架必须不仅追求极致性能,还要兼顾绿色节能与公平性。
中科曙光的张磊提出“超智融合”新范式,主张算力、算法与存储的深度耦合,构建原生支持大模型并行的新型管理平台,推动从底座设计到“最后一公里”的全面创新。
引导嘉宾发言和思辨
思辨讨论:聚焦需求、机制与框架技术瓶颈
在随后的思辨讨论环节,嘉宾们围绕跨域训练与推理的真实需求、合作机制以及计算框架设计展开了深入交流。有嘉宾认为,跨域计算并非所有应用的刚性需求,但在数据合规、分布式数据采集、边缘实时推理以及单一算力中心无法支撑超大模型训练时,确有不可替代的价值。不同观点也在讨论中充分碰撞:部分嘉宾强调应依靠高速专线互联大型算力中心,解决“放不下、算不动”的大模型训练问题;另一些嘉宾认为,跨域推理的需求相对不迫切,目前更多是出于成本优化和资源利用率的考虑,通过互联网聚合碎片化资源,将推理请求分发至多个域。与会者形成共识,跨域计算的价值必须以真实需求为驱动,而非停留在概念层面,同时现有计算框架尚未对跨域训练和推理提供成熟支持。
在合作机制的探讨中,专家们指出,推动跨域算力开放与协作既需要国家层面的战略引导,也离不开现实的经济与技术动因。随着国家数字化进程加速,统一的算力调度平台被认为是提升利用率、降低使用门槛的关键。一些与会者结合实际案例强调,算力供应商在利旧处理、抢占式实例管理以及小规模集群整合方面已有探索,说明多方开放共享在成本与效率上具有现实基础。如果能纳入超算互联网平台进行统一管理和租用,将显著提升跨域协作的可行性。
在技术瓶颈与框架设计的讨论中,与会嘉宾一致认为,目前尚无框架能够原生支持跨域训练和推理,挑战主要集中在网络互联、异构兼容与容错恢复。跨域环境下带宽受限、延迟过高以及不同芯片架构间的适配问题,使得大规模分布式训练面临巨大障碍。大家提出了几条思路:通过分层通信、异步或低频同步来缓解延迟压力;通过资源抽象与任务拆分实现异构系统的高效协同;并通过增强容错与弹性机制保障跨域任务在节点失效或抢占式实例波动下的稳定运行。讨论最后形成共识:未来的计算框架必须在性能、灵活性与可用性之间找到平衡,并与现有调度系统生态无缝对接,才能真正支撑跨域训练与推理的需求。
参会嘉宾合影
论坛最后,YOCSEF深圳现任主席漆舒汉以及总部现任副主席鄢兴雨分别作总结发言,本次论坛充分汇聚了企业与学术界的多维度专家,通过深入对话和开放交流,明确了跨域训练和推理的需求,总结了促进多方协作的协作机制,凝练了目前跨域计算框架所遇到的技术瓶颈和可能得解决路线。论坛以产学研多方的深入交流为契机,为推动计算框架与超算互联网设施的协同演进奠定了坚实基础。
YOCSEF深圳现任主席漆舒汉以及总部现任副主席鄢兴雨总结发言
图文|李卓钊 施少怀
编辑|王晶晶
审核|漆舒汉