近年来,算力基础设施建设已成为推动数字经济发展的关键驱动力。为此,工业和信息化部等六部门联合发布了《算力基础设施高质量发展行动计划》,明确指出算力是数字经济时代的新型生产力。“算力如水电”这一愿景逐渐成为全社会对算力未来发展的共同期盼。然而,超算应用在跨域部署时仍面临诸多挑战,包括算力基础设施体系结构的多样化、应用生态系统建设不完善、数据传输延迟问题等。
在此背景下,2024年9月26日,由中国计算机学会(CCF)主办,CCF青年计算机科技论坛(YOCSEF)深圳学术委员会组织的"基于超算互联网大规模计算框架的机遇和挑战"技术论坛在武汉光谷会展中心举办。该论坛为CCF全国高性能计算2024年学术年会的主题论坛之一,由CCF YOCSEF深圳AC委员、南方科技大学助理教授李卓钊和CCF YOCSEF深圳老AC、香港浸会大学助理教授周池共同担任执行主席。
与会代表合影
论坛特别邀请了多位行业专家担任引导发言嘉宾,包括中国信息通信研究院信息通信融合创新中心新技术与产业应用研究部副主任(主持工作)、高级工程师穆琙博,国家高性能计算机工程技术研究中心副总工卢麒麟,中山大学计算机学院“百人计划”副教授黄聃,香港科技大学(广州)助理教授文泽忆,湖南大学信息科学与工程学院教授、国家超算长沙中心常务副主任陈果。参与思辨研讨的嘉宾还包括广东省智能科学与技术研究院研究员冯圣中,Meta首席科学家Pavan Balaji,深圳大学教授聂伟,光明科学城公司博士齐富民,以及YOCSEF深圳主席、广东省智能科学与技术研究院副研究员黄典等。
穆琙博首先聚焦算力上网和算力上网基础设施主题,从顶层战略、设施布局、行业应用等多个方面,梳理了算网基础设施的国内外发展现状,剖析了算网基础设施的总体发展态势,归纳了当前推进算网基础设施布局的主要问题并给出发展建议和展望。最后,他指出期待和行业的专家们一起共建一个成熟度模型,从基础建设协同发展和融合共生出发,聚焦于设计规范、组织管理以及技术维护多个层面,来指导整个行业推动上网基础设施逐步走向成熟。
中国信息通信研究院 穆琙博
卢麒麟从超算互联网平台技术框架出发,指出超算互联网平台通过一体化算力服务和调度平台连接超算、智算等各类异构算力中心,需要特别针对高通量和大规模算力调度场景进行关键技术攻关;通过应用封装、算力标准化等技术屏蔽硬件资源差异,实现多元异构资源的统一建模、调度与编排管理;并建设算力应用商城,完成共性工具库、数据集、应用软件库建设,建立异构环境下标准化的应用适配、封装、发布、交易体系。
国家高性能计算机工程技术研究中心 卢麒麟
黄聃针对传统HPC-AI工作流机制难以高效支撑HPC和AI任务之间大规模、高并发的数据和任务交互的问题,介绍了研发深度融合的HPC-AI协同开发运行框架及其运行时系统关键技术,在统一的开发运行框架和异步任务调度等机制下紧耦合HPC和AI应用(HPC-AI应用),降低应用开发和运行的复杂度,提升大规模数据流和任务流性能和突破可扩展性瓶颈,提高科学发现质量和效率。
中山大学 黄聃
文泽忆以目前热门的大模型为背景,介绍了他们团队如何在高维数据上进行高效梯度提升树训练。他指出目前基于直方图的GBDT训练方法处理数百万特征数据时,通常需要大量内存来存储训练数据和直方图,对内存有限的GPU上进行训练形成巨大的挑战,他们基于GPU开发了GBDT框架ScalaGBM。ScalaGBM可在不牺牲训练质量的前提下,减少内存占用,并且相较于最先进的GBDT框架实现了高达39倍的加速效果。
香港科技大学(广州) 文泽忆
陈果则指出人工智能技术飞速发展,对智算中心的计算能力提出了更高要求,万卡甚至十万卡的集群成为训练基础大模型的入场门槛。随着运算规模的不断增长以及芯片运算速度的提升,训练任务的瓶颈已经不在于单个GPU卡的算力。智算集群内各节点间网络传输所消耗时间在整体智算任务完成时间中的占比不断上升,在大型智算任务中甚至可高达65%。智算中心网络的传输效率成为了决定智算任务完成效率的关键。接着,他从高性能网络角度,探讨了面向大规模智算中心的高性能互连网络技术,介绍了目前的产业现状和前沿技术,并分享了其团队近期在RDMA协议栈优化方面的研究工作。
湖南大学信息科学与工程学院 陈果
思辨环节与会专家围绕以下3个议题展开了深入、热烈的思辨:“超算互联为应用带来什么样的变化?适用于超算互联网的应用有哪些?”、“大规模计算架构是否应该摒弃“one size fits all”的理念?”以及“ 跨域部署在超算互联网中的数据如何高效管理?”
与会者探讨了算网基础设施、超算互联网平台的技术框架及调度系统研发,以及超算互联网的跨域应用需求。重点分析了超算平台高效流式HPC-AI协同开发运行框架,探讨了构建大规模计算框架所面临的技术挑战。同时,与会者就跨域数据传输的速率和安全问题进行了深入交流。
现场思辨环节
在应用场景方面,专家们指出超算互联为跨地域和跨领域的协作开辟了新可能,已初步形成一定规模的商业模式,并着力解决底层架构面临的主要技术问题,包括超算之间的架构差异、跨域带来的数据延迟和隐私问题等。Meta首席科学家Pavan分享了Meta的现状,目前已经实现数据中心之间的并行,但还没有实现真正的跨域并行,指出在政治与技术层面面临的挑战等。关于大规模计算架构,与会者认为需要在通用架构和定制化解决方案之间寻找平衡,并提出发展模块化、可组合的计算架构以适应多样化需求。在跨域部署的数据管理方面,专家们强调了高效数据管理的重要性,提出了分布式存储和边缘计算等优化技术,特别指出数据主权和隐私保护的关键性。
最后,广东省智能科学与技术研究院研究员冯圣中作总结发言,他表示,本次论坛不仅展示了中国在超算领域的最新研究进展,也为推动超算互联网技术的发展和应用搭建了重要的交流平台,将对国家算力基础设施建设和数字经济的高质量发展提供宝贵的思路和动力。
广东省智能科学与技术研究院 冯圣中