2022年12月1日下午,由中国计算机学会主办,CCF YOCSEF上海组织的闭门技术论坛“人工智能算力基础设施建设与多元跨域算力调度”在上海计算机软件技术开发中心成功举办。本次论坛由CCF YOCSEF上海副主席、上海大学副教授刘通担任执行主席,CCF YOCSEF上海主席、上海理工大学教授裴颂文致欢迎词。
2021年5月,国家发展改革委、工信部等部门联合发布了在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点的文件,力求进一步打通网络传输通道,提升跨区域算力调度水平。2022年2月,“东数西算”工程正式全面启动,以求把东部密集的算力需求引导到西部,既能缓解东部能源紧张问题,也给西部开辟一条发展新路。当下, “算力网络”、“人工智能算力”、“多元算力调度”已然成为当下学术界和产业界关注的热点。苏浙沪皖地区十四五规划中指出:通过新基建工程构建长三角地区数据中心集约化、协同化、绿色化新发展格局,统筹推进数字基础新设施,多措并举打造高端低碳数据中心集群,进一步促进新型基础设施高质量发展,深化大数据协同创新,支撑长三角地区数字化转型发展。2022年6月,伴随着“算力浦江”行动计划启动,上海市发改委启动长三角枢纽节点基建工程与公共算力服务平台建设,杭州和南京也先后立项建设国家级超算中心,新的长三角算力经济布局逐步完善。经过近几年的研发,国产人工智能计算芯片设计厂商已逐步进入流片和小规模量产等阶段,随着国产芯片生态体系的不断丰富和完善,将有越来越多的国产智能计算设备部署并投入应用。
在此背景下,本论坛从多元算力调度、人工智能芯片、边云协同部署等角度共同探讨算力基础设施建设中存在的挑战与发展路线。本次论坛邀请了上海大学计算机学院讲师刘洋、上海云赛创鑫企业管理有限公司总经理李曦、中国电信上海公司云计算首席架构师廖文昭、商汤科技副总监及上海人工智能实验室青年科学家李秀红、云智慧(北京)科技有限公司技术总监李泓川担任引导发言嘉宾。参与讨论的特邀嘉宾还有CCF YOCSEF上海主席、上海理工大学教授裴颂文,YOCSEF上海荣誉委员、上海大学教授童维勤,上海计算机软件技术开发中心主任蔡立志,长三角国家技术创新中心区域合作部业务总监吴俊伟,上海市城市数字化转型应用促进中心张怡,中国科学院上海高等研究院副研究员郑小盈,上海龙宇燃油股份有限公司董事会秘书张晔侃,上海南洋道客数字科技有限公司副总经理樊华,上海超级计算中心徐莹,上海大学副教授支小莉等多位来自学术界和产业界的思辨嘉宾。
w 引导发言
第一位引导发言嘉宾是上海大学计算机学院讲师刘洋,讲演题目为《多元算力调度的机遇与挑战》。他首先指出算力网络是国家新基建战略的核心,它旨在连接和调度各地数据中心分散的算力,以统一服务的形式实现计算资源、存储资源、网络资源的按需分配。接下来介绍了算力网络的三层技术图谱,包括基础设施层、编排调度层(算网大脑)和服务运营层。紧接着介绍了整个调度系统的发展过程以及未来发展趋势。最后提出了多元算力跨域调度面临的计算作业复杂多样、算力资源复杂多样和算网协同的三个技术挑战。
第二位引导发言嘉宾是上海云赛创鑫企业管理有限公司总经理李曦,讲演题目为《多元创新视角中的数算经济探索》。他首先抛出了一个新的概念——数算经济,由数据本身和算力这两个技术形态所对应产生的经济形态,并定义了数算经济的三大基石。接着介绍了东数西算”是数算服务纵深发展的典型案例,并提出参考金融机构之间做同业拆借进行算力定价的创新模式。最后提出借力基础设施REITs从政策与需求两方面支持驱动数算经济的发展。
第三位引导发言嘉宾是中国电信上海公司云计算首席架构师廖文昭,讲演题目为《算力调度与多云平台》。他主要介绍了算力浦江计划的相关内容以及多云融合的关键技术两部分内容。算力浦江的总体目标为,依托上海新型互联网交换中心平台交换架构的独特性,先行先试探索打造全国首个算力交易集中平台。包括优化数据中心建设布局、筑强新型算力网络体系、提升算力赋能应用水平等多个重点任务。企业之间有多个云但不能互通,云网融合已成刚需。会上详细介绍了混元多云调度引擎X-Merging、异构多云接入套件、分布式多云容器集群等多项关键技术。
第四位引导发言嘉宾是商汤科技副总监、上海人工智能实验室青年科学家李秀红,讲演题目为《人工智能芯片适配和软件生态构建:从算子和图的角度》。他从四个方面展开,首先介绍了人工智能芯片适配的现状,接着分别从计算和图编译两个路径介绍人工智能芯片适配的具体方式。最后介绍商汤在标准算子接口跟标准编译接口的构建。
第五位引导发言嘉宾是云智慧(北京)科技有限公司技术总监李泓川,讲演题目为《数据中心运维/运营的数字化转型—从理念到实践》。他首先介绍了数据中心数字化转型的趋势以及提升路线。接着主要介绍了云智慧数据中心的智能运维管理解决方案,包括数据采集、运维中台、AI算法、监控和可视化等多项能力。最后介绍了企业智能运维平台、数据中心自建供配电智能化管理两个落地实践案例。
w 思辨环节
思辨题目一:“端边云协同范式下多元算力调度的挑战与发展路径”
刘洋博士认为,算力调度的第一步是要对服务器的性能表现进行监控。由于作业的多样性导致了数据监控很困难,比如微服务因其分布式追踪系统的采样率不一致,会导致数据难以匹配。每个部门独立为政,很难聚合在一起,导致整个调度系统缺少全面的监控数据。 从数据中心运维的角度上,李泓川先生提出了自己的观点。首先,数据在采集过程中需要构建一个调度或者结算的链条,该链条负责监控从任务发起到任务结束的所有资源消耗。这个过程涉及有前后顺序的异步动作,因此需要有一定的规范指导。其次,目前国际已相应的标准规范,备受一些国外大型企业关注。所以我们从生成开始就要考虑规范性,进而帮助后期对状态的表征进行分析。支小莉老师认为基于容器的虚拟化技术是目前比较可行的多元算力调度路线。当前CPU、GPU还只能作为独立的资源进行调度,因而,解决多元算力调度问题先需要关注多元算力是否能分开。另外,资源的能力如何以标准及准确的方式表征,才能跟作业之间的需求匹配也是一个关键问题。廖文昭从电信多云融合案例的角度分享了其对于多元算力调度的见解,他指出虽然从概念上能够把多个异构云看作同一个云,但在技术上异构仍然是一个比较大的挑战。如何实现异构算力的调度,目前只是一个开端,后续还需要更多的科研投入。来自云赛创鑫的李曦分享了他们在编排调度上的实际经验,首先可以肯定的是要基于历史经验数据去做调度,其次调度策略只能无限趋近最优,但是达到瞬时优化在短期内是难以实现的。龙宇燃油的张晔侃认为,从算力网络产业发展的角度来讲,正在从基于传统数据中心的集中式部署转向基于边缘计算的分布式部署。虽然目前中国的算力部署已位居全球第二,但受限于空间和能耗的约束,一些中心区域还缺少真正的边缘算力部署。我们也在与央企合作推进边缘机房的基础设施部署以及云边端立体化协同的架构部署。目前存在的问题是搭建了众多边缘算力后,是否能够有真正的应用落地,是否能够匹配产业发展的速度。
思辨题目二:“多元人工智能算力部件的硬件适配与软件生态构建”
来自商汤科技的李秀红博士指出当前国产人工智能芯片相比英伟达芯片,在计算支持完备性、性能、长尾计算支持能力和能效等方面存在较大差距。来自上海超算的徐莹博士认为,从计算中心的角度讲,软件生态会成为一个巨大的问题。对于国产硬件厂商而言,某些硬件供货商会愿意配合核心软件进行自主适配。例如,一些小批量量产的国产芯片会配合某些场景做定制化工作。但总体而言,由于种种原因软件的迭代是远远落后的。来自中国科学院上海高等研究院的郑小盈副研究员分享了他们在某国产GPU板卡上的测试实验结果,结论是相比于英伟达的板卡,运算速度虽然略慢,但人工智能算法的移植是很方便的。
思辨题目三:“多元人工智能算力性能测评的挑战与标准制定”
支小莉老师认为智能算力性能的测评存在三个关键问题:1)如何制定标准化的性能指标?2)用哪些参考模型进行测评能够代表算力水平?3)第三方的AI芯片的测试平台应该如何定位?才能对国产芯片以及整个生态发挥作用。软件中心的蔡立志主任认为,基准评测非常重要,关系到整个产业的导向。如果无法用结构模型或者一种场景来涵盖所有的基本特征,那么可以针对当前已有的多种模型抽象出若干个特征,进而反应出真实应用的具体情况。比如卷积神经网络和强化学习的运算模式差异很大、文本处理和图像处理的算力要求差异也很大。对于不同应用场景依据其本身的计算特征进行分类,再做基准评测模型,可有助于问题的解决。考虑到硬件多元化、计算框架多元化,同样算子得到的评测结果也会有较大差异,因此还需要考虑评测对象是否与机器学习框架有关系。鉴于上述若干挑战,首先需要建立多元计算的计算模型,在此基础上开展若干领域、若干框架的标准族,从而形成一个多元算力的标准体系,包括术语类、参考模型、应用类等。来自南洋道客的樊华认为不同行业的应用场景和应用方式不一样,就芯片测定标准而言,很多AI芯片不是通用的、而是专用的。用同一种模型去测试不同的AI芯片是不可行的。长三角国家技术创新中心的吴俊伟指出,从传统的高性能计算和云计算的经验来看,行业的应用最能带动计算、存储等各方面方面能力的提升。因此算力服务需要跟应用场景结合,没有实际应用的带动,底层技术的发展无法起到很大的作用。所以我们在探讨底层技术的时候,其实也非常需要贴近最后应用需求。