背景与议题
目前AI大模型已经展现出越来越强的能力,成为AI发展的新趋势。但研究AI大模型却需要海量数据与强大算力支持,对于高校与中小企业而言,面临算力不足、分布式训练困难等难点,这导致AI大模型技术逐渐被少数公司所垄断。从“硬件设施+训练框架”的算力基础设施角度破局,降低AI大模型训练成本与技术难度,是打破AI大模型垄断的一条可行之路。本次论坛将从大型AI模型研究中存在的痛点引入,讨论哪些成本与技术因素是制约AI大模型研究的关键所在,进而进一步从算力硬件设施与AI训练框架两个角度出发,探讨可以降低AI大模型训练成本与技术难度的软硬件技术方法。因此,本技术论坛将设置如下思辨议题:
1. 硬件设施破局:NVIDIA GPU已经成为当下AI大模型训练的硬件基础,但却面临计算成本高昂、中小型实验室难以负担的问题。大型AI模型训练成本的核心瓶颈来自哪里?近年来新兴的共享式超级计算平台、算力网络、专用AI加速器等技术,能否有效降低AI模型的训练成本?
2. 训练框架破局:AI模型训练框架难以同时兼得高效性和易用性。计算效率的提高通常要求训练框架对外暴露更多底层细节,而易用性强又要求训练框架能提供更高层的封装、屏蔽技术细节。在使用Tensorflow、PyTorch等框架训练大型AI模型时,面临着哪些具体的困难?分布式并行模型训练是否足够易用?针对AI大模型训练的特点,有哪些通用训练技术与框架设计方法,可以在提升计算效率的同时又降低分布式并行训练的难度?
引导嘉宾
张小琼,北京并行科技资深解决方案工程师,主要从事超算/智算平台建设方案及技术支持相关工作;曾参与探月工程嫦娥四号、五号以及火星探测“天问一号”测轨分系统超算平台的运行保障工作,参与过清华、南大、浙大等高校超算平台的设计和建设工作,曾带领团队同时远程运维上百套超算集群,具有丰富的行业服务经验。
王肇康,南京航空航天大学计算机科学与技术学院讲师,2021年博士毕业于南京大学计算机科学与技术系PASA大数据实验室,研究方向为分布式并行计算与图计算。2021年3月加入南京航空航天大学计算机科学与技术学院工作,迄今已在包括TPDS、ICDE、JPDC在内的国际著名期刊与学术会议发表论文10余篇,其中以第一作者或通讯作者身份发表论文5篇,授权发明专利3项;正在主持国家自然科学基金青年基金,目前为中国计算机学会分布式计算与系统专业委员会执行委员,中国计算机学会数据库专委会通讯执行委员。
沈逸飞,北京超级云计算中心南京分中心经理,CCF YOCSEF南京AC委员,多年来从事高性能计算及人工智能算力资源、技术及应用领域的发展与推广。
撰稿:王肇康、沈逸飞
审核:蔡惠
关于YOCSEF南京