2024年8月17日上午,CCF YOCSEF长沙在中南大学新校区信息楼330报告厅举办了“大模型助力网络运维,梦想如何照进现实?” 技术论坛。在网络运维面临着前所未有的挑战,尤其是在CDN领域。随着互联网用户需求的增长和企业全球化布局的推进,CDN网络不断扩展,网络故障的处理变得愈发复杂。节点数量庞大、类型多样,导致故障排查与缓解工作面临诸多挑战。这些网络故障不仅增加了宕机的频率,还可能引发用户数据丢失、潜在安全风险、以及严重的经济损失,进而影响用户的日常使用体验和企业的生产力。
与会人员合影
参会人员由引导嘉宾、思辨嘉宾、特邀嘉宾和CCF YOCSEF长沙AC委员近四十位专家学者组成。
引导嘉宾:
苏金树,军事科学院教授,CCF互联网专委会荣誉主任
裴 丹,清华大学长聘副教授,博士生导师,国家级人才
边凯归,北京大学长聘副教授,博士生导师,国家级青年人才
思辨嘉宾:
王 峰,字节系统智能运维架构师
陈鹏飞,中山大学计算机学院教授,量子计算与软件研究所副所长
程 龚,南京大学计算机学院教授,国家级青年人才
特邀嘉宾(不分先后):
操佳敏,阿里云研发工程师
单洪博,中国建设银行运营数据中心
范 波,兵装集团自动化研究所
韩 静,中兴通讯
贺 健,中兴通讯
花小磊,中国移动研究院
贾 统,北京大学
李忠良,中兴通讯
毛伯敏,西北工业大学
聂晓辉,中国科学院
苏玉鑫,中山大学
孙永谦,南开大学
孙振喆,中兴通讯
王 博,阿里云
王 璐,西安电子科技大学
肖 桐,清华大学
CCF YOCSEF长沙
陈荣茂,国防科技大学,YOCSEF长沙主席
娄小平,湖南师范大学,YOCSEF长沙副主席
纪军刚,深圳市政通电子股份有限公司,YOCSEF长沙副主席
欧阳雪,国防科技大学,YOCSEF长沙AC
陈 果,国家超算长沙中心,YOCSEF长沙AC
胡 凯,湘潭大学计算机学院,YOCSEF长沙AC
覃立波,中南大学,YOCSEF长沙AC
童 钊,湖南师范大学,YOCSEF长沙AC
唐枫枭,长沙志新科技,YOCSEF长沙AC
张永敏,中南大学,YOCSEF长沙AC
姜文君,湖南大学,YOCSEF长沙AC
张嘉莲,并行科技,YOCSEF长沙AC
赵真汝,湖南庚云科技,YOCSEF长沙AC
论坛活动现场
本次论坛由中国计算机学会(CCF)主办,中国计算机学会青年计算机科技论坛长沙分论坛(CCF YOCSEF长沙)组织,中南大学唐枫枭和湖南庚云科技赵真汝担任本次论坛执行主席,证通电子纪军刚和国防科技大学欧阳雪担任微论坛主席。
会议开始,唐枫枭首先介绍了CCF YOCSEF的文化和使命,强调CCF YOCSEF致力于深入地方高校,汇聚大众智慧,探索学术高峰。与此同时,分论坛着力于强化与省内企业间的协作与交流。接着,唐枫枭详细介绍了大模型在网络运维方面的背景与现状,网络故障带来的风险以及大语言模型在网络运维领域的潜力,并提出了三个本次论坛需要着重讨论的思辨议题。
论坛开场
论坛分别邀请了论坛分别邀请了来自军事科学院、清华大学和北京大学的三位嘉宾,他们基于自身的丰富经验和独到见解,为后面的思辨讨论带来精彩的引导性发言,奠定坚实的思辨基础。
引导嘉宾苏金树(中国计算机学会会士,CCF互联网专委会荣誉主任)在介绍大模型的网络技术和网络运维时指出,网络性能在很大程度上决定了大模型的时延表现。通过引入AIops技术,可以显著提升大模型的运行效率。当前,计算节点间的带宽已经远远超过了总线带宽,AI服务器逐渐转向全连接设计,导致AI计算的网络造价占比大幅提高,进而使得AI计算成为网络竞争胜败的主战场之一。同时,通过深度神经网络实现流量控制成为可能。展望未来,除了故障检测之外,AIops还需具备参与系统运行重构的能力,以应对更复杂的网络运维挑战。
苏金树做线上引导发言
引导嘉宾裴丹(清华大学长聘副教授,博士生导师)指出当前网络智能运维中的小模型算法存在无法即插即用、可解释性差以及落地不确定性大的问题。随着网络空间内万物互联、相互依赖的趋势,需要更强大的网络时空大模型来应对这些挑战。通过使用知识图谱和图神经网络来分析网络时序成为关键,同时,时序+语言多模态基础模型与各类小模型代理(agent)之间需要明确边界。在网络运维过程中,如何获取高质量的预训练时序数据是一个重要问题,这涉及到真实数据的获取、准真实数据的生成以及数据标注问题的解决。裴丹强调,可以依靠社区的力量来共同解决这些挑战,推动智能运维的实际应用。
裴丹做引导发言
引导嘉宾边凯归(北京大学计算机学院长聘副教授,博士生导师,数据科学与工程研究所副所长)在分享基于大语言模型(LLM)的新一代运维智能体时指出,随着运维数据量级的激增、IT架构的日益复杂以及对业务持续性的高要求,运维工程师的工作变得愈发艰巨,涵盖了发现问题、处置故障和预测风险等方面。这对运维人员的专业素养提出了很高的要求,同时也占用了大量时间。此外,运维对系统的鲁棒性要求高,对出现幻觉的容忍度极低。在此背景下,Opsagent的引入让工程师能够更专注于核心任务,而大模型的应用则使得运维过程更加简化。目前,大模型在运维中主要充当助手角色,辅助工程师进行决策,但在中长期内,这些模型有望承担更多执行层面的工作,从而进一步提升运维效率和可靠性。
边凯归做引导发言
思辨议题一:网络运维大模型目前落地的现状如何?大模型与传统方法的边界在哪里?
在讨论网络运维大模型的落地现状时,思辨嘉宾王峰分享了当前的实际情况。他指出,大模型在网络运维中的应用还处于初步阶段,主要用于知识获取和查询以及网络知识的问答等辅助功能。尽管大模型为网络运维带来了新的可能性,但在落地实践中,应用仍然较为有限,尚未广泛普及。传统方法依然在网络运维中占据主导地位,尤其是在网络变更的过程中,依然依赖网络仿真和影响评估,以确保变更实施的安全性。
思辨嘉宾王峰发言
王峰还提到,大模型与传统方法之间的边界尚不明确,当前大模型更多地被用于辅助任务,而非直接取代传统的运维方式。展望未来,探索数字孪生的世界可能会为网络运维带来新的突破,为网络仿真和评估提供更高效、更精确的支持,从而进一步提升运维的智能化水平。
在思辨嘉宾的启发下,与会嘉宾们依次分享了自己的见解和思考。
嘉宾们热烈讨论
阿里云操佳敏:探索大模型技术,可用于故障定位,通过基于模型的运维小助手,可以解决人的开销。大模型虽然能给我们启发,但是不能直接给我们答案,需要人自己的判断。
建行单洪博:分享了中国建行使用的大模型进行运维的场景,并指出银行IT投入多,但新技术使用相对保守的情况,大模型在运维领域的作用仅为参谋。
中兴孙振喆:介绍了从数据到自然语言再到决策的运维方式。大模型能提供自然语言理解能力和搜索能力,通过对日志和数据变成的自然语言的学习,得到规律,并形成最终决策。
中国移动花小磊:利用大模型感知网络故障,是特别耗费资源的。在进行网络运维的过程中,需要结合大模型和小模型各有的优势。
中兴贺健:目前大模型用于运维,无论是指标类运维还是表格类运维,都是有叫大问题的,但是该技术在将来大有可为。
中兴李忠良:AI人脸识别由于其数据特点,效果很好并得到了成熟应用。而运维数据则不具备这些特点,使得智能运维在细粒度上很难做到很好的效果,仅用于辅助运维
阿里云王博:运维越来越复杂,运维成本不断提高。可以通过非结构化数据处理,类似知识库,来降低运维复杂性,也可以使用大模型降低来交付成本。
思辨议题二:大模型在网络运维领域目前的瓶颈在哪里?是数据模态,计算资源还是通信开销?主要的解决方案是哪些?
中山大学陈鹏飞探讨了大模型在网络运维领域目前面临的主要瓶颈。他指出,大模型用于数据表征时,存在表征不统一和数据标签缺失的问题。尤其是在运维领域,获得上亿数据的标签非常困难,导致数据的有效表征成为一大挑战。此外,由于网络数据变化速度极快,大模型在处理网络运维性能问题时往往难以满足实际需求,导致模型的性能无法达到预期。
思辨嘉宾陈鹏飞发言
陈鹏飞还提到,公域模型缺乏私域数据的支持,这进一步限制了大模型在网络运维中的应用。尽管大模型在前中后对齐等方面已经有一定的应用,但要充分发挥其潜力,还需要构建数字孪生系统,在虚拟环境中进行运维模拟。针对这些挑战,陈鹏飞建议对大模型进行领域裁剪,以更好地适应特定的小系统运维需求。这种有针对性的裁剪可以帮助大模型更有效地应用于实际的网络运维场景中。
在思辨嘉宾的启发下,与会嘉宾们依次分享了自己的见解和思考。
嘉宾们精彩发言
中兴韩静:在运维过程中,专家们具有很多经验,也有很多规范文档,可以通过归类法解决90%的现场问题。然而,数据的差异,或是解决思路的差异,大模型对类似的问题提供的答案是不准确的。可以用LLM读取更多数据,在人的指导下,教会大模型学习训练。
西北工大毛伯敏:大模型主要用于应对网络攻击,数据窃取。其瓶颈包括数据源,效果验证只能通过仿真等。
字节王峰:交换机故障会导致网络故障,大模型很难关联具体详细的跨领域专业知识。
西安王璐:运维的数据量很大,包括多指标,日志,网络跨层数据。怎样从中发现问题,数据质量如何提高,如何处理多模态数据,是大模型面对的难题。大模型缺少更多精细的数据。
中兴李忠良:智能运维系统庞大,仿真环境很难搭建。故障类型很多,有的故障适合大模型,而有的,如不重复的软件故障,是不适合大模型的。不适合大模型的故障或许可以提升粒度来解决运维分类问题。
中兴贺健:人对非文本数据的描述是有差别的,需要各种各样的修饰才能对齐,而实际的图片与文本,以及视频与文本的对齐是很难的。
思辨议题三:大模型与小模型的边界在哪里,网络运维大模型落地的关键路径是什么?
在南京大学程龚的分享中,他探讨了大小模型的边界以及网络运维大模型落地的关键路径。他指出,大小模型的区分并不仅仅依赖于参数量的大小,而是取决于谁在进行判断。判断的标准在于模型是否可以灵活调动:如果可以灵活调动,就是小模型;如果调动难度较大或不需调动,即开箱即用,则是大模型。
程龚进一步解释,大模型的直观特征是其庞大的参数量,具备丰富的常识知识,对语言的理解和生成能力非常强,但在业务细分领域可能显得过于笼统,因此可以被看作是一个全面的“庸才”。相对而言,小模型虽然在语言能力上较弱,但其业务能力较强,可以通过调测更好地适应特定任务。
思辨嘉宾程龚发言
在探讨网络运维大模型的落地路径时,程龚强调关键在于如何有效利用大模型的优势,同时结合小模型的灵活性来满足具体业务需求。这意味着需要在实际运维中找到大模型和小模型的最佳应用场景,从而确保模型在复杂网络环境下的高效运作。
在思辨嘉宾的启发下,与会嘉宾们依次分享了自己的见解和思考。
向议题发言嘉宾致谢
中兴韩静:通常认为7B以下是小模型,7B以上是大冒险。在时序领域中,几百M已经算是大模型了。在垂直领域中,大小模型应该如何界定呢。
北大贾统:如果模型通用能力很强,泛化能力很强,生成能力很强,一般认为是大模型,而针对垂直领域的模型一般认为是小模型。
中兴孙振喆:大模型语言能力很强,但是逻辑能力不是很强。大模型不适合替代人做逻辑性很强的工作,但大模型擅长做统计分析类工作,类似医药发现。
兵装范波:希望模型是开箱能用的。以前是流程性的,现在是系统化的。
南京大学程龚:模型通用能力很强,可以开箱即用,但是跟模型参数大小没关系。
中山大学陈鹏飞:经典模型是可以解释的,有逻辑的,大模型是统计分析的,不可解释性,大小模型参考人的大脑小脑的区分。
字节王峰:落地路径,不能为了用大模型而用,主要是解决痛点,把工具用起来。
在上午激烈的思辨讨论之后,专家们依旧意犹未尽的在参会群里激烈讨论。接着上午的激情,8月17日下午,部分论坛参与专家们进行了CCF Aiops国际挑战赛的复赛评审。在聂晓辉研究员的组织下,各领域专家齐聚一堂,从上午的议题讨论结果出发,对两个赛道的入围队伍进行了严谨的评分和分析。本次评审不仅展现了专家们对技术前沿的深入理解,还体现了对创新精神的高度重视。会议期间,专家们从创新性、实用性、文档表述、项目复现情况等多个维度,对每个参赛队伍的项目进行了全面而细致的评估。
在讨论过程中,专家们各抒己见,展开了热烈的交流与探讨,既有对项目技术细节的深度剖析,也有对文档规范性和项目复现难度的严谨考量。通过充分的意见交换,专家们在多个关键点上达成了共识,最终遴选出前十名认同度最高的队伍,这些队伍将进入下一阶段的复赛。
整场会议气氛轻松而不失严肃,讨论内容既丰富多彩又意义深远,体现了专家们对技术创新和实用性的双重关注。本次评审不仅为赛道的顺利推进奠定了坚实基础,也为参赛队伍的未来发展提供了宝贵的指导意见。
2024年国际AIOps挑战赛复赛评审
通过这场深入且广泛的论坛大讨论,嘉宾们对大模型在大模型领域的研究与落地现状有了更客观、更全面地理解,并进一步辨析出大模型在网络运维领域的研究路径。此次思维碰撞不仅揭示了大模型与小模型在网络运维中的独特角色与潜在挑战,也为智能网络运维的技术创新和实际应用提供了新的启示。期待这场头脑风暴能为智能网络运维的发展贡献更多的创新思路,推动行业迈向更高水平的智能化。