中国计算机学会青年计算机科技论坛
CCF Young Computer Scientists & Engineers Forum
CCF YOCSEF 天津
2023 年 3 月 25 日(星期六) 08:00-17:30
南开大学泰达校区
论坛编号:CCF-YO-22-TJ-2FT
论坛背景
近期,ChatGPT访问失败、阿里云香港地区宕机、全美航班被迫停飞等引起了人们对大型IT系统运维技术的广泛关注。人类日常生产生活日益依赖大规模IT系统,而这些系统通常软硬件构成复杂、规模庞大、可靠需求高,迫切需要发展新型运维技术。智能运维致力于借助人工智能等技术,探索分析运维内在规律,推动日常任务处理和运维流程的智能化,从而使得运维人员更高效地构建、运行和维护系统。
为此,中国计算机学会青年计算机科技论坛 (CCF YOCSEF) 天津学术委员会拟定于2023年3月25日在天津南开大学泰达校区举办主题为“IT智能运维该何去何从?”的深度技术论坛。
本次论坛将邀请国内智能运维领域的中青年学者和企业技术专家,共同讨论IT智能运维所处的水平、技术发展趋势和落地应用场景,并在此基础上进一步探讨智能运维技术发展的关键技术路径和场景适配方案,以期为IT智能运维未来的发展指明方向。
论坛议程
时间 | 议程 | 内容 |
08:00-08:30 | 签到 | |
08:30-08:45 | YOCSEF简介和论坛主题背景介绍 | |
08:45-09:05 | 引导发言1 (概述) | 彭 鑫 数据驱动的复杂系统智能化运维研究与展望 |
09:05-09:25 | 引导发言2 (典型场景概述) | 李 影 云计算系统智能运维:感知、诊断、交互 |
09:25-09:45 | 引导发言3 (典型应用) | 李青山 软件智能运维研究及典型应用 |
09:45-10:05 | 引导发言4 (典型算法1) | 裴 丹 云原生环境下的故障根因定位算法探索 |
10:05-10:25 | 引导发言5 (典型算法2) | 陈鹏飞 面向云原生系统的主动性故障注入与检测 |
10:25-10:40 | 茶歇 & 合影 | |
10:40-12:00 | Panel:面向不同行业的智能运维能力成熟度1 | |
12:00-14:00 | 午餐 & 自由交流 | |
14:00-14:05 | 闭门会议议题 & 分组安排 | |
14:05-17:30 | 14:05-15:20 (分组第一阶段) | 分组1:智能运维技术发展趋势 |
分组2:智能运维落地应用场景分类 | ||
15:20-16:20 (分组第二阶段) | 分组1:智能运维技术发展关键技术路径 | |
分组2:智能运维技术与场景的适配方案 | ||
16:30-17:30 | 汇总报告与集中讨论 | |
18:00-21:30 | 晚餐 & 动议 |
1 注:中国信通院牵头制定了云计算领域的智能运维行业标准:《云计算智能化运维(AIOps)能力成熟度模型 第1部分:通用能力要求》
引导发言嘉宾
彭鑫
题目:数据驱动的复杂系统智能化运维研究与展望
摘要:大规模云原生软件系统具有高度的复杂性和动态性,普遍面临着技术风险高、故障定位难、缺少全局业务和技术视图、架构退化等方面的问题。包含日志、度量、链路轨迹等在内的可观测性数据不仅可以用于运行时问题发现和根因定位,而且也为我们洞悉云原生软件系统业务和技术运转状况及其长期发展趋势提供了手段。本次报告将从故障和性能问题、架构理解与设计质量、业务流程和特性三个方面介绍介绍基于可观测性数据的智能化运维研究与实践。此外,报告还将针对数据库等基础软件系统以及智能机器人系统等复杂系统的智能化运维问题以及相关研究思路进行分析和展望。
简介:复旦大学计算机科学技术学院副院长、软件学院副院长、教授、博士生导师。中国计算机学会(CCF)杰出会员、软件工程专委会副主任、开源发展委员会常务委员,上海市计算机学会青工委主任,《Journal of Software: Evolution and Process》联合主编(Co-Editor),《ACM Transactions on Software Engineering and Methodology》、《软件学报》等期刊编委,编委,IEEE软件维护与演化国际会议(ICSME)执委(2017-2020)。2016年获得NASAC青年软件创新奖。主要研究方向包括软件开发大数据分析、智能化软件开发、云原生与智能化运维、泛在计算软件系统等。
李影
题目:云计算系统智能运维:感知、诊断、交互
摘要:作为新一代信息基础设施,云计算系统管理着成千上万的服务器和百万计的服务实例,为数以亿计的用户提供7天24小时不间断服务。提高性能和可靠性并降低成本的系统管理技术是云计算关键软件的核心能力。以智能化为主要特征的智能运维成为云计算系统管理的新思路。报告从人工智能提高大规模云计算系统可靠性与可用性角度出发,围绕智能运维的感知、认知与交互三大核心问题,提出人机混合增强智能运维模型和方法,揭示系统运行状态感知与异常认知的正反馈原理,介绍在运行状态即时感知与理解、运行时异常检测与故障诊断、人机知识与智能融合机理等方面取得的创新性成果及其在产业界的应用。
简介:北京大学软件与微电子学院教授、工程博士教育中心主任,主要研究方向为分布式计算、智能运维等。曾任IBM主任研究员、分布式计算研究部高级经理,是云计算、智慧地球多项核心技术和产品的主要贡献者,研究成果应用于多个国家和地区,获得2项IBM全球技术成就奖,被授予IBM发明大师称号。在国内外权威会议及期刊上发表学术论文90余篇,授权国家发明专利8项,授权美国及国际专利26项。
李青山
题目:软件智能运维研究及典型应用
摘要:空间飞行器控制软件运行环境复杂,典型场景包括不确定运行环境变化、未知在轨故障以及非预期扩展任务,这三种场景极易导致软件产生重大错误,进而造成航天器受损。软件自适应作为一种经典的智能化运维方法,适用于运行环境恶劣的星载软件领域。因此,如何建立不确定环境下星载控制软件运行时的动态自主适变能力已成为确保航天软件稳定运行的关键问题。并且,如何确保该演化过程的可靠性,保证软件自适应“感知-分析-决策-执行”全过程正确合理,也是提升航天软件自身智能运维可信的关键环节。因此,本次报告致力于探讨如何借助软件自适应的思想,针对不确定环境的特征建立控制软件动态演化过程,并讨论如何利用已有历史知识为航天软件的自主运维过程提供保障,最后结合航天真实场景给出了具体化的实例讲解。
简介:西安电子科技大学计算机科学与技术学院(国家示范性软件学院)党委书记、智能软件与系统新技术研究所所长、陕西省智能软件工程科技创新团队负责人、西安市智能软件工程重点实验室主任、西电软件工程一级学科负责人、教育部省级重点学科“软件工程”学术带头人,享受“三秦人才”津贴。任CCF软件工程专委会常务委员,系统软件专委会执行委员,开源发展委员会执行委员,大数据专委会执行委员,青年工作委员会执行委员,全国工程专业学位研究生教育指导委员会软件工程领域协作组成员,陕西省计算机学会软件工程专委会副主任。主要从事国产开源软件、软件体系结构、自适应软件演化、智能软件工程、大数据智能化分析等方向研究工作。
裴丹
题目:云原生环境下的故障根因定位算法探索
摘要:云原生技术在助力企业提高效率和降低成本的同时,也增大了故障发生的几率。故障不仅降低了云原生系统的用户体验,也给企业带来了经济损失。故障诊断对及时故障止损十分重要。报告将分享团队面向云原生环境的几个故障根因定位工作。这些工作发表于KDD, VLDB, ESEC/FSE等CCF推荐国际会议,且使用生产环境数据验证了模型的效果。
简介:清华大学计算机系长聘副教授、博士生导师。主要研究方向是基于人工智能的智能运维(AIOps),与国内大型金融机构、运营商、互联网公司有众多合作。在美国UCLA获得了博士学位,之后加入美国AT&T研究院担任资深研究员、主任研究员。 在智能运维领域发表了200余篇学术论文和30多项专利授权。ACM和IEEE的Senior Member。
陈鹏飞
题目:面向云原生系统的主动性故障注入与检测
摘要:近年来,云原生系统因为其快速开发和迭代以及灵活的可扩展性得到广泛的关注和研究。 但是,其在运行过程中由于受到内部或者外部的因素影响会出现性能下降、宕机等故障。及时发现和恢复故障一直以来是智能运维要解决的主要问题,学术界也提出了大量的解决方案。但是由于受到故障数据稀疏,不断上升的系统高复杂度以及动态变化的运行环境等因素的影响,传统的故障检测方法难以获得令人满意的效果。 针对该问题,本次报告主要涉及面向云原生系统的主动性的故障注入,讨论多层次多粒度的故障实现方法,基于这些故障讨论基于主动学习的自适应、可迁移的故障检测方法,并介绍相关方法在工业界的落地效果。
简介:中山大学计算机学院“百人计划”副教授,博士生导师,广东省杰出青年基金获得者。2016年6月于西安交通大学计算机科学与技术系获博士学位。2016年6月-2018年1月在IBM中国研究院云计算部门担任研究员,获得2020年陕西省计算机学会首届优秀博士论文,IEEE ISSRE 2022大会唯一最佳论文。主要方向为:云计算、智能运维( AIOps)、软件可靠性、软件定义网络等。
特邀嘉宾
冯景华
博士,正高级工程师,国家超级计算天津中心总工程师,主要研究方向为高性能计算、云计算、工业互联网等。主持和参与省部级及以上项目二十余项,获得天津市科技进步特等奖1项、一等奖2项、二等奖1项。天津市最美科技工作者、天津市劳动模范,天津市青年科技优秀人才,滨海新区杰出科技人才。
李福亮
博士,东北大学计算机学院副教授、博士生导师。主要研究方向为未来网络技术、网络智能运维、网络遥测等;主持国家级项目6项,主持华为公司、字节跳动、阿里巴巴、中国电信企业研发类项目6项;第一及通讯作者发表学术论文30余篇,申请发明专利10余项,出版学术专著6部;获辽宁省百千万人才工程万人层次、沈阳市中青年科技创新人才、辽宁省通信协会优秀科技工作者等荣誉称号。
朝昆
博士,硕士生导师,天津大学智能与计算学部软件学院副教授。研究涉及下一代互联网及边缘智能等方向。他曾作为访问学者在加拿大McMaster大学学习(2016-2017),曾荣获1项F5000中国精品科技期刊顶尖学术论文奖。担任过多个国际顶级期刊的审稿人和国际顶级会议委员会成员,包括近3届的人工智能A类会议IJCAI21-23、互联网会议IWQoS22、ICPADS21-22、WASA22和NSS21等TPC。
陈俊洁
天津大学智能与计算学部特聘研究员,软件工程团队负责人。研究方向主要为基础软件测试、人工智能系统安全、数据驱动的软件工程,以及智能运维。荣获中国科协青年托举人才、CCF优博、电子学会自然科学一等奖等奖项。近年共发表学术论文60余篇,其中CCF A类论文45篇,获得六项最佳论文奖。成果在华为、百度等多家知名企业落地。担任CCF-A类会议ASE 2021评审过程主席,软件学报专刊特邀编辑,以及软件工程领域全部CCF-A类会议的程序委员会成员。
裴昶华
中国科学院计算机网络信息中心 副研究员,清华大学本科、博士,清华-阿里巴巴联合培养博士后,拥有大量工业AIOps实践,和腾讯合作无线WiFi连接智能运维项目获得MIT Technology Review, Hacker’s News 科技媒体报道;在阿里负责双十一百万QPS智能调度系统,获得阿里巴巴CTO提名双11卓越贡献奖;在快手主持基于机器学习的排序算法优化,连续两次快手技术突破最高奖“洛子峰”奖(均为第一完成人);承担“十四五”信息化专项智能运管子课题,国家自然科学青年基金,科技部重点研发青年科学家项目子课题。
贺品嘉
香港中文大学(深圳)助理教授,国家海外高层次人才,校长青年学者。研究方向为软件工程、智能运维、软件测试、可信人工智能等。 近年来,他在ICSE, ESEC/FSE, ASE, ISSTA, OSDI, CSUR, TDSC等顶级会议期刊发表过学术论文30余篇。获得首届IEEE开源软件服务奖、ISSRE最有影响力论文奖。其Google Scholar引用超3000次。主导的自动化日志分析开源项目LogPAI在GitHub上被star 3000余次,并被380多个学界业界组织下载8万余次。
王璐
博士,西安电子科技大学计算机科学与技术学院副教授,西电“华山人才”系列,CCF 高级会员,CCF 软件工程专委会秘书、系统软件专委会执行委员,CCF 首批传播大使。主要研究方向为微服务与智能化运维AIOps、软件演化与自适应,在ICSE、FSE、SANER、ICSME 等国内外期刊与会议上发表论文30 余篇并担任会议PC 及期刊审稿人,入选陕西省科协青年人才托举计划、获陕西省科学技术进步奖二等奖等科技奖励四项,2021年陕西省优秀博士学位论文等。
陈宇
2001年毕业于北京大学。毕业后进入微软亚洲研究院,曾参与分布式系统,IR等方面的研究工作。2013年加入百度,任数据架构师,开始在AIOps领域进行探索研究。2021年加入快手,作为高级运维专家,致力于AIOps算法的研究与推广实践工作。
王峰
字节跳动智能运维架构师,4年智能运维落地经验,17年运维平台架构经验,14年DevOps实践经验。曾担任华为云监控领域架构师和智能运维项目负责人。
封铨贤
渤海银行信息科技部生产运行中心技术总监,在银行业信息科技领域深耕多年,经历并见证了两代银行核心系统的建设,长期致力于DevOps落地实践。
李筱沛
云账户基础架构部高级总监,负责云账户运维和数据库体系、信息安全体系、开发生命周期和公共服务建设。
董振华
华为诺亚方舟实验室技术专家,负责推荐系统、机器学习、反事实学习、因果推理的研究和落地,显著改进超过10个产品的关键指标。
郑弦
华为技术有限公司庞加莱实验室合作经理,主要研究方向为操作系统、人工智能和大数据等领域。
刘喜临
华为云智能化测试算法专家。在职期间,围绕测试用例这一测试核心资产负责场景级测试生成、精准测试、多源失败用例智能分析、用例文本质量门禁、低代码生成等项目,推动智能化测试的实现与落地应用。
郭毅成
华为IT平台服务部高级工程师。中国科学技术大学理学学士、粒子物理学博士。当前主要研究方向为时间序列分析、IT系统知识表示与信息挖掘等,在AIOPs领域有丰富的实践与落地经验。
潘乐萌
华为IT平台服务部高级工程师。美国马里兰大学统计学博士,研究领域包括数据挖掘, 时间序列建模及文档识别,相关领域发表过多篇论文及专利。当前在华为公司IT平台服务部负责智能运维技术的研发工作。
王博
阿里云运维技术专家,从事有关智能运维的相关算法以及工程产品落地的相关工作。团队主要负责阿里云监控的智能化功能研发落地,目前从事异常检测、故障定界、故障预警、容量预测等相关方面的算法研究,多个智能化场景已经落地到生产环境。
刘平
华为2012可靠性技术实验室主任工程师,主要研究为数据系统可靠性,复杂云化系统高可用。在AIOps领域有丰富的算法研究和工程实践经验。
温希道
必示科技高级算法专家。美国匹兹堡大学博士、清华大学计算机系博士后。主要研究机器学习、深度学习、知识图谱、数据编织和大数据技术在智能运维相关领域的落地和应用,在机器学习和人工智能领域发表30余篇顶级论文及专利。
张磊
渤海银行自动化运维技术工程师,擅长IT运维体系架构规划,致力于运维工具的建设与推广。
韩静
中兴通讯云平台AIOPS算法负责人,2016年开始牵头中兴通讯云平台AIOPS算法开发工作,实现云平台三层架构分层预警、故障分层定界、根因定位,保障网络云上层业务7x24小时的无间断事件处理服务正常运行,将人工总结运维规则的过程变为自动学习的过程,推进云平台运维从自动化向智能化演进。
执行主席
张圣林
CCF YOCSEF 天津候任 AC 副主席,南开大学副教授
徐大为
CCF YOCSEF 天津 AC 委员,天津泰凡科技高级工程师
线上主席
王聪
CCF YOCSEF 天津候任 学术秘书,天津科技大学讲师。
赞助商