CCF YOCSEF哈尔滨举办《AI4DB如何赋能数据库实现技术“新跨越”》技术论坛
2024-08-24 阅读量:144 小字

  随着数据的大量累积和数据活动的日益丰富数据库场景和需求愈加复杂。近年来,传统数据库技术已经与各类新型技术进行探索融合,特别是AI技术发展日新月异,其能否助推数据库技术实现新的跨越成为学术界和产业界共同关注的重要问题。在这一背景下,CCF YOCSEF哈尔滨于2024年8月17日在哈尔滨工业大学科创大厦K1423会议室举办了《AI4DB如何赋能数据库实现技术新跨越’》技术论坛,论坛由YOCSEF哈尔滨AC委员丁小欧、YOCSEF哈尔滨副主席李元鹏共同担任执行主席。

图片1

1 YOCSEF哈尔滨AC委员丁小欧主持论坛

论坛特邀浙江大学教授陈璐、东北大学教授张岩峰、阿里巴巴研究科学家朱鎔、中国人民大学教授魏哲巍进行引导发言,特邀哈尔滨工业大学教授苗东菁、复旦大学教授何震瀛、阿里巴巴研究科学家朱鎔进行思辨引导。论坛还邀请了哈尔滨工业大学教授邹兆年、哈尔滨工程大学教授李伟、沈阳航空航天大学副教授朱睿、天津师范大学教授马江涛、人大金仓东北事业部负责人宋洋等来自学术界和企业界的专家参与思辨发言。

在引导发言环节,四位嘉宾介绍了自己在AI4DB领域的研究成果。首先进行引导发言的是浙江大学教授陈璐。她介绍团队近期为Spark SQL设计的智能查询优化器LEAP,可以与Spark SQL无缝集成,有效解决兼容性问题。为了避免不可靠的成本值估计,设计了一个执行计划比较器模型,在枚举过程中通过两两比较的方式选择更好的执行计划。此外,为了缩短执行计划的枚举时间,提出了一种渐进式的计划枚举算法,并引入剪枝技术,显著减少搜索空间。

图片2

2 陈璐进行引导发言

图片3

3 论坛执行主席李元鹏为陈璐颁发感谢牌

第二位引导发言者是东北大学教授张岩峰。报告题目为《大模型的向量-图混合检索增强生成》。主要分享其团队在大模型的向量-图混合检索增强生成技术方面的总结和思考,通过优化图数据管理提升大模型推理生成质量和速度大模型的向量-图检索增强生成技术可以充分发挥大模型知识、逻辑的互补优势

图片4

4 张岩峰进行引导发言

图片5

5 论坛执行主席丁小欧为张岩峰颁发感谢牌

第三位引导发言者阿里巴巴研究科学家朱鎔,报告题目为《机器学习增强的查询优化器》。主要分享其团队提出一种新的学习型查询优化器设计思路。将learning-to-rank思想引入查询优化器设计过程,基于pairwise的判别模型设计和实现了一种新的查询优化器Lero。Lero不需要修改原有传统数据库的查询优化器,只需要调节其执行计划产生方法并配合判别模型就能得到更高质量的执行计划。在PostgreSQL和Spark上实际部署的效果表明,Lero大幅提升了查询优化性能,并且表现出良好的稳定性和适应动态数据的能力。

图片6

6 朱鎔进行引导发言

图片7

7 论坛执行主席丁小欧为朱鎔颁发感谢牌

第四位引导发言者是中国人民大学教授魏哲巍。魏哲巍的引导发言内容涉及NDV估计相关任务和一些前沿应用,以及分析利用采样估计NDV过程中面临的关键问题和挑战。魏哲巍的介绍利用神经网络提升基于采样的NDV估计方法效率的最新理论算法与模型,以及其团队在基于采样的NDV估计的可扩展性方面所做的一些工作和对未来的展望。

图片8

8 魏哲巍进行引导发言

图片9

9 论坛执行主席丁小欧为魏哲巍颁发感谢牌

在思辨环节,三位思辨引导嘉宾与参会者共同探讨了三个思辨议题。

图片10

10 思辨嘉宾进行思辨引导发言

嘉宾们对AI技术如何使数据库管理流程更智能化Al如何提高数据库的查询效率与响应速度、如何科学地评估AI4DB的实际效果与价值,有何决策支持和发展方向的指引进行了深入讨论。抢麦现象屡见不鲜,各位嘉宾思想不断碰撞,启发不断,收获良多。

思辨议题一:AI技术如何使数据库管理流程更智能化、实现自动化调优与资源配置?思辨引导嘉宾苗东菁教授针对该思辨点提出了三个子议题进行讨论:①Al技术为何被引入数据库技术中,相比于传统数据库技术,Al技术具有哪些潜在的优势?Al技术目前已经在数据库的哪些管理流程和技术点上得到了应用或尝试?③在数据库设计、配置和优化方面,Al技术已经取得了哪些重要的突破性成果?为数据库的智能化管理提供了哪些新的思路?随后朱镕、陈璐、张岩峰对该议题进行了思辨发言。观点输出主要集中在以下方面:

图片11

图11 针对议题一的思辨

1. 尽管AI技术现在比较火热,但使用AI技术可能出现性能不稳定的情况AI如果用在数据库上面,会让数据库的性能上限很高,同时也会因为不稳定性导致下限很低。因此,需要对AI技术的适用场景和适用的问题有更多的了解和分析。

2. 目前AI4DB领域算法研究居多,其在论文中的进展往往超前于实际应用。我们应分析实际应用中的不足,并逐步迭代改进。AI可以作为辅助工具,帮助工业界优化参数,参与非核心任务。但是,对于一些对可靠性和安全性要求较高的任务,工业界因担忧AI性能下限而谨慎使用。

3. AI旨在解决DB中的不确定性问题,因此,更适用于那些能够容忍不确定性的任务。对于基数估计和多维索引等任务,使用AI技术既有机遇又有挑战。同时,算力显卡的问题也不容忽视AI4DB技术的成熟性也关系到用户有多大意愿为此承担较高的算法费用。

思辨议题二:Al如何提高数据库的查询效率与响应速度,确保数据服务的实时性和准确性?思辨引导嘉宾何震瀛教授针对该思辨点、总共提出了三个子议题进行讨论:①Al赋能的查询优化技术面临哪些挑战,目前技术进展如何,以及在实际业务场景中的应用效果怎样?②Al赋能的数据库维护与资源配置方面的技术挑战及当前进展是怎样的?如何实现成本低、效益最大化的资源配置?如何保证有足够质量高、多样性强的训练数据用于学习模型?怎样看待模型等理论问题对AI技术的作用?随后张晓光、魏哲巍、宋洋对该议题进行了思辨发言。观点输出主要集中在以下方面:

图片12

图12 针对议题二的思辨

1. AI算法在不同的数据库上会产生不同的结果,因为许多AI的算法具有不确定性。所以应该研究如何使算法适配更多数据库。例如,workload改变之后,如何进行增量学习

2. 目前,AI4DB的准确率尚未实现AI在CV、NLP领域的应用效果,因此,AI4DB技术在企业生产场景中的广泛使用仍存在不少挑战

3. AI4DB在企业应用中的效果,特别是在内核级别的应用,还有很大的提升空间,这主要是由于训练数据不充足、资源与现实需求不完全匹配等问题。这些实际问题有时会导致难以进行及时有效的训练。同时,关于AI4DB在数据库中的具体应用场景、其涉及的科学问题,以及它是否仅仅是一个AI的应用而未能彻底解决DB问题,这些问题都需要进一步的明确和研究。

思辨议题三:如何科学地评估AI4DB的实际效果与价值,有何决策支持和发展方向的指引?思辨引导嘉宾朱鎔针对该思辨点、总共提出了三个子议题进行讨论:实际的系统应用和学术研究在评估AI对数据库性能提升方面存在哪些主要的差别?如何有效地量化AI对数据库性能的提升效果和贡献度?②在考虑AI方法的收益和风险时,应如何设计有效的机制来平衡这两者?并如何实现AI技术与传统数据库技术的取长补短?③目前,实际企业在AI4DB方面的应用处于哪个阶段?这些应用案例和经验对来的AI4DB学术研究有哪些指导意义?随后邹兆年、李伟、武国庆对该议题进行了思辨发言。观点输出主要集中在以下方面:

图片13

图13 针对议题三的思辨

1. DB领域的Benchmark不同于自然语言处理、图像处理领域,每个数据库产品通常有适配于自身的Benchmark。因此,现阶段使用通用意义的Benchmark无法全面地对AI4DB技术进行评测应该根据实际需求,重新设计或者优化Benchmark

2. 想要用好AI需要从实际出发梳理并凝练问题,在设计算法前,应该冷静客观地分析出实际中到底产生了哪些问题。而这一步正是(数据库)企业可以做的事,产业界可以抛出真正的科学问题,然后由学术界进行研究探索。

3.目前已经提出了一些AI算法,可以在实际场景中充分验证这些算法的价值,并通过验证过程继续发现问题、积累经验,这样能够更好地推动前沿算法在系统中的实际落地。

图片14

图14 论坛总结

最后,YOCSEF哈尔滨分论坛主席李洋对论坛作总结与展望。她认为本次技术论坛选题方向比较前沿,对数据库领域和人工智能领域都是一个比较新颖的选题,大家分享了最前沿的科研成果,并对一些关键问题进行了深度探讨。在当前的智能化时代,无论是工业界还是学术界都需要加强讨论、互相支持合作。这次的论坛我们做了充分探讨,也让参会者们对AI4DB的未来发展前景和研究方向有了更多的思考和理解

图片15

15 合影留念


热门动态
2023-04-20
大规模预训练模型的快速发展,特别是ChatGPT的横空问世...
CCF聚焦