——2024年7月20日, CCF YOCSEF沈阳在长春成功举办“人工智能数据基础设施创新技术”论坛。
本次论坛由CCF YOCSEF沈阳主席、沈阳航空航天大学计算机学院副院长李佳佳教授和YOCSEF沈阳学术AC、东北大学副教授刘正皓担任执行主席,邀请了数据库与人工智能领域的著名专家学者出席。
嘉宾合影
论坛围绕“当前人工智能数据基础设施的前沿技术与未来发展方向”这一主题展开讨论,重点探讨了数据生成、数据查询、检索增强以及面向垂直领域的大模型构建等方面的创新工作,旨在解决数据科学中的核心瓶颈,提升大模型对数据的获取与应用效果。
论坛主席李佳佳在会议主持中首先介绍了当前人工智能领域中数据和模型的重要性,并强调了数据基础设施创新对于提升人工智能应用效果的关键作用。随后,她详细介绍了本次论坛的主题和目标,指出在大模型背景下,数据基础设施的创新是推动人工智能发展的重要方向。
CCF数据库专委会执行委员、国家级人才、中国人民大学教授范举做题为《关系数据生成:研究与挑战》的特邀报告。报告首先介绍了关系数据生成的基本内涵与关键挑战,随后梳理了这一领域的主要研究进展,并探讨了当前尚待解决的问题。
报告指出,关系数据生成通过对真实数据分布的近似生成合成数据,既能保持数据的相似性和多样性,又能保护数据隐私,从而提升数据获取的效率和质量。
范举教授报告
CCF信息系统专委会执行委员、同济大学百人计划特聘研究员王昊奋以《知识检索增强:范式与关键技术》为题进行报告。
王昊奋教授报告
报告指出知识检索增强技术为大语言模型引入了额外的知识源,有效缓解了幻觉问题与知识时效性问题,成为优化大模型实践中的关键技术。报告全面梳理了检索增强生成(RAG)技术的发展,从范式、关键技术与应用发展等角度分析了RAG的构成和挑战,提出了模块化RAG与RAG Flow的研究范式,并总结了6大功能模块和7种典型的RAG Flow设计模式。此外,报告还介绍了OpenRAG系列的开源工作,包括OpenRAG Knowledge Base和OpenRAG Playground,为研究人员提供了全面的信息和快速验证的平台。
CCF数据库专委会委员、国家级高层次人才、北京理工大学教授张志威以《海量视频数据高效查询处理技术》为题进行报告。报告指出,随着数字经济和新技术的发展,视频数据规模呈爆炸式增长,对视频数据分析的需求日益复杂。
现有计算平台难以高效支持视频数据的复杂分析,研究主要集中在查询和存储的优化。针对查询的优化包括模型选择、执行计划及数据分割压缩,通过选择、排列和组合模型与算法提升查询效率,并通过过滤、缩减和分段降低数据处理规模。
存储优化则涉及多粒度多副本存储和基于语义的数据整合。张教授通过分析多媒体数据的实际应用任务特点,介绍了视频数据管理的难点与关键技术。
张志威教授报告
CCF高级会员、国家级青年人才、南京大学教授程龚以《开放数据检索——RAG的新机遇?》为题进行报告。报告介绍了检索增强生成(RAG)作为提高大模型能力的主流技术之一,现有RAG技术主要以封闭来源的文本数据为检索对象。
程教授探讨了如果将检索范围拓展到开放来源(如整个Web),并将检索对象从文本拓展到结构化数据(如知识图谱),RAG可能迎来的新发展机遇。本报告详细分析了实现这一目标的可能技术途径。