参会人员合影留念
时空数据已成为智慧城市、交通规划、环境监测等众多领域研究和应用的关键数据资源。然而,其面临着数据处理复杂、模型构建精度低、分析预测实时性差等诸多挑战。大模型凭借强大的多模态数据处理与复杂关系建模能力,可对海量异构时空数据进行高效整合与深度挖掘,提取深层次特征信息以提升模型构建精度;其高效计算架构还能缩短数据处理时长,增强分析预测实时性。为此,将大模型引入时空大数据计算分析成为解决上述挑战的重要举措。
在此背景下,CCF YOCSEF太原于2024年12月7日在山西大学计算机与信息技术学院举办“时空数据大模型技术的应用与展望”技术论坛,聚焦时空数据垂域大模型研究,邀业内专家分享理论成果、实践经验与应用案例,深入探讨如何有效利用大模型的强大能力,提高时空数据分析及预测水平,保障数据处理精度与效率,助力相关领域发展。
本次论坛由YOCSEF太原AC委员魏巍和YOCSEF太原AC委员张慧军担任执行主席,AC委员许骁哲和委员陈路担任线上主席。本次论坛邀请到北京航空航天大学国家杰青、优青获得者童咏昕、重庆大学计算机学院副教授李瑞远、山西大学计算机与信息技术学院教授白鹤翔和山西省测绘地理信息院测绘成果应用中心副主任贾晓亮担任引导嘉宾。此外,本次论坛还邀请到河南理工大学副教授、郑州YOCSEF主席任建吉,太原理工大学测绘系负责人、高分山西中心副主任李大成,北京吉威数源信息技术有限公司、国土资源事业部项目总监范晨担任特邀嘉宾。
魏巍和张慧军作开场介绍
一、引导发言
当前,在国家战略推动下,数据安全流通备受重视,而跨平台数据隐私问题成为行业发展瓶颈,如共享出行、社会治理、智慧交通等领域均面临数据孤岛困境,亟待实现跨域协同与隐私保护。第一位引导嘉宾北京航空航天大学计算机学院教授,国家杰青、优青获得者童咏昕针对此问题,以《时空大数据联邦计算》为主题,围绕时空大数据联邦计算,以及其在多领域数据处理中的关键意义进行发言。童咏昕指出时空联邦计算旨在解决数据自治与跨域协同的矛盾,满足“原始数据不出域,数据可用不可见”的核心需求。针对面临的联邦建模、查询和学习等挑战,提出创新思路与方法,如基于博弈理论的建模、高效查询算法设计和满足隐私保护的学习算法改进。通过跨平台司乘分配案例,展示了从管理查询到分析学习的优化过程,有效提升了分配效果。自主研发的时空联邦计算虎符系统在多领域应用中取得显著成效,如交通资源调度、运维及重大活动保障等。最后,童咏昕表示数据合规、联邦与时空大模型构建仍是挑战机遇,因此在未来需要学术界持续探索创新,推动时空大数据联邦计算技术发展应用。
童咏昕作引导发言
张国业、张慧军为引导嘉宾童咏昕颁发感谢证书
其次,时空数据因其独特性质在众多领域广泛应用,其空间特性涵盖邻近性、层次性、距离性等,不同空间粒度间的结构约束影响显著。第二位引导嘉宾重庆大学计算机学院副教授李瑞远围绕《时空数据挖掘与大模型》这一话题进行发言。李瑞远强调,虽然时空数据拥有一系列优点,但是,时空数据挖掘仍面临诸多挑战,例如:任务目标、发展方向与引导方式均不明确。在时空数据与大模型(LLMs)结合过程中,LLMs虽扮演着Enhancer、Predictor、Agent等重要角色,但相关技术各有难点。LLM-as-Enhancer的数据中心增强和模型中心增强分别面临数据理解提升与模型局限克服的挑战;LLM-as-Predictor调优与非调优方法利弊共存;LLM-as-Agent在数据融合与外部工具使用方面困难重重,即便能给出解释,也存在数据对齐困难、融合效果不佳和外部工具使用不当等问题。此外,大模型处理时空数据时还面临复杂模式理解困难、偏差偏好及易产生幻觉等挑战,严重影响应用准确性与可靠性。他指出,面对时空数据挖掘及与大模型结合所面临的任务目标不明确、发展方向模糊、技术难点多等困境,未来各方需协同合作,共同推动时空数据与大模型结合领域朝着健康、可持续方向发展。
李瑞远作引导发言
张国业、魏巍为引导嘉宾李瑞远颁发感谢证书
第三位引导嘉宾山西大学计算机与信息技术学院教授白鹤翔通过从时空数据大模型的自相关性及应用场景角度,分享了题为《时空数据中的空间模式》的报告,白鹤翔表示时空数据中存在着丰富多样的空间模式,这些模式对理解各类现象至关重要。在空间自相关特性方面,地理学第一定律揭示了相近事物关联性更强的规律,但在多尺度下,数据变化复杂,类内和类间关系也难以精准把握,仍需深入探究,这对全面揭示空间自相关规律意义重大。对于空间异质模式,从信息论角度出发,利用连续值和类别值计算互信息等指标,可精准度量分层异质,克服方差描述的不足,为理解分层现象提供准确依据。从模糊粗糙集角度,定义对象间相似和隶属程度,实现强解释性的局部异质度量,突破传统方法在处理复杂关系和类别型变量时的局限,为研究开辟新径。当下,应聚焦时空模式,融合空间与时间维度,从更高维度综合分析时空数据统计意义上的显著特征。这将有助于在未来深入挖掘潜在价值,为城市规划、环境监测、资源调配等多领域提供有力支持,推动相关领域发展,让时空数据更好地服务于社会发展需求。
白鹤翔作引导发言
张国业、张慧军为引导嘉宾白鹤翔颁发感谢证书
最后,第四位引导嘉宾山西省测绘地理信息院测绘成果应用中心副主任贾晓亮以山西省空间地理信息基础库建设为例进行讲述,贾晓亮在《自然资源与空间地理基础资源库建设山西实践》的报告中表示:新时期,自然资源与空间地理基础库发展面临诸多新趋势。例如:数据类型趋于多元化,涵盖结构化、半结构化与非结构化数据;分析场景更加多样化,统计分析与标签、全文检索等分析共存;分析时效迈向实时化,从离线转向实时交互分析。山西在基础库建设中,面对数据管理分散、手段落后、利用不深入等痛点,形成以下措施:其一,通过构建实体数据模型,实现各类数据关系一体化组织;其二,汇聚全量数据,加强跨业务等层级接入;其三,清洗时空数据,确保数据质量;其四,采用湖仓一体存储,实现数据质控;其五,关联时空关系,整合数据语义;其六,提供“零代码”建模与自助式分析,挖掘数据价值;最后,利用实景孪生引擎呈现实景三维。山西在未来将从多方面推进发展,加强资产运营,推进要素流通与共享服务,强化分析挖掘,为自然资源管理和社会发展提供更有力支持。
贾晓亮作引导发言
张国业、魏巍为引导嘉宾贾晓亮颁发感谢证书
二、思辨环节
在思辨环节,与会专家围绕时空数据大模型在处理具有不同时间粒度和空间分辨率的数据时,会面临的挑战有哪些;大模型如何有效地结合时空数据空间和时间两个维度的信息,以提高分析和预测的准确性;未来时空数据大模型会有哪些新的研究方向和应用场景等核心议题展开了热烈讨论。
激烈的思辨现场
思辨点一:时空数据大模型在处理具有不同时间粒度和空间分辨率的数据时,会面临哪些挑战?
针对这一思辨点,作为特邀嘉宾的北京吉威数源信息技术有限公司、国土资源事业部项目总监范晨表示:当下,国土部门对时空数据管理分析要求颇高,尤其在AI模型融合应用方面面临挑战。一是数据处理难题,数据类型繁杂,需解决融合、聚合及关联问题以打破壁垒,建立标准规范与运用技术整合数据是关键。二是应急响应挑战,利用时空大数据实现城市快速应对,如灾害后规划无人机最佳救援路线,需开发算法模型结合实时数据决策。三是数据融合困境,实景三维数据与矢量数据高效融合存在技术难题,需探索方法提升应用价值,助力国土管理工作。
与会专家结合自身研究领域和实践经验纷纷发表见解,主要观点总结如下:
首先,在全球范围内,时空大模型尚处于探索阶段,其定义模糊不清。以token定义为例,与普通大模型的简单界定不同,时空大模型的token难以精确刻画、未获学术界广泛认可,这使得整个领域发展方向不明。目前时空大模型多为套用大模型模式,而非基于实际应用驱动,有悖于以往时空数据领域应用驱动的发展传统。
其次,在移动边缘计算资源受限背景下,模型轻量化成为关键挑战,既要达成轻量化,又要兼顾可解释性与可理解性,以保障模型有效应用推广,无疑增加了处理不同时空粒度数据时模型构建与应用的难度。
再次,从数字孪生应用场景来看,其对模型实时更新与动态更新能力要求极高,时空数据大模型需随数据流实时自适应更新,即便存在噪声与异常数据,也要维持良好流动性与精准预测力,这是应对不同时空特性数据的重大挑战。
最后,时空数据大模型虽概念宏大,但构建通用模型困难重重,实际需针对不同领域构建,如气象大模型在气象领域就有诸多待解问题。不同领域数据时空特性各异,如何适配各领域不同时间粒度与空间分辨率的数据,以及在智慧城市社会治理等场景中精准处理数据以识别多元问题,均是时空数据大模型亟待攻克的难关。
张国业、魏巍为特邀嘉宾范晨颁发感谢证书
思辨点二:大模型如何有效地结合时空数据空间和时间两个维度的信息,以提高分析和预测的准确性?
本次论坛又围绕如何有效结合时空数据空间和时间两个维度的信息以提高分析和预测的准确性展开深入探讨。
首先,太原理工大学测绘系负责人、高分山西中心副主任李大成在探讨时空大模型的应用时指出:从地球系统科学看,时空大模型发展需关注诸多方面。其一,政策上重视数据共享,健全体系,打破壁垒促流通协作,推动应用。其二,完善处理模型标准,制定国家标准规范开发应用,保障兼容性。其三,处理技术依行业深入分析,适配行业特性发挥优势。其四,未来时空构架要连续、一体化,兼顾效率精度。因时空信息维度高难理解,需技术理论创新,挖掘其在地球系统科学领域更大价值。
紧接着,与会专家纷纷提出了自己的见解,主要观点总结如下:
其一,领域知识融合是提升准确性的重要途径。在追求大模型分析与预测精度提升进程中,引入领域知识被视为关键举措。例如构建法律大模型时,将婚姻法、海洋法等分支领域知识融入其中,可极大丰富模型信息储备。时空数据大模型同样可将地理、测绘等相关领域专业知识纳入其中,让模型依据领域特有规律进行分析预测,减少因缺乏领域背景导致的偏差,从而显著提高准确性。
其二,从地理学视角来看,数据类型差异也给应对策略提出了特殊要求。时间尺度具有分型特征,采集多模态数据后统一空间分辨率成为难题,且尺度选择至关重要,而时空数据维度对齐与应用紧密相关,需依据不同应用场景确定适宜的数据处理方式,以确保数据在时空维度的准确性与一致性,为模型分析预测提供可靠依据。
其三,大模型对时空数据的理解能力提升亦是关键环节。在学术领域,大模型多围绕大语言模型的理解与生成能力展开。对于时空数据大模型而言,理解时空数据是核心挑战。当前大模型虽能理解自然语言与图像,但对时空数据等持续数据理解不足,首要任务是开展数据标准学习,使模型精准解读时空数据内涵特征,充分利用其信息提升分析预测准确性。
其四,在多模态数据处理方面,构建理论背景成为新趋势。以往多模态数据处理方式较为初级,如今应将人类已知或潜意识里的时空知识数学建模后输入大模型,为其奠定理论根基。针对时空数据的空间分布与时间演变规律等知识进行数学化处理融入模型,使其在处理多模态时空数据时有科学依据,更好地理解数据复杂性,能够有效解决问题并提高分析预测准确性。
思辨点三:未来时空数据大模型会有哪些新的研究方向和应用场景?
最后,本次论坛围绕时空数据大模型在未来可能出现在哪些新的研究方向和应用场景上再次进行了激烈讨论。
作为特邀嘉宾的河南理工大学副教授、郑州YOCSEF主席任建吉表示,在研究方向上,数据隐私保护与合规使用已然成为关键议题。联邦学习和安全计算等技术手段可有效助力保障数据隐私,迫切需要深入探索其在各领域的应用,从而确保数据能够合法、合规地被利用。时空数据在众多产业场景中有着广泛应用,比如在边坡监测、桥梁隧道事故预测及救援过程中,以及城市治理里快递业路径规划、土地利用调整等公共资源分配工作方面,都离不开时空数据分析来实现优化。然而,时空大模型在发展进程中,在数据标准化、模型标准化和复用方面依旧存在很大的探索空间。
紧接着,与会的各位专家表达了不同的观点,主要集中在时空大数据在未来可能出现在数据标准化、模型标准化和复用性、交通领域、体育竞技领域、公共卫生与社会舆论等方面。具体观点如下:
首先,时空大模型当前在数据标准化、模型标准化和复用性上存在较大的拓展空间。科研人员应集中精力攻克这些难题,通过建立统一的数据规范和模型标准,提升时空大模型的通用性与复用性,减少资源浪费和重复劳动,推动时空大模型技术在更多产业项目中的高效应用,加速其从理论研究走向广泛实践的进程。
其次,在交通领域也是一个热点,交通运输部公路大模型项目的成功立项为时空大模型的应用提供了范例。传统垂域模型已在交通灾前预防到灾后恢复的各个阶段发挥作用,而未来时空大模型有望进一步深化在交通行业的应用。例如,通过对海量时空数据的深度分析,实现交通流量的实时精准调控,优化道路设施的智能运维方案,以及提供更为精确的交通风险预警,全方位提升交通系统的运行效率和安全性,为民众创造更加便捷高效的出行环境。
再次,体育竞技领域也将迎来时空数据大模型的深度渗透。在团队运动如足球、篮球赛事中,运动员的动态位置变化构成复杂的自博弈场景,时空数据可实时捕捉赛场态势,为教练团队制定科学合理的战术阵型提供关键决策依据。而在乒乓球、羽毛球等一对一竞技项目里,借助时空数据与AI技术对顶尖选手比赛数据的深度剖析,如球的轨迹、发球角度等细节,能够生成针对性的对抗策略和训练内容,助力运动员突破技术瓶颈,提升竞技水平。未来,这一应用模式有望拓展至更多体育项目,掀起体育训练科学化的新浪潮。
最后,公共卫生与社会舆论方面同样蕴含着时空大模型的广阔应用前景。以印尼传染性疾病(如登革热)的时空传播为例,时空大模型可精确模拟疾病的传播路径和扩散趋势,为公共卫生部门提前部署防控措施、合理分配医疗资源提供有力支持。在社会舆论领域,时空大模型能够对热点事件在时间和网络空间维度的传播趋势进行实时监测与深度分析,帮助相关部门及时了解民众情绪变化,精准引导舆论走向,维护社会稳定和谐,为社会治理现代化提供全新的技术手段。
张国业、魏巍为特邀嘉宾任建吉颁发感谢证书
在本次论坛的最后,CCF YOCSEF太原主席张国业对本次论坛进行了总结与致谢,他表示在本次讨论中,大家基于各自研究方向提出了众多极具代表性的观点,涵盖时空数据的各个方面。然而,即便没有大模型,这些应用目前也有相应的技术路径且成效尚可。展望未来,大模型是否真能成为万能的解决方案,是否能在各领域显著提升总结能力,使所有应用都得到理想的处理效果,仍是一个有待深入探究的问题,还需后续进一步的思考与研究。
CCF YOCSEF太原主席张国业作总结和致谢
编辑:任时磊
审核:张国业
撰稿:陈 路