2025年5月23日,YEF2025专题论坛“在‘数据封锁’中突围,高质量自主可控数据集的构建之道”顺利举办。论坛邀请浙江大学百人计划研究员陈璐、江苏省联合征信有限公司信息技术部总经理王治平、安徽飞数信息科技有限公司常务副总经理谭昶作引导报告。论坛设置专题讨论环节,邀请苏州柏川数据科技有限公司CEO马东升、武汉大学计算机学院教授魏子恒、海淀数据要素综合服务中心首席专家王吴越等围绕思辨议题进行发言,全体与会嘉宾围绕高质量数据集评估维度、构建挑战、保障机制等问题展开深入交流。论坛由YOCSEF福州现任主席、福建师范大学尤玮婧副教授, YOCSEF南京24-25年度主席、东南大学吴天星副教授共同主持。
图1论坛现场
论坛开始,首先由尤玮婧介绍论坛背景。在数字化转型浪潮中,数据集是数字新基建的核心基座,其构建过程涵盖采集、清晰、标注、治理等多个环节。通过驱动大数据挖掘、AI模型训练、数据要素市场化配置,高质量数据集正在成为全球科技与产业竞争的核心。近日,美国国立卫生研究院(NIH)宣布全面禁止中国等国访问其核心生物数据库,切断了包括人类基因型-表型数据库dbGaP在内的多个关键数据资源。国内虽自有可观的数据来源,但数据集的质量和易用性仍有待优化。在“数据封锁”的大背景下,构建自主可控的高质量数据集已成为提升国家数据治理能力、强化科技自主创新的重要抓手,其中关键在于解决质量评估标准混杂、数据生产加工协同困难、数据采集标注规范不足等核心问题。本次论坛面向即将到来的“数据封锁”危机,旨在探讨高质量数据集评估标准、自主构建高质量数据集所面临的挑战及应对措施,梳理构建高质量自主可控数据集的目标方向、现存问题和可行路径。
图2 陈璐作引导报告
在引导报告环节,陈璐首先作题为《时空数据质量评估》报告。她指出数据质量评估是数据质量管理的核心组件,需要与具体数据及下游应用需求相适配,具体可分为质量指标驱动型评估与下游任务驱动型评估。而针对时空轨迹大数据,其团队首次提出完整质量评估体系,包含有效性、完整性、一致性、公平性等,并提出了基于代表性轨迹采样的近似评估算法,评估效率提高近10倍,评估误差与效率皆优于现有方法。最后展望未来,从下游应用端出发,质量评估应与下游任务做更紧密的结合;从输入数据端看,评估的数据不仅局限在真实数据,对于合成数据的评估应有完全不同的评估标准;从整个数据分析流程出发,质量评估是否应该单独存在且独立执行也变得值得探讨,未来可结合到整个分析流中做在线按需评估。
图3 王治平作引导报告
王治平在《高质量数据集建设的面临的挑战与破局》引导报告中指出,2024年全国数据生产总量达41.06 ZB,同比增长25%,增速较去年提高2.56%;人均数据生产量约为31.31TB,同比增长25.17%,数据生产总量和人均产量实现同步跃升。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集,包括:通识数据集、行业通识数据集、行业专识数据集。高质量数据集建设在数据管理层面的难点包括:数据分散杂乱、数据质量不高、数据标准不统一;在技术层面的难点则是:数据采集技术受限、数据分析能力不足、数据存储成本高;而在安全层面的难点为:数据安全风险高、安全技术和管理体系要求高。破局之法在于,一要建立并完善高质量数据集标准体系;二要解决数据从哪里来的问题,打造公共数据授权运营平台、城市数据可信空间、行业数据可信空间、数据交易所、企业数据可信空间等;三是从通用性和专用性两方面入手制订高数据集质量评估体系。
图4 谭昶作引导报告
谭昶在《人工智能高质量数据集建设实践》引导报告中指出,高质量数据集正成为数据产业竞争制高点,是人工智能发展和数据要素价值实现的关键。国家围绕高质量数据集建设,已形成多层次、全链条的政策体系,重点行业领域对高质量数据集需求巨大。此外,总结了高质量数据集建设基本流程,包括数据收集、标准规范、工具链、组织保障等重点,从而回答需要什么数据、需要怎样的数据以及如何构建的问题。强调了安徽飞数具备坚实的无监督数据基础与有监督数据基础,高质量数据集构建离不开人,人机协作是高质量数据集建设技术创新的重要方向。最后,他通过文档处理、大模型视频数据标注、多模态数据处理技术、数据预标注技术、智能质检技术,以及央企大型实践案例介绍现实场景下的高质量数据集建设技术、机制与管理体系。
在引导报告之后,尤玮婧、吴天星共同主持了接下来的思辨环节。与会嘉宾围绕“高质量数据集有哪些关键的评估维度?”、“自主构建高质量数据集面临哪些挑战?”、“如何实现全周期数据集质量保障机制?” 三个议题展开了深入思辨。
图5特邀嘉宾马东升、魏子恒、王吴越进行思辨发言
图6其他与会嘉宾进行思辨发言
思辨议题一:见贤思齐,高质量数据集有哪些关键的评估维度?
在思辨议题一的讨论中,特邀嘉宾马东升从自身企业智驾出海的案例出发,强调要从合规的角度做好数据集质量把控,包括源头合规验证与跨境适配性验证等不同方面。与会嘉宾认为高质量数据集评估需同时考虑通用维度与专用维度,通用维度涉及数据规模、数据准确性、数据完整性、数据一致性、数据安全性等不同方面以帮助确立质量基线。而专用维度则需要从数据应用目标、任务需求、场景定义等方面定制差异化的评估标准。其中,工业界强调专用维度的绝对可靠性,脱离场景谈评估不可取;学术界侧重通用维度的可复现性,更关注质量评估的技术理论。最终应以“评测工具”为枢纽,构建自动化的合规检查与缺陷定位机制,确保评估体系紧扣应用场景,提升评估的针对性与实效性。
思辨议题二:临危思变,自主构建高质量数据集面临哪些挑战?
在思辨议题二的讨论中,特邀嘉宾魏子恒从开放数据的角度出发,总结自主构建高质量数据集面临的挑战包括开放数据权属模糊从而制约共享流通,开放数据质量参差与语义混乱,且缺乏支持增量开放数据的动态采集系统。与会嘉宾认为自主构建高质量数据集面临多重挑战,比如在确保数据不出域的前提下实现跨域加工,常常受到物理域边界模糊与安全分级机制缺失之间矛盾的制约;成本问题与收益分配机制不明,削弱了多方协作的积极性;合规性要求与真实数据交换的现实需求存在矛盾,尤其在处理敏感数据时,授权服务效率不足问题尤为突出;而可信空间缺乏有效的可信性验证机制,进一步加剧数据泄露风险;确权难题限制了数据的开放流通,对处理速度的要求又往往迫使在安全性上作出妥协;此外,学术界对理论完备性的追求与产业界对实用性及落地效率的注重存在视角差异,如何协同并进值得探索。
思辨议题三:处变不惊,如何实现全周期数据集质量保障机制?
在思辨议题三的讨论中,特邀嘉宾王吴越认为全周期数据集质量保障应贯穿供得出、流得通、用得好各环节,通过确权合规、分级流通与反馈优化构建互锁闭环,构建基于市场逻辑的质量体系。与会嘉宾的观点为实现全周期数据质量保障需破解技术可行性与经济可持续性的矛盾。尽管现有加密、多方安全计算等技术可支撑数据在供给、流通与使用全链条中的安全性,但其高算力开销与硬件依赖成本制约了现实落地。应构建基于数据敏感度的动态分级机制,对低敏数据采用轻量加密,对高敏数据有限启用可信硬件技术;同时设计收益反哺模型,将数据使用收益定向投入安全基础设施;并推动轻量化隐私计算技术研发,实现学术前沿与产业实用的兼容与融合。本质上需建立“安全—成本—效率”三角平衡模型,通过分级控本、收益循环与技术降耗三轴联动,以经济性支撑安全性,构建“供得出、流得通、用得好”的可持续闭环体系,走出脱离现实的技术理想主义。
论坛最后由尤玮婧、吴天星进行总结。本次论坛引起来自学术界与产业界等不同背景参会者的关注,通过不同视角的观点分享及现场热烈讨论,不仅为高质量数据集构建提供了不同的观点、策略、方案,也激发从业者对于数据封锁背景下的自主可控高质量数据集构建这一问题的深入思考。与会嘉宾普遍认为,构建高质量数据集已不仅是技术问题,更关乎制度设计、生态协同、价值分配机制的系统性重构。未来,应进一步加强标准化引导、工具化支撑、平台化承载,推动从“能用数据”到“可信数据”的跨越,高校企业应协同并进推动高质量数据集建设,高效赋能行业智能化发展。
图7 与会嘉宾合影