数据治理作为支撑数据要素化、资产化的基础体系,涵盖从数据产生、存储、使用到销毁的全生命周期管理。依据DAMA数据管理体系,其内涵包括数据架构、数据建模、数据标准、元数据管理、数据质量、主数据管理等十余个关键领域,共同构建起数据可控、可信、可用的系统能力。在当前数据要素市场化配置加速推进的背景下,AI为传统数据治理带来了全新的技术路径与能力升级,如何构建适配新要素时代的AI赋能型数据治理范式,成为行业亟待探索的重要课题。
在此背景下,2026年4月26日,由中国计算机学会主办,CCF YOCSEF武汉分论坛承办的“探索新要素时代下AI赋能的数据治理范式”技术论坛在华中师范大学顺利召开。本次论坛由金正平(亿信华辰,YOCSEF武汉AC委员)和周凤(并行科技,YOCSEF武汉副主席)担任执行主席,由裴羽尘(华中师范大学,YOCSEF武汉学术秘书)、张泽宇(华中农业大学,YOCSEF武汉候任AC委员)担任线上主席。
参与本次论坛的还有YOCSEF武汉现任主席彭聪,YOCSEF武汉候任主席邹逸雄、YOCSEF武汉候任副主席孙昊,AC委员钟忺、董性平、汪蓉、袁鑫、蔡佩桥、王玉龙,候任委员王婧、罗紫葳。
论坛特邀Dama大中华区副主席胡博、北京亿信华辰软件有限责任公司CDO汤贺静、闽江大学毕仁万作为引导嘉宾进行引导发言,特邀武汉理工大学袁龙、东云睿连(武汉)计算技术有限公司鲁晓丹、湖北大数据集团闵全鑫作为思辨嘉宾。本次论坛吸引了来自学术界、企业界30多位相关人士共同参与。现场讨论气氛热烈,拥有不同观点背景与立场的同僚各抒己见。
第一位引导嘉宾Dama大中华区副主席胡博分享《智能时代:AI 发展趋势与数据治理基石》,深入探讨了在人工智能快速发展的背景下,数据治理所扮演的关键基石作用。首先,提示词等概念背后,元数据是关键,它帮助发现、理解与信任数据。其次,大模型微调依赖高质量数据,遵循“垃圾进垃圾出”原则,需服务业务并识别关键数据。最后,多数企业通过向量检索增强(RAG)处理非结构化知识库,但存在“只见树木不见森林”的局限,未来需向知识增强RAG与本体技术演进。胡博认为,只有夯实准确、完整的数据基础,AI才能稳健落地。
第二位引导嘉宾北京亿信华辰软件有限责任公司汤贺静作主题报告,提出相比传统结构化数据,AI时代面临数据规模爆炸、多模态融合、实时性、安全性等六大变革,要求数据治理从被动转向主动适配。她分享了一套面向AI的多模态数据治理架构,包括基础设施、处理引擎、治理管理和服务应用四层,并提炼出“采、理、标、合、交、营”的流程,涵盖异构数据集成、语义理解、一致性校验、安全合规与价值流转。最终目标是在混乱的非结构化数据中建立秩序,让AI更聪明、可信,强调未来的竞争不在于模型参数大小,而在于拥有最干净的数据“燃料”。
第三位引导嘉宾闽江大学毕仁万作 《面向数据生命周期的隐私保护治理技术研究》主题报告,从国内外数据泄露事件与我国《网络安全法》《数据安全法》等法规背景出发,指出数据治理的核心目标是实现数据要素的安全流通。他介绍了数据采集、传输、存储、处理、交换、销毁六个生命周期阶段面临的隐私挑战,并对比了可信执行环境、同态加密、差分隐私、安全多方计算等主流技术。演讲重点分享了团队近年的研究工作:针对混合数据的隐私保护聚类与质量评估、防御传输篡改的完整性验证、网联自动驾驶场景下的多模态隐私融合、高效常数通信的神经网络安全推理,以及基于秘密共享与区块链的去中心化联邦学习架构。
在思辨环节,论坛特别邀请了武汉理工大学袁龙、东云睿连(武汉)计算技术有限公司鲁晓丹、湖北大数据集团闵全鑫共同参与思辨。
辩题一:如何看待数据治理的投入与收益非均衡性问题?
汤贺静指出,针对客户预算有限、不愿高投入的现状,建议采取“全盘规划、局部开展”的策略。华为那种从数据标准、资产目录入手的方法对大多数组织并不适用,更务实的做法是找到行业标杆或聚焦关键矛盾,选择能直接量化收益的场景优先治理。例如,制造业中通过物料主数据治理降低库存成本,投入几十万到几百万即可节省上千万,投入产出比清晰可见。因此,优先选择对生产经营产生直接、可量化效果的具体场景,是解决投入与收益矛盾的有效路径。
思辨嘉宾袁龙表示,数据治理中普遍存在“建设者与使用者分离”的矛盾:使用者往往将收益归功于自身,而非数据治理的赋能作用,导致治理被视为辅助手段,价值难以体现。要破解这一困境,关键在于建立一套能够将隐性收益显性化的价值评估体系。就像修路虽然本身亏本,但每个人都在受益,数据治理也应该让使用者对效率提升等收益进行量化认定,使这些收益能够抵消前期的投入成本,从而更客观地衡量数据治理的真实价值。
思辨嘉宾鲁晓丹表示,在当前严峻的市场环境下,数据治理项目必须讲清楚业务价值才能立项。不能像过去那样泛谈体系或平台,而应聚焦高价值场景、明确边界,从三个方向切入:一是增效,从依赖数据工程师升级为AI驱动的智能报告,一句话即可获取结果;二是预警,及时识别风险;三是预测,利用高准确率模型帮助客户预见未来或获得更优决策。以这些场景反向推导数据治理的目标与范围,才能让客户切实感知收益。
张潇补充,数据治理的投入与收益矛盾本质由收益驱动,没有收益便不会开展治理。收益可分为短期、中期、长期三个层次:短期包括数据交易、应用支撑、降本增效等直接价值;中期涉及战略规划与市场预期等间接收益;长期则形成正向反馈,不仅作用于本行业本领域,还能扩展到跨行业、跨领域及更高层级的管理部门,带来更深远的价值。
胡博坦言数据治理当前面临“两头受气”的困境:企业觉得投入大、收益小而不愿投资,数据治理企业自身也经营困难。行业解决方案虽能提供标杆作用,但To B服务存在严重的个性化问题,企业需求千人千面,难以复制。因此,数据治理必须有清晰的战略和架构,且必须与企业战略和架构保持一致。企业架构应分层:底层是业务架构,之上是相互支撑的应用架构与数据架构,最底层是IT架构,数据治理需要在这样的框架下系统推进。
辩题二:AI如何赋能数据治理——关键技术路径与实践场景
胡博明确大模型技术能够真正落地数据治理,发挥关键作用。过去数据治理依赖大量人工实施,成本高且难以闭环。大模型具备强大的语义理解能力,可以将非结构化的内容快速结构化,从而弥合数字化流程中的断点。未来人机交互将转向AI加工后的信息入口,大模型不仅能处理数据,还能赋能搜索引擎等应用。因此,大模型技术为数据治理提供了切实可行的落地路径,降低了对人工的依赖,提升了治理效率。
汤贺静从产品视角,分享了亿信华辰已将大模型能力嵌入数据治理产品,在元数据管理(字段识别、注释补充)、数据质量管理(规则生成及计算公式转化)、数据建模、安全合规(从制度文档中提取可执行规则)、数据集成等多个场景中实现落地应用。相比传统人工处理,大模型大幅减少了人力与物质投入,显著提升了效率。尤其对于中小企业而言,成本门槛被有效降低,未来将有更多企业愿意并能够实践数据治理。
钟忺针对数据标注的高成本问题,指出传统方法需要大量投入在原始数据处理上。他提出用大模型辅助标注的思路,本质上是通过预训练模型减少人工标注量,只需少量微调即可完成任务。
程吉瑞补充AI与数据治理密切相关,核心仍是“垃圾进垃圾出”。以长江生态鱼类项目为例,大量经费和人力实际花在原始数据的标注上,而非模型本身。如果数据集质量不高,即便投入千张显卡也是巨大浪费;只有先把数据集做好,大模型才有意义,在此基础上进行少量微调和推理,就能在垂直领域取得良好效果。
张潇聚焦中南民族大学在民族领域(涉及敏感数据和意识形态)的大模型开发进行分享,借助大模型工具完成了前期数据采集、清洗、标注及微调等工作,大幅节省了整体成本。最大成本在于前期的数据清洗与标注,后期预训练或微调主要消耗算力。未来大模型技术将在数据治理中发挥关键作用。
鲁晓丹分享传统数据治理人力成本高,而基于大模型已实现全流程自动化:例如从数据标准文档自动映射非标准数据、自然语言驱动的数据加工、自动质量监测与预警,以及工作流运行的自动监控。目前已实现结构化大数据框架下AI驱动的全流程数据治理。
袁龙认为,除了大模型,知识图谱与图计算在数据治理中仍有重要价值,能将业务逻辑通过图结构关联起来,支持查询、分析等上层应用。同时,智能体技术也值得关注,它可以全程参与企业决策过程,记录决策路径而非仅存结果,形成“上下文图谱”,在数据治理的全流程智能化与自动化中将发挥关键作用。
毕仁万认同大模型能够赋能数据治理,但强调在使用过程中存在安全风险,例如进行数据分类分级时,大模型可能产生“创作”内容,导致真假难辨。因此,在享受AI带来的效率提升的同时,必须建立相应的规避措施或解决方案,以控制和降低潜在风险。
辩题三:新机遇下的数据治理技术架构演进方向
胡博表示,未来数据治理的架构应转向源头治理,从数据产生伊始就确保高质量、可用、可信。同时,数据治理平台应服务化,深入嵌入各个业务系统,做到你中有我、我中有你。
闵全鑫认为未来数据治理形态将从中心化集中模式转向分布式协同的联邦治理,不再强求将所有数据统一抽取到数据湖中,而是“中心定标准、边缘做治理”。这种模式下,传输过程中的合规与信任问题可通过区块链和隐私计算技术解决,例如将数据治理全过程(传输、清洗、确权等)上链存证,确保不可篡改。同时,治理能力趋向服务化、SaaS化,由专业服务商将复杂能力封装为标准接口,让使用者无需感知底层技术架构的复杂性。
袁龙分享未来数据治理将向两个方向演进:一是从人工或辅助模式转向智能运营,形成人机协同、AI主导的新模式,资深专家的重复性工作将被AI替代;二是从静态登记式转向主动感知式,依托主动元数据管理、日志采集、任务调度等技术,对数据库、数仓、数据湖等平台的数据对象进行持续动态感知,实现数据资产的主动管理与治理。
鲁晓丹强调,当前AI在数据治理中的应用仍停留于“人可操作+AI叠加”的阶段,远未达到真正变革。她预测两三年后,随着大模型的飞速发展以及客户与老板的驱动,现有沉淀的工具平台将被彻底打掉,转向全智能体式的新形态,甚至可能移除整个中台层,不再需要人工操作界面。尽管目前交付验收时不会向客户画这种饼,但内心坚信这种变革必然到来。
汤贺静对于为什么要做数据治理,表示数据孤岛的根本原因在于缺乏统一的数据架构。理想情况下,企业应预先设计一套符合DAMA等标准的数据架构,后续系统开发均依此进行,AI也可协助规划,这样只需抽查运行偏差,而非被动解决大量问题。然而,跨组织场景(如不同厂商的具身智能机器人)因物理特性各异、训练数据不同且涉及技术机密,治理难度极大,短期内很难找到有效解决方案。
彭聪从实践角度分享可信数据空间目前仍停留在概念层面,缺乏实用化的技术支撑。现有三条技术路线——基于TEE(机密计算)、基于MPC(多方安全计算)和基于全同态加密——各有致命缺陷:TEE需硬件支持和巨额重建成本;MPC通信量暴增千倍;全同态加密时间开销超千倍。这些技术无法实现通用化,只能在极简场景(如群租房判别、反诈数据交集)中做强适配,实现秒级响应。国家层面的标准仅解决了身份准入与信道建立,数据利用环节缺乏标准。区块链只能做确权和交易确认,无法保护数据本身。最可能落地的TEE路线仍需大规模更换现有服务器。他表示,目前从业者普遍困惑于技术无法匹配概念,只能结合具体场景做实用化设计。
思辨环节输出以下结论:
1、解决非均衡性需聚焦高价值场景、量化收益,通过内部结算机制将隐性收益显性化,推动数据治理从成本中心转向价值创造。短期以降本增效、数据交易为抓手,长期以资产入表与融资实现正向闭环,同时强调全员协同、战略与架构统一。
2、大模型已落地元数据管理、质量规则生成、自动化标注等场景,大幅降低人力与成本,尤其惠及中小企业。但需警惕模型“创作”带来的安全风险。未来将走向人机协同、AI主导的全流程自动化治理,知识图谱与智能体技术同样不可忽视。
3、治理架构正从集中式湖仓转向分布式联邦协同,强调源头治理与主动感知,平台服务化、嵌入业务系统。全智能体式形态有望在两三年内颠覆现有中台层。然而可信数据空间等技术仍停留在概念阶段,现有路线(TEE、MPC、全同态)均缺乏实用化能力,需结合极简场景做强适配突破。

















