观点论坛
CCF YOCSEF上海-观点论坛
2025年11月15日,由中国计算机学会(CCF)主办、CCF YOCSEF上海学术委员会组织的,华东理工大学、上海临床创新转化研究院、联通(上海)产业互联网有限公司支持的CCF YOCSEF上海观点论坛—“合成数据是医疗AI的破局之钥还是伦理陷阱?”在上海临床创新转化研究院403举行,论坛由CCF YOCSEF上海通AC委员丁炜超和蒋龙泉担任执行主席。引导发言嘉宾:复旦大学祁昊,华东理工大学李舒蕊,上海人工智能实验室徐捷;特邀嘉宾:复旦大学附属中山医院居旻杰、万达信息股份有限公司陈诚、上海交通大学医学院附属瑞金医院常庆、复旦大学蒋思航;医疗机构、高校、医疗健康行业企业、专家学者和学生代表共40余人参加了论坛。会议论坛编号为CCF-Yo-25-042。
核心观点
CCF YOCSEF上海-观点论坛
1. 合成数据是突破医疗AI数据瓶颈的“金钥匙”,但需分场景应用。合成数据在缓解数据孤岛、隐私壁垒、罕见病数据稀缺及高标注成本方面具有不可替代的价值,其核心价值不在于“复制真实”,而在于“补充缺失”—如生成极端病例用于医生培训、补充长尾疾病样本以提升模型鲁棒性,或在不触碰原始数据的前提下构建训练集,实现安全合规的AI协同。
2.数据质量评估应以“下游任务有效性”为终极标准,而非盲目追求“真实相似度”。医疗场景下,合成数据的有效性不应以与原始数据的视觉或统计相似度为唯一尺度,而应聚焦其能否提升模型性能、辅助临床决策或优化教学培训。例如,为AI模型生成“重病”CT样本以弥补真实数据不足,其价值远高于一个“完美复刻”的轻症样本。医学评价体系(如循证医学)应与AI评估方法深度融合。
3. 产业界应主导技术迭代,但需与学界、医疗机构共建“审慎共治”生态。合成数据的落地必须由产业界推动快速试错与规模化应用,但其可信度与安全性必须由医学专家、伦理机构与监管方共同验证。理想的模式是“产业提需求、医院供场景、学界建标准”,通过可信数据空间、联合验证项目等机制,实现技术创新与伦理安全的动态平衡。
4.构建“可控、可测、可溯”的技术与标准体系是未来关键。未来需从三方面发力:一是技术上引入因果推断、差分隐私等,实现“可控、可用、可信”的生成;二是建立“人机协同”的多维度评测方法论,如“一标一效、一审一对齐”;三是推动行业共建治理框架,明确合成数据在临床试验、器械注册、教学培训等不同场景下的准入标准与责任边界
引导发言
CCF YOCSEF上海-观点论坛
一、祁昊 复旦大学
复旦大学的祁昊博士代谭伟敏老师介绍了其团队利用合成数据进行医疗AI训练的研究。通过Diffusion模型生成眼底图像,在仅使用16.7%真实数据的情况下,模型性能达到甚至超过使用全量真实数据的基准模型,展示了合成数据在缓解数据稀缺问题上的巨大潜力。二、李舒蕊 华东理工大学
华东理工大学李舒蕊代表金晶团队介绍了脑机接口(BCI)在医疗康复与人工智能领域的研究进展。包括对意识障碍患者和脑卒中患者的康复治疗、探索脑机接口与糖尿病控制的结合,以及将大模型集成到BCI系统中,实现多语言交互和轻量化应用。
三、徐捷 上海人工智能实验室
上海人工智能实验室徐捷在引导发言中表示合成数据是突破医疗AI数据孤岛、长尾问题与标注成本的“金钥匙”,主张通过技术实现可控可信生成、建立人机协同评估体系,并倡导产业、学界与监管共治,推动安全、开放的医疗AI生态发展。
为了表达谢意,YOCSEF上海副主席徐冰茹、委员蒋龙泉、委员许文波为三位嘉宾颁发了感谢牌,以感谢嘉宾们对本次活动的支持。
为三位引导嘉宾颁发感谢牌
思辨环节
CCF YOCSEF上海-观点论坛
本次论坛特别设计了三大思辨问题,引导现场深入思考:
万达信息陈诚认为,当前核心瓶颈在于技术可信度不足。合成数据难以完美反映原始数据的所有特征,尤其当数据使用方与算法拥有方存在信息壁垒时,平衡数据可用性与隐私保护极为困难。
瑞金医院常庆提出,医疗场景的接受度是一个复杂的评价体系。目前缺乏针对合成数据本身的细分评价标准,因此无法有效进入医疗流程。他以小分子药合成为例,强调任何新事物都需要经过完整的验证路径才能被接受。中山医院居旻杰表达了对数据来源局限性的担忧,认为若用于生成合成数据的原始数据本身有缺陷或偏差,生成的数据可能无法准确反映复杂疾病的分层情况,影响临床判断。
关于评估标准,陈诚认为不应追求与真实数据的全面相似,而应针对特定下游任务保留关键维度的特征,避免因过度相似导致隐私泄露。
常庆从医学角度反思“真实数据”的定义,认为应将合成数据的质量评价与循证医学的评价体系相结合,关注其能否推动医学认知的进步。居旻杰和与会嘉宾均强调,评估应优先考虑对下游任务的有效性而非绝对相似度。例如,为稀缺的重症病例生成合成数据,其价值在于补充训练集,而非完全复制某个真实病人。
隐私与保真之间的矛盾是公认难题。徐捷指出,合成数据虽能打破数据孤岛,但也存在偏见继承、隐私泄露和监管真空等风险,需引入因果推断、差分隐私等技术来构建可控、可信的生成机制。
对于推广主导权,观点呈现两极分化。一方认为应由产业界主导,以市场驱动快速迭代,通过实际应用暴露并解决问题,推动技术发展。另一方则主张必须由学界和医疗界主导,秉持审慎原则,确保技术安全可靠,避免重蹈“反应停事件”等历史覆辙。
在开源共享与商业保护方面,共识是需要建立多方协同的治理框架。政府、监管机构、医院、企业和学术界需共同合作,制定行业标准和规范。具体实践中,目前已出现了。“先提供合成数据进行程序调试”的新模式,这既满足了产业界对数据的需求,又符合医疗机构的安全要求,体现了务实的合作路径。
总结与展望
CCF YOCSEF上海-观点论坛
最后,CCF YOCSEF上海委员、本次论坛执行主席蒋龙泉为本次论坛作总结发言。他提到,本次论坛围绕合成数据在医疗AI中的应用展开了深入、热烈且富有建设性的讨论,各方嘉宾从技术、伦理、临床、产业等多维度交换了观点。尽管合成数据在提升模型性能、缓解数据孤岛和隐私壁垒方面展现出巨大潜力,但其落地仍面临技术可信度与医疗场景接受度的双重挑战。论坛凝聚了关键共识—合成数据的价值不在于“像真实”,而在于“用得有效”;其推广应由产业界主导快速迭代,同时需与学界、医疗机构协同构建审慎共治的生态,以推动安全、合规的落地应用。
论坛合影






所有评论仅代表网友意见