2025年10月24日13:30至17:30,中国计算机大会(CNCC)技术论坛《深度推理赋能决策智能:强化学习与大模型的碰撞与融合》在哈尔滨工业大学活动中心3层第二会议室顺利召开。本次论坛聚焦智能体技术前沿,围绕强化学习与大模型的深度融合路径、决策智能核心挑战及产业落地应用展开深入探讨。论坛现场学术氛围浓厚,思想交流活跃,吸引了众多领域内专家学者、企业代表及高校师生参与,为推动我国人工智能从 “生成式” 向 “行动式” 跨越注入强劲动力。
本次论坛由哈尔滨工业大学(深圳)教授陈科海(CCF YOCSEF深圳AC委员、哈尔滨工业大学(深圳)国家级青年人才/博士生导师)与中山大学副教授沈力(CCF YOCSEF深圳AC委员、中山大学逸仙学者/博士生导师)共同担任执行主席。论坛由中国计算机学会(CCF)主办,YOCSEF深圳与SZCCF大模型专委会联合承办。
在论坛的开场环节,YOCSEF深圳主席漆舒汉介绍了论坛举办的背景与核心价值。他指出,2025年被视为“智能体元年”,人工智能正从专注内容生成的感知智能,迈向具备自主决策与环境交互能力的行动智能,但当前智能体发展面临大模型幻觉、知识库静态、因果理解缺失等关键瓶颈。本次论坛以“强化学习与大模型的碰撞与融合”为主题,正是希望汇聚学界业界智慧,探索“决策优化”与“知识驱动”双路径融合的技术范式,为智能体技术突破指明方向。
本次论坛邀请了四位国内人工智能领域知名专家作引导发言。哈尔滨工业大学(深圳)教授、计算与智能研究院院长张民带来题为《感知智能到认知智能的跃迁——大模型与强化学习的协同进化》的引导发言。张民指出,大模型与强化学习的协同是实现从感知智能到认知智能跃迁的关键路径,也是迈向通用人工智能的重要方向。他分析道,当前大模型在泛化表征和语言表达方面优势突出,但存在规划能力不足、易产生幻觉等问题,而强化学习在规划与环境交互方面表现优异,但在决策可解释性和复杂任务分解方面仍有局限。报告系统梳理了团队在大模型与强化学习的协同进化路径方面的研究成果:在基础大模型构建方面,团队研发了立知大语言模型,针对模型生成合理但与事实不符的幻觉问题,提出预训练阶段高质量数据筛选和推理阶段多智能体讨论博弈等方案;同时,团队还构建了统一多模态大模型,采用混合专家架构实现文本、图像、音频、视频等多模态的统一表示与理解。在基于人类反馈的强化学习层面,提出基于多标准偏好树的奖励建模和过程奖励去噪方法,显著提升模型反馈准确率和安全对齐效率,并通过多轮红蓝对抗训练增强模型防御能力。在基于可验证奖励的强化学习领域,提出两阶段可扩展问题合成框架,大幅提升数学推理准确率,设计可验证一致性奖励解决多模态翻译中的文本图像不对齐问题,并构建过程错误自我对弈框架增强长思维链推理能力。在智能体强化学习方面,设计自适应回退智能体和图形界面知识探索智能体,通过智能体深度推理链蒸馏和多智能体协同的教学场景数据增强,显著提升智能体的环境交互与深度推理能力。这些研究为破解大模型与强化学习协同难题提供了系统化解决方案,展示了从感知智能向认知智能跃迁的技术路径,为推动深度推理赋能决策智能奠定了重要基础。
哈尔滨工业大学(深圳)张民进行引导发言
清华大学计算机科学与技术系教授黄民烈以“语言模型高效化方法”为主题作引导发言。他指出,当前主流大语言模型虽在对话、编码等任务中表现突出,且遵循数据与模型规模越大性能越优的规律,但也面临参数规模庞大、预训练数据需求极高、训练成本指数级增长的“高耗低效”难题,未来还可能面临人类生成数据耗尽的挑战。在报告中,黄民烈教授分享了团队在语言模型全生命周期高效化方面取得的研究成果。在高效预训练环节,团队通过基于最优控制的数据选择显著降低模型预训练计算量,并通过指令预训练加快模型收敛速度;在下游适配层面,通过预训练提示调优提升少样本任务性能,通过预训练学习上下文增强模型泛化能力;在推理领域,通过知识蒸馏让小模型逼近大模型性能,通过混合注意力模型在保持性能的同时大幅提升长上下文推理速度。黄民烈教授表示这些研究为破解大模型“高耗低效”提供了方案,推动语言模型向低成本、广落地方向发展,为通用人工智能高效化奠定基础。
清华大学黄民烈进行引导发言
北京大学信息工程学院研究员彭佩玺带来了《动态开放环境智能决策:从强化学习到世界模型》的引导发言。彭佩玺聚焦动态开放环境下的智能决策难题,指出强化学习在动态高维开放场景下面临观测不完全、更新不稳定、探索效率低等核心难点。报告重点介绍了团队在两个维度的研究进展:在多模态大模型辅助强化学习方面,团队提出辅助表征方法,通过推理大模型和表征大模型的协同,为强化学习提供高质量先验特征,并通过状态转移和奖励预测保证表征一致性;提出推理启发方法,将多模态大模型视为部分可靠的知识引导源,通过自适应评价和交叉验证实现多模态大模型与强化学习的联合优化,让两者协同进化。在世界模型构建方面,团队探索了三种技术路线:在显式世界模型中,提出基于粗粒度细粒度蒸馏的视频生成模型,防止长时运动错误累积,并以动作指令为生成条件实现反事实推理;在隐式世界模型中,设计基于记忆增强的世界模型,通过历史记忆完善状态表示,解决局部可观测问题;在三维占据图世界模型中,结合显式与隐式优势,实现冗余少、可解释性强的场景预测。这些研究为机器人、自动驾驶等动态环境下的决策智能提供了重要技术参考。
北京大学彭佩玺进行引导发言
天津大学智算学部教授、华为诺亚决策推理实验室主任郝建业带来了题为《具身智能体》的报告。郝建业指出,当前大模型在虚拟交互中表现出色,但面对物理世界的具身智能任务时,仍面临时空理解不足和精细化操作能力缺失的挑战。相比之下,人类能够自然地在物理环境中完成感知、规划和执行的完整任务链,其大脑小脑分工协作的机制为具身智能体的构建提供了重要启示。郝建业回顾了具身智能从端到端模型到大小脑分层架构的演化历程,指出通用大模型适配具身场景需要突破观测与决策不统一的核心瓶颈。报告重点介绍了具身智能技术体系的系列研究进展:在数据构建方面,通过自动化任务生成实现从任务到策略学习的全流程自动化,提出基于大模型生成的奖励函数设计方法,并通过多模态大模型实现轨迹质量自动评估,大幅降低标注成本;在模型架构方面,从端到端模型演进为大小脑分层模式,大脑负责任务拆解与推理,小脑负责动作执行,通过文字、多模态或隐层连接实现认知与执行的协同;在核心技术突破方面,针对观测与决策不统一的关键瓶颈,提出视觉轨迹桥梁框架,构建具身长思维链数据,模拟人类空间推理过程,实现跨机器人本体和跨任务的零样本泛化,并设计强化具身推理模型,将具身推理能力统一为涵盖目标指代、抓取适配、区域定位、轨迹生成等任务的指点推理能力;在效率优化方面,提出并行解码技术和分层解噪策略,推理效率大幅提升,满足机器人实时控制需求。该研究为探索具身智能的新范式提供了重要思路,展示了强化学习与大模型在物理世界落地的巨大潜力。
天津大学郝建业进行引导发言
紧接着,论坛进入了热烈而深入的思辨环节。与会专家围绕“强化学习与大模型的深度融合”主题展开三个思辨议题讨论。
南京大学教授、人工智能学院副院长俞扬率先聚焦“如何设计一种全新的智能体认知架构,以实现LLM的高阶语义规划与RL的在线策略优化的深度耦合,而非简单的分层调用?”这一议题破题,他直指当前分层架构的核心痛点,即大模型易产生“幻觉”导致上层规划失真,且强化学习在线更新成本高、难以与大模型深度协同,进而提出“以强化学习为核心,大模型为辅助”的创新思路,主张在已知任务中依赖强化学习的决策优势,在未知场景下通过大模型生成数据辅助强化学习泛化,实现“通用知识与决策能力的融合”。
南京大学俞扬进行特邀思辨发言
随后,天津大学智能与计算学院教授赵来平针对“如何利用RL的在线试错与探索机制,将LLM基于静态知识生成的抽象规划‘接地’于真实环境,并通过交互反馈实现持续的策略演进?”展开论述,他从系统层视角切入,将大模型与强化学习的交互类比为“CPU多发射与预测执行”,提出通过“搜索的多发射、生成的多发射、工具调用的多发射”的并行机制降低在线试错开销,并以“PPT生成智能体”为例,证明小模型结合多路径技术可逼近90%大模型效果,为资源受限场景提供可行方案。
天津大学赵来平进行特邀思辨发言
西安理工大学计算机科学与工程学院副院长宋霄罡则围绕“当LLM Agent通过RL获得在环境中自主学习与演进的能力后,如何构建超越任务成功率的评测与安全体系,来确保其自适应决策行为始终与人类长期价值对齐?”发表观点,他指出当前智能体评测过度聚焦“任务成功率”的局限,提出需构建涵盖风险鲁棒性、可解释性、伦理一致性等维度的“多维评测体系”,并以自动驾驶为例,强调大模型的价值对齐应从交通法规、事故案例中自主归纳规则,实现“刚性安全约束 + 柔性环境适应”的平衡。
西安理工大学宋霄罡进行特邀思辨发言
论坛执行主席与特邀思辨嘉宾合影
之后,多位专家围绕自动驾驶场景中动态路况的实时决策优化、工业操控场景下智能体与生产线设备的协同适配、软件自动化操控中的复杂任务拆解等具体应用场景补充讨论,交换见解,进一步丰富了讨论的深度与广度,大家一致认为,强化学习与大模型的融合不是简单的技术叠加,而是要实现语义规划与策略优化的深度耦合、静态知识与动态环境的有效衔接、自主演进与人类价值的动态适配,未来智能体研究需兼顾技术突破与安全可控,通过人工智能、计算机科学、工程技术、伦理学等多领域的深度交叉协作,构建可靠、可解释、可扩展的技术体系,让决策智能更好地赋能产业升级与社会发展。
活动现场照片:现场火爆,讨论热烈
最后,YOCSEF深圳主席漆舒汉对论坛进行了总结。他表示,本次论坛聚焦大模型与强化学习的前沿碰撞,在技术融合路径、自主演进逻辑、安全价值对齐等核心议题上产生了丰富的思想火花,师生与嘉宾的积极互动也形成了诸多具有启发性的观点。他强调,智能体技术的未来发展离不开跨学科深度协作,唯有科学研究与应用实践双轮驱动,才能推动强化学习与大模型深度融合,助力我国智能体技术从理论研究走向产业落地,为人工智能高质量发展贡献力量。论坛在热烈的掌声与学术交流中圆满落幕。
图文|陈科海 沈力
编辑|王晶晶
审核|漆舒汉














