分论坛 > 青岛 > 新闻动态
技术论坛 | 走向深蓝:水下具身智能架构突破与范式演进
2025-09-26 阅读量:2 小字

       具身智能理论颠覆了传统“离身认知”范式,提出智能是脑、身体与环境动态交互的产物。这一理念为机器人适应复杂环境提供了新路径——通过多模态感知与物理操作闭环,实现自主学习和行为涌现。水下复杂环境堪称具身智能的天然试炼场当前水下机器人面临感知退化、自主性弱、环境适应性差等核心瓶颈,对现有具身智能架构设计和范式体系构成严峻考验。9月21日,CCF YOCSEF青岛在中国石油大学(华东)举办以“走向深蓝:水下具身智能架构突破与范式演进”为主题的技术论坛,聚焦具身智能系统在“感知-决策-系统”三个核心维度的协同突破。论坛汇聚产学研用多方力量,围绕水下具身智能体感知与决策技术演进路径展开深度研讨旨在构建水下具身智能多机协同体系,为技术实际落地提供关键理论技术支撑与落地实施方案。


本次论坛由中国计算机学会(CCF)主办,CCF YOCSEF青岛学术委员会承办,中国石油大学(华东)、青岛希诺智能科技有限公司、青岛算能科技有限公司、山东智麟科技有限公司共同合作支持。论坛执行主席由CCF YOCSEF青岛AC委员、山东科技大学副教授张鹏与CCF YOCSEF青委员、中国海洋大学助理教授周小伟共同担任。论坛邀请到了中山大学教授李冠彬、中国海洋大学教授董兴辉和上海人工智能实验室青年科学家王靖博担任引导发言嘉宾,并邀请到了中国石油大学(华东)教授任鹏、道非科技(青岛)有限公司技术总监吕启明以及中国海洋大学助理教授夏修泽担任特邀嘉宾。


活动吸引了来自全国29家高校、研究院及企业的60余位专家和师生参与,其中包括哈尔滨工业大学(威海)中山大学、广西师范大学、山东大学、中国科学院大学、中国海洋大学、中国石油大学(华东)、山东科技大学、青岛科技大学、青岛理工大学、上海人工智能实验室等高校代表,以及道非科技(青岛)、算能科技、山东智麟等企业专家,共同围绕相关技术话题展开深入探讨。


论坛开场阶段,中国石油大学(华东)青岛软件学院、计算机科学与技术学院副院长张俊三受邀介绍了中国石油大学(华东)以及中国石油大学(华东)青岛软件学院、计算机科学与技术学院发展历史和人工智能学科发展布局,同时向参会者表达了欢迎与感谢。

引导发言·多维探索启新篇


论坛引导发言阶段,中国海洋大学教授董兴辉以《水下信息智能感知与处理》为题,系统介绍了其课题组在水下机器人研发、水下图像生成、水下图像质量评价、水下图像增强、水下图像分割、水下图像实例分割、水下目标检测以及水下结构物检测等一系列水下智能感知与处理工作。他指出,水下智能感知在海洋工程、资源开发与运输安全中意义重大,但受复杂环境、光学退化和高成本制约,传统方法难以满足需求。其团队以“数据—模型—系统—应用”闭环为主线开展研究:研发20kg级水下机器人平台,实现实时监控;提出LFEB与EFFB方法,并结合文本引导生成,提高图像清晰度、语义可控性与分辨率;构建6万余张图像数据集,开发多通道感知网络,优化质量评价;融合物理建模与半监督学习,提升图像增强与下游任务可用性;在分割方面引入CNN与Transformer、Mamba语义先验及少样本对齐,兼顾精度与端侧部署;在检测层面构建9万余张、50余类目标数据集,并提出反射特征几何一致性编码,改善自然水域中的检测效果。这些工作共同支撑水下实例分割、结构物与缺陷检测等应用,逐步形成面向工程落地的多模块能力体系。


中山大学教授李冠彬以《感知与记忆增强的具身视觉语言导航》为题,系统梳理离身智能与具身智能的根本差异,指出具身智能应当以主动理解物理世界、适应性行为与自主学习为核心,且需在“感知—规划—控制”一体化架构中与平台与数据协同演进。他提出的研究路线是“多模态主动感知—任务规划与决策—虚实迁移—国产自主生态”,并围绕具身视觉语言导航(VLN)给出成体系解法:以场景知识引导跨模态视觉目标定位,用导航历史沉淀场景记忆与可回溯路径;在第一视角主动感知上,从“穷搜”走向“场景直觉”,通过双视场景感知网络融合文本引导的多视图与点云—RGB三维表达,实现感知与决策联合优化;在长程、连续的VLN新任务中,进一步引入“思维链+动态记忆”机制,使智能体能够依据任务进展自适应地调整策略。


上海人工智能实验室青年科学家王靖博则以《从虚拟走向现实:探索通用人形角色运动与交互控制策略》为题,探讨如何将智能体在虚拟环境中的技能迁移到真实环境中。他从“数据易得、应用广泛”的人形体态切入,分析传统基于强化学习的模仿学习在latent可控性与复用性上的不足,提出TokenHSI(Goal-conditional BFM):将任务token与本体token解耦,在多任务环境中用Transformer学习可复用的基础技能,无需大量特定轨迹即可获得多样且可控的运动能力;后训练阶段复用encoder、引入heightmap与本体encoder并冻结backbone,以保持既有技能、提升长序列任务效率;结合LLM进行复杂序列任务编排,并在真实机器人平台上完成虚实迁移验证。该路线强调以“通用技能库+任务条件化+后训练高效化”贯穿仿真到现实的关键路径。


思辨环节·共探深蓝新路径

引导发言结束后,论坛进入思辨环节。与会嘉宾围绕3个思辨议题展开广泛讨论。

思辨议题一:面对水下视觉/声呐信号受限时,如何实现“水下主动感知”范式跃迁?


中国石油大学(华东)教授任鹏首先进行思辨引导从水下图像信息无线传输的角度对问题进行剖析,提出构建面向水下图像无线传输的水声语义通信框架,解决水下图像大容量与水声信道窄带宽之间的矛盾。提出的“水声语义通信”创新思路,通过将图像压缩为小维度语义向量,在有限带宽下仍能实现可靠传输和鲁棒重建从而实现高效的水下信息流通。这不仅能有效缓解现有水声通信在速率与容量上的先天瓶颈,也为后续的水下主动感知提供了数据基础。

在此基础上,大家提出了多元化的解决方案。有嘉宾建议通过哈希学习方法,将不同目标的类别信息压缩成紧凑的表示,从而在传输中更高效地保留核心语义特征,降低冗余。也有观点指出,受限条件下延迟是关键瓶颈,必须优先保障关键信息的传输,例如先发送任务相关的特征信息,再逐步补充环境细节,以确保水下作业的即时性和安全性。同时,端边协同的思路也引发关注:让端侧承担数据存储和预处理的任务,利用本地算力进行初步清理与压缩,再将关键向量上传至岸基或云端进行建模与重建,从而实现端边一体化的协同感知与处理。此外,还有嘉宾提出通过水下无人潜航器(UUV)与水面无人艇(USV)的集群作为中继节点,并辅以激光通信等新型链路,构建多路径冗余体系,以提升整体传输鲁棒性和容错能力。

与会者普遍认为,水下主动感知的范式跃迁不仅仅是技术瓶颈的突破,更是体系架构的革新。它要求在通信、感知、计算三方面形成协同:通信侧强调高效与鲁棒,感知侧强调语义与优先级,计算侧强调分层与协同。通过这种多维度的综合创新,水下具身智能有望从“被动感知”迈向“主动理解”,为未来深海探测、工程作业和智能决策奠定坚实基础。

思辨议题二“水下具身智能如何实现实时决策与响应”


中国海洋大学助理教授夏修泽首先在思辨引导发言中指出,具身智能算法存在大模型学派和世界模型学派两种不同思路:基于大模型的水下具身智能面临数据量少、视觉受限等挑战;而基于世界模型的具身智能虽数据需求量少,但目前其技术不成熟,面临视觉受限挑战,且对物理特征的认识不足。他指出,结合强化学习与轻量模型的“双路径策略”,并借鉴“小脑条件反射”机制,快速完成从感知到决策的闭环,提高复杂场景下的响应和决策速度。

围绕这一议题,与会者从不同角度补充有专家认为,轻量化模型与小样本感知应当被优先考虑,这是应对水下算力有限、能耗敏感等现实约束的必然选择。只有将模型规模压缩到适合水下平台部署的程度,智能体才能真正具备“随时可用”的能力。也有与会者提出,水下环境具有高度的多样性与不确定性,单一模型难以覆盖所有任务需求,因此应对水下场景进行分类建模,针对不同类别的任务训练专门的小模型。这样不仅能够提升响应的针对性与灵活性,也能显著缩短模型适配的时间。另一些观点则更为务实,认为实时决策的突破应当从最核心、最急迫的问题入手。例如,在复杂环境下,首先要确保图像质量的提升与稳定获取,其次是保证关键目标的识别与路径规划能力,待这些基础环节稳定后,再逐步拓展到更全面的场景响应。此外,合成数据与迁移学习也被多位专家认为是解决数据不足的关键突破口。通过高保真的仿真模拟与迁移方法,可以在有限的真实数据基础上快速扩展训练样本,帮助模型更好地适应多样化水下任务。这种“真实+模拟”的结合模式,被认为是未来推动水下具身智能快速迭代的重要抓手。

最终,大家形成了三方面共识:其一,水下具身智能的实时决策必须走“轻量化+分类策略”的道路,避免过度依赖大模型;其二,强化学习与控制理论结合,能够为复杂环境中的快速闭环提供有效工具;其三,借助合成数据和迁移学习等技术,逐步扩展任务覆盖范围,实现从关键环节突破到整体优化的演进。这一思路为未来水下具身智能在极端环境下的实时应用奠定了技术方向。

思辨议题三“如何跨越仿真—现实鸿沟,构建水下多机协同体系”


 道非科技(青岛)技术总监吕启明借鉴陆地电力行业无人值守巡检的案例,提出可以通过“感知—决策—执行”的闭环架构与“边云协同”模式,将虚拟环境中的能力逐步迁移到水下应用场景。具体而言,“母船+水面无人艇+水下无人机”的分层体系被认为是一种现实可行的协同模式,可以在保障通信和算力的同时,逐步扩展任务的复杂度。然而,水下具身智能落地面临的“仿真—现实”的鸿沟比陆上的具身智能困难更大。在虚拟环境中,智能体可以快速训练和验证,但一旦进入真实复杂的水下环境,光学折射、水动力扰动和通信受限等因素往往导致性能急剧下降。

在随后的讨论中,不同专家从仿真精度、系统架构和验证路径提出了更为细致的思路。部分专家认为,在相对平稳的物理过程场景中,可以采用经典方法对物理状态进行解析解算,但在非线性强、干扰大的复杂任务中,则需要通过多目标优化或近似建模来弥补不足,同时权衡不同设计目标之间的取舍。也有专家指出,要想真正缩小“仿真—现实”的差距,必须大幅提升仿真环境的物理逼真度,将流体力学、光学特性、通信衰减等因素纳入建模,并辅以多层次的冗余设计,确保系统在真实部署时仍具备鲁棒性和容错性。与此同时,关于平台与体系架构的选择,现场也呈现多样化的观点。有专家提出,可以借鉴多模态智能体的研究思路,设计双体系统结构,不同智能体负责不同功能,以提升任务执行的灵活性。也有人强调,带缆ROV与自主AUV各有优势,应当在“有人监控—无人自治”的框架下形成互补,尤其是通过母船、水面无人艇与水下无人机的协同通信与任务转发,实现分层化的多机协同体系。此外,还有专家结合工程案例指出,水下智能体已在水库等相对静态、环境可控的场景中取得了良好应用效果,如坝体成像与裂缝检测,这类场景可以作为试点,从简单环境逐步过渡到开放海域,降低落地风险并积累实践经验。

综合讨论后,形成了几点共识:一是跨越“仿真—现实”的关键在于构建高保真仿真环境,使训练结果能够较大程度地迁移;二是需要多机协同和分层通信架构,发挥母船、无人艇和无人机的协同效能;三是应通过“阶段试点”模式,从简单环境逐步扩展到复杂场景,形成渐进式落地路径。与会者一致认为,唯有通过“高保真仿真—分层协同—逐步推广”的整体路线,才能推动水下具身智能真正走出实验室,迈向大规模应用。



最后,YOCSEF青岛主席仲国强对论坛进行了总结。他代表组织方感谢各位专家学者对YOCSEF青岛的长期关注与支持,并指出具身智能已成为今年学术界和产业界广泛关注的热点议题,总部及多个兄弟分论坛均举办了相关的技术论坛或深度研讨。作为以海洋为特色的分论坛,YOCSEF青岛较早地聚焦水下具身智能,并前瞻性地组织了本次论坛,可谓恰逢其时。他希望,论坛的交流与成果能够为水下具身智能关键技术的突破注入新动力,推动其从实验室走向真实场景的应用落地。


CCF聚焦