人工智能(AI)技术,尤其是大模型技术,正在全球范围内迅速发展并获得高度关注。其中,海洋大模型的落地与应用,对我国探索海洋、经略海洋具有重要意义。海洋领域目前已经积累了丰富的多模态数据,从卫星遥感到无人机,从水下声学到碳源汇,同时,一些海洋大模型已初露头角,如琅琊泊、问海、羲和等。为了深入探讨海洋大模型落地的核心挑战与演进路径,2024年9月21日CCF YOCSEF青岛举办了“海洋大模型落地的核心挑战与演进路径”深度技术论坛。此次论坛活动是CCF YOCSEF青岛“AI+海洋”系列论坛的第四次举办,也是CCF YOCSEF总部“大模型的落地之路:挑战与演进”系列技术论坛中关于海洋大模型落地的一个重要环节,是继CNCC2023海洋大模型技术论坛之后,重点关注海洋大模型落地的一次深度技术论坛活动。
本次论坛由CCF主办,CCF青岛分部和CCF YOCSEF青岛共同组织,中国海洋大学信息科学与工程学部支持。由CCF YOCSEF青岛AC委员中国海洋大学仲国强和CCF YOCSEF青岛委员中国海洋大学蔡青共同担任执行主席,由CCF YOCSEF青岛副主席青岛科技大学刘金环、CCF YOCSEF青岛学术秘书山东科技大学张鹏、CCF YOCSEF青岛AC委员中国石油大学(华东)王爽和CCF YOCSEF青岛委员杨昕担任微论坛主席,CCF YOCSEF总部学术秘书张莹和AC委员赵恺作为总部系列论坛的发起人全程参与了论坛活动。论坛邀请到了南京信息工程大学海洋科学学院院长董昌明教授(中国海洋学会人工智能海洋学专委会主任)、中国海洋大学信息科学与工程学部部长董军宇教授(国家高层次人才计划专家)、国防科技大学汪祥副研究员(湖南省科技创新“湖湘青年英才”、羲和大模型论文一作)、南京信息工程大学张荣华教授(国家特聘专家)和中国海洋大学青年英才工程第一层次特聘教授聂婕(国家优青)担任引导嘉宾,邀请到了中国科学院自动化研究所郭龙腾副研究员(紫东太初大模型研究骨干)、华为昇腾人工智能高级工程师隋晓金、青岛大学黄宝香教授、科大讯飞产业加速中心产品总监刘鹏、中国海洋大学王胜科副教授和CCF YOCSEF青岛AC委员青岛国实科技集团有限公司高级项目经理王成锐担任思辨嘉宾。来自青岛市海洋局、工信局、大数据局、中国移动、中国联通、中国海洋大学、山东科技大学、中国石油大学(华东)等100余位海洋大模型研究与落地相关的学者、专家以及CCF YOCSEF青岛的委员们共同参与了本次论坛的思辨和研讨。
在论坛致辞环节,中国海洋学会人工智能海洋学专委会主任董昌明对人工智能海洋学特别是近期海洋大模型的研究意义进行了阐述并对人工智能海洋学专委会进行了介绍,中国海洋大学信息科学与工程学部部长董军宇对学部发展历程以及学部在人工智能海洋学方面的科研情况进行了简要介绍,CCF青岛分部秘书长王胜科介绍了CCF分部和CCF YOCSEF,以及CCF YOCSEF特有的发言规则,如直呼其名、自报家门、限时发言等。
一、引导发言环节
在引导发言环节,南京信息工程大学董昌明教授首先做了题为《智能求解海洋模式偏微分方程》的报告,他围绕“海洋模式参数的智能估算”与“海洋模式偏微分方程的智能求解”两部分重点介绍了海洋科学领域的智能偏微分方程求解的一些工作,第一部分介绍了湍流混合参数的智能估算方法,在外部经验知识融入方面,建立了12个海气热通量观测数据集,以及强迫场参数的智能估算方法,第二部分介绍了PINN求解海水温度扩散方程、PINN求解KdV方程、PINN在风暴潮智能预报中的应用。
中国海洋大学董军宇教授做了题为《“寒冰”--北极海冰时空多尺度预测基础模型》的报告。气候变化是全球关注的一个问题,北极海冰快速融化为全球气候和环境带来新的挑战和问题。目前研究面临北极海冰预报结果“不可靠”、北极环境变化机理“不清楚”等挑战,当前模型主要分为数值驱动和数据驱动两类,其中数据驱动的深度学习模型,已经成为北极海冰预报重要方法,但是当前模型预测结果容易出现过平滑现象,因此需要建立高频特征增强分支,对边缘细节增强。基于此,提出了六亿参数的北极海冰时空多尺度预报基础模型MetaICE,实现了连续14天的海冰密集度预报。目前,海冰预测模型面临可解释性问题,需要将偏微分方程嵌入到神经网络中,用以拟合先验知识,并用残差机制将知识与神经网络融合;当前海冰分析方法未能充分挖掘输入数据的全局与局部特征关联,拟引入混合注意力机制,提高非线性建模能力;针对边界难以提取、数据迁移困难等问题,拟提出基于SAM大模型的海冰分割与分类模型。
第三位引导嘉宾国防科技大学副研究员汪祥做了题为《“羲和”:全球涡可分辨海洋环境预报大模型》的报告,介绍了羲和大模型研发和应用的情况。全球数值天气预报已有120年的发展历史,随着观测数据量的增长和算力的增强,数值天气预报准确率不断提高,主流方法包括基于物理机理方程的“碳基智能”和基于智能预报大模型的“硅基智能”,目前海洋环境智能预报面临“海陆区域准确建模难”和“智能预报大模型计算开销大”的难题,为此提出数据驱动的全球涡可分辨海洋环境预报大模型——“羲和”,模型基于Ocean-Specific Transformer的模型架构,设计ocean-land掩码机制排除陆地区域干扰,设计ocean-specific block捕捉海洋环境的固有特性。通过GLORYS12再分析数据、ERA5再分析数据、SST卫星观测数据对大模型进行训练,在浮标观测数据和卫星观测数据上进行测试,并在海流、温度、盐度、温/盐廓线等方面进行总体测评,目前已在法国麦卡托中心、海军某部、信息支援部队等单位部署应用。
南京信息工程大学张荣华教授的报告题目是《数据驱动的海气耦合模型研发及ENSO研究》。海气相互作用是气候预测的关键,而ENSO模式模拟和预测是气候预测的基础,目前我们对ENSO的变异机制还认识不足,实时预测还存在巨大挑战。目前主要采用的是基于物理驱动ENSO模式模拟方法,例如基于动力过程的ENSO模式。与之相比,采用AI技术对ENSO预测研究正从单点、单变量向多变量、三维场预测跨越,其中多变量三维场时空演变和相互作用是ENSO预测的重要基础。目前,基于数据驱动的多变量三维场耦合及时空预测模型面临数据层面、算法层面、算力层面、物理层面的挑战。针对这些问题,提出纯数据驱动的海气系统多变量三维场Transformer架构,解决基于物理过程的动力模式对ENSO实时预测的较大误差和不确定性问题。该框架以多变量海温场等作为输入和输出场,采用注意力机制表征海气变量间非局部相互影响,预测过程采用逐月滚动方式,使用多时间段(窗口)历史海气信息约束未来演变,并通过敏感性条件增强解释性。此外,提出融合AI海表风场和海洋动力过程的混合型海气耦合模式及对ENSO的模拟,首次实现神经网络与基于物理过程的海气耦合模式间有效融合,为AI模型与动力模式混合建模提供了一种示范框架。
中国海洋大学聂婕教授的报告题目是《跨尺度多模态海洋智能计算》。海洋环境预报是海域海岛安全、极端灾害预防的国家重大需求,经典物理模型难以同时精细刻画跨尺度过程,而数据驱动模型的大尺度训练样本不足,海洋过程相对于大气过程更需要大尺度建模,纯靠数据驱动很难把海洋大尺度做好,因此采用“大尺度过程+海洋数值模式、小尺度过程+数据驱动模型”的跨尺度智能计算去更好解决海洋建模问题,但海洋过程的复杂性给跨尺度多模态智能计算带来“多过程耦合”、“跨时空演变”、“跨尺度结构”的挑战,为此提出了一些有效的解决方案:1)针对“多过程耦合”的挑战,提出海洋多过程解耦表征方法,针对流变生消问题,提出高阶平衡解耦表征方法,针对隐性模式淹没问题,提出时频跨域融合隐性模式增强方法,在80%大面积缺失的海表面遥感数据补全任务中成功保留了隐性模式;2)针对“跨时空演变”的挑战,提出海洋跨时空稳定预报方法,针对长时序大面源数据分布差异,提出时空分布偏置估计,针对大面源时空关联复杂建模,提出时空结构化关联表征,解决了跨时空建模问题,首次实现大面源叶绿素浓度6个月的智能预报;3)针对“跨尺度结构”的挑战,提出海洋多模型异构嵌套方法,针对模型嵌套导致组合误差难解析的问题,提出异构嵌套误差迭代修正,针对异构模型不协同难题,提出面向模型交互界面双向约束机制,对理想的湍流方程开展嵌套计算。
引导发言环节之后是Panel环节,南京信息工程大学张荣华教授、中国海洋大学聂婕教授、科大讯飞产业加速中心产品总监刘鹏、CCF YOCSEF青岛AC委员青岛国实科技集团有限公司高级项目经理王成锐和华为昇腾人工智能高级工程师隋晓金作为Panel嘉宾与现场的参会者互动。有参会者提问“数据驱动模型中数据是如何获取的”,嘉宾们认为海洋数据获取较难,建议训练用模拟数据,测试用真实数据;对于“模型是否出现从人工智能平均角度看提升了,但是在极端现象(小概率事件)不工作的问题”,Panel嘉宾们认为在大尺度气候预测,数据驱动模型很难预测极端现象,需要专家进行验证,在特征工程上,传统AI模型在抓显著性,基本上是平滑特征,但是现在科学算子能抓结构性特征,推理过程上,可以借助因果学习、主动学习等学习方式提升小样本事件的能力;针对“在海洋领域是否会出现通用大模型”的问题,Panel嘉宾们认为从物理角度看,通用大模型不会出现,在同一尺度上可能出现,但是跨尺度几乎不可能出现。
二、思辨环节
本次论坛围绕海洋大模型落地设置了三个思辨议题:(1)海洋大模型落地面临的核心挑战是什么?(2)海洋大模型落地的演进路径是什么样的?是否会经历一个从百家争鸣到天下一统的过程?(3)海洋大模型落地对我国探索海洋、经略海洋会起到什么作用?希望通过政产学研用不同领域的专家共同研讨,达成共识,形成有价值的结论,并推动海洋大模型的真正落地应用。
针对第一个思辨议题,中国科学院自动化研究所副研究员郭龙腾和华为昇腾人工智能高级工程师隋晓金分别做了题为《多模态大模型:关键技术与海洋应用思考》和《华为昇腾气象&海洋领域大模型工程实践》的报告,郭龙腾指出多模态大模型是实现类人多模态感认知的重要途径,多模态大模型已经从必然成为已然,而大语言模型提供了多模态大模型的基础。在架构层面,郭龙腾团队提出了图文音视频基础模型框架VAST,实现了任意模态组合的跨模态关联能力,提出基于自然奖励强化学习的多模态大模型自洽性提升方法,在多个目标级别评测基准上取得了显著的性能提升。从多模态大模型部署的角度,郭龙腾团队进行了多模态模型的大小模型协同训练,实现优势互补,架构协同和训练协同。基于上述工作,发布紫东太初全模态认知大模型,在智慧政务、政务医疗、智能制造等领域均有应用。基于现有大模型发展历史,多模态大模型将向细粒度理解、理解生成一体化、多模态原生协同等方向发展。在海洋应用方面,多模态大模型将赋能海洋多模态感知、海洋认知与推演、海洋自主智能体等方面的能力,实现环境感知、时空预测、自动问答、数据分析、推理判断等功能。隋晓金介绍华为昇腾气象和海洋领域大模型主要基于华为芯片、NPU等进行部署。由于气象场景比较复杂,通过数值模式求解,耗费巨大的计算量,造成延时,需要AI大模型来提升预报速度和模型精度。华为构建的盘古气象大模型,采用层次化时域聚合方法,明显加速了模型收敛速度,并尽可能减少了所需的迭代次数,将模型训练时间减少了37%,在性能优化上做出了非常大的改善。与气象大模型类似,为了解决海洋数值模式的不足,需要探索AI海洋模型,包括智能降尺度技术、多源数据融合技术和智能神经算子模型等,最终实现智能海洋预测模型。目前已携手山东科技大学赋能海洋生态环境遥感,携手中国海洋大学打造“琅琊泊”海面风场大模型,保障出海安全。
青岛市大数据局副局长王朝静指出目前人工智能的发展更加聚焦于行业,大模型同质化竞争非常激烈,而海洋大模型在海洋数据层面尚缺少分类分级,国内也缺少海洋行业大模型的行业标准,青岛市在数据汇聚、行业数据的流通交易等方面有待进一步推动。CCF YOCSEF青岛AC委员青岛国实科技集团王成锐认为数据和算力是目前海洋大模型落地的两大挑战。数据可以通过数据流通解决,数据质量差的问题是目前急需解决,算力兼容的问题也需要考虑,另外海洋大模型交叉学科的挑战也是目前所面临的比较重要的一个挑战。CCF YOCSEF总部学术秘书张莹认为数据数量、质量问题会导致协同训练的困难,海洋数据与其他数据不同,有些因果关系是长周期的,现有时间空间窗口中可能找不到。中国联通夏培勇博士认为高质量的开源数据严重不足,且任务分散,是阻碍海洋大模型研发和落地的重要根源。青岛大学黄宝香提出海洋大模型可以解决什么问题、是否一定需要大模型解决的问题,郭龙腾回应道大模型可以通过预训练提高泛化能力,开展多任务协同使得学习更加高效,具体到海洋领域,从经济、国家安全等角度需要一个基座大模型,夏培勇认为大模型能够辅助现有小模型在推理阶段表现更好,也可能是一个落地应用的切入点。山东科技大学崔宾阁教授认为海洋属于地学的范畴,因而海洋大模型的研究不能完全照搬计算机视觉大模型的研究范式,比如说地学研究中关注“尺度效应”问题,不同观测尺度下(如千米、米、厘米级)地理要素的特征是存在很大差异的,而计算机视觉大模型却没有这样的问题。
针对第二个议题,青岛大学教授黄宝香和科大讯飞产业加速中心产品总监刘鹏分别做了题为《OceanY-Eddy:海洋涡旋识别、追踪和预测的深度学习方法》和《通用人工智能技术发展与行业应用》的报告,黄宝香指出海洋数据存在大数据、小数据并存的现象,构造高质量数据集是一个挑战。用AI增强对海洋的认知,解决海洋科学问题是一个循序渐进的过程。物理和AI两个角度导致两种解决思路,AI方法需要设计地学/海洋相关损失函数,并在中尺度和小尺度上建立关联关系。随后,她介绍了在海洋涡旋识别、追踪和预测方面的几个工作:涡旋的3D识别,证明AI可以为海洋认知提供手段;卫星遥感全局离岸涡旋检测;中尺度涡轨迹预测;基于eddy directional dispersion的轨迹预测;基于场数据预测和检测的轨迹预测。刘鹏在介绍讯飞星火大模型V4.0时说明,进一步发展自主可控通用大模型的关键要素是数据、算力、算法和场景。在数据方面要解决大模型的污语料问题,目前尚缺乏对污语料的高质量清洗;在算力方面,基于国产算力的大模型训练性能可以达到英伟达集群的90%;在应用场景方面,提供一站式大模型训练工具链,用户可依据自身数据、算力及时间要求,选用不同的方案开展训练调优工作,目前星火大模型已在多个领域得到实际应用,如教育中的学情分析、多学科AI教师/助教、AI+医疗中的智医助理等。AI也助力科研从“农业时代”进入“工业时代”,星火模型也赋能科研论文写作、无代码开发平台构建、“智慧课堂”产品等。星火大模型助力中航海事打造智海AI助手,通过构建船员教材知识库,可随时解答船员学习中遇到的问题。
王成锐认为海洋大模型的演进不会形成大一统,可能会形成小一统,原因是:1)行业大模型落地方式不同;2)科学类大模型推理方式存在差异,这与语言类大模型是不同的;3)海洋大模型的演进是原先大模型的升级,不同大模型有不同演进路径。但从知识库方面、工具类方面可能实现小一统。张荣华认为基于AI的海洋大模型比传统方法表现要好,说明大模型就已经落地了,由于数据限制、应用场景限制,往更自动化的AI大模型路径发展是可行的,但大一统太复杂了,在小的领域(如海洋、气象等)可能会形成小一统。王朝静认为下层基础模型可能会统一,但行业应用在大模型出来之前就是基于小模型的,也是人工智能技术,在上层应用必然会是百家争鸣的。刘鹏认为大模型和大语言模型事是两个概念,大模型就是个工具,可以做建模、推理等任务;但是在不同的场景中如何去用大模型肯定是不一样的,垂直领域会出现百家争鸣的状态。郭龙腾则认为从需求的角度需要建立一个一统的模型,从资源和数据层面,通过训练一两个大模型,最终会形成一个统一的底座。夏培勇、仲国强、贺佩兰、王胜科、黄宝香也认为关于某个海洋领域积累足够的知识和数据后,建立针对这个领域的小一统大模型是可能的,但是把海洋所有领域知识都融合起来,任务太庞大、复杂了,还是难以形成大一统的海洋大模型。
针对议题三,中国海洋大学副教授王胜科和青岛国实科技集团高级项目经理王成锐分别做了题为《无人机低空遥感应用中的大模型》和《海洋大模型典型应用场景》的报告。王胜科指出无人机是遥感的补充,当前需要在无人机低空经济背景下充分发挥大模型的作用。无人机低空遥感应用中的大模型面临数据问题,目前团队采集了针对多种任务的数据集,在硬件上做了适配,在模型方面解决了多源数据对齐、多源数据编码到多模态大模型的问题,已将大模型应用于海岸带植被分割、无人机涉海视觉等。王成锐主要介绍了基于国实的算力做国产化大模型的落地应用情况,包括如下应用场景:(1)核心海域与全球大洋预测预报,通过融合分析大量高精度、多圈层耦合、跨时空演变和多尺度级联的多模态海洋及大气数据,实现针对各种海洋要素及海洋现象的计算速度更快、预测结果更准、长期趋势更明的生成式预测预报;(2)北极航道导航,面向船舶在北极海上航行对航线规划和安全保障的需求,针对北极海冰变化机理的复杂性和海冰预报的不确定性,构建高分辨率北极海冰预报场景大模型,突破马六甲困境;(3)智慧港口;(4)海洋文旅教育;(5)海洋药物与保健品研发,提高合成的有效性,缩短药物研发周期;(6)海洋无人智能装备;(7)海域智能化管理,面向政府海洋治理和推动产业发展的需求,构建海洋政务应用场景大模型,形成智能政策咨询、智能执法监控、智能管理决策、智能生态监测等服务能力。
中国石油大学(华东)理学院数据科学与统计系主任陈华认为目前很多企业对大模型研发投入很大,但落地效果并不特别明显,主要问题是:数据复杂、数据不对齐,在数据治理、数据管理等方面需要进一步推进;根据实际需要的落地场景去设计合适的大模型,才会更好地发挥作用。中国联通夏培勇博士指出运营商要紧跟国家战略,做好通讯、算力平台,服务好行业用户,大模型落地离不开各个行业的专家,运营商主要是提供好的基础平台。中移齐鲁创新院人工智能产创中心陈目凯介绍了中移齐鲁创新院由山东省人民政府和中国移动通信集团有限公司共同建设,济南市人民政府、中国移动通信集团山东有限公司、中国移动通信有限公司研究院、中移动信息技术有限公司合作共建的新型研发机构,以算力网络、人工智能、数据要素为发展方向,围绕数字政府、工业互联网等重点应用场景,打造“数算智”全要素新质生产力,推动大模型、大数据成果应用快速落地。下一步可以与参会的各方基于中国移动九天大模型与AI4S(AI for Science) 科学工作站在海洋领域开展科学研究与项目合作。中移齐鲁创新院人工智能产创中心朱祥磊补充介绍到,在数据方面,中国移动可以提供数据标注、数据清洗服务,辅助行业应用,算力方面,可以提供AI4Science算力平台,应用方面,可以辅助科研和工作应用。刘鹏认为海洋大模型落地找需求和场景,需符合三条标准判断:看得见摸得着的应用,形成标准化,要有真实的数据证实应用场景;这样海洋大模型作为一种工具才会真正起到作用。崔宾阁指出从大模型的价值看,最紧迫的任务是提升海洋大模型的泛化能力,从海洋经济的角度来看,需要卫星海洋遥感大模型给出大范围精细化预测结果,为海洋生态环境监管与治理等任务提供决策支持。郭龙腾认为海洋数据本身是多模态的,多模态信息自身不是对齐的,多模态数据在海洋大模型里深度融合才有价值。多模态的统一比单模态更符合海洋科学的原理。张荣华认为人工智能辅助理解自然科学,性能上带来了提升,但是人工智能不能取代传统物理数学方法,例如动力学方程不需要泛化能力强,与大模型算法目标恰好相反,在气候预测领域,未来需要人工智能与传统方法相结合,例如确定性问题用数值计算方式,不确定性问题采用人工智能方法来进行预测。
论坛最后,仲国强和蔡青对本次海洋大模型落地深度技术论坛进行总结。上午的引导发言环节,五位重量级嘉宾从人工智能海洋学、海洋大模型、多模态海洋智能计算等角度围绕海洋大模型的研究与落地给了非常精彩的报告,Panel环节中各位嘉宾与参会者充分互动,对海洋大模型落地相关问题展开问答与交流,在下午四个小时的思辨环节中,六位嘉宾分别就三个议题进行思辨发言,参会者也提出了真知灼见的看法,很多观点非常具有启发性,比如海洋大模型落地的多项核心挑战、小一统海洋大模型的落地应用、物理知识与数据共同驱动的海洋大模型应用等。目前已有一些海洋大模型崭露头角,未来还会出现各种各样的海洋大模型,本次论坛对海洋大模型落地的核心挑战和演进路径进行了深入讨论,来自政产学研用各领域的参会者表达了对海洋大模型落地的期盼和关注,希望青岛市能够在海洋AI大模型产业集聚区建设实施方案(2024-2026年)的推动下,早日实现海洋大模型的产业落地,促进经济、社会的快速发展。
本次论坛的主要观点输出如下:
1. 物理知识和数据共同驱动的海洋大模型可以提高海洋气象领域的预测预报精度。在海洋模式参数的智能估算、偏微分方程智能求解、海气耦合模型研发以及ENSO模拟等海洋科学核心问题中,无论是融入物理知识的神经网络模型还是融入神经网络模型的物理方法,都展现出了比传统海洋气象领域方法更好的性能。
2. 利用模式数据、再分析数据和真实观测数据,可以搭建海洋气象大模型,如“寒冰”、“羲和”等。相对气象数据,海洋数据更难获得,所以可以借助模式数据来构建模型,在真实数据上进行验证,以保障模型的应用效果。
3. 面对海洋科学问题,需考虑跨尺度智能计算的问题。经典物理模型难以同时精准刻画跨尺度过程,而数据驱动模型的大尺度训练样本不足,海洋过程相对于大气过程更需要大尺度建模,纯靠数据驱动很难把海洋大尺度做好,因此需要采用“大尺度过程+海洋数值模式、小尺度过程+数据驱动模型”的跨尺度智能计算来解决海洋建模问题。
4. 海洋大模型的落地尚存在一些核心挑战,包括数据的数量与质量、算力限制、同质化严重、交叉科学人才的不足以及跨尺度计算等。在数据量方面可以使用模式数据,有了越来越多的开源数据之后,问题会逐渐缓解,通过数据流通市场也可以一定程度上解决数据的数量与质量的问题;在算力方面,需考虑算力兼容的问题,突破算力的限制;包括政府部门也意识到了大模型开发同质化严重的问题,需要进行一些监管和协调机制;中国海洋大学等高校比较注重交叉学科人才的培养,人才会逐渐多起来;对于跨尺度计算的问题,需要建立大小模型协同以及物理知识融入的方法来解决。
5. 海洋大模型的演进很难形成大一统,可能会形成小一统,随着各个子领域的发展,在各个子领域的应用中,形成小一统的海洋大模型。随着数据的增长、模型的发展,最终会形成一个统一的海洋大模型底座。
6. 海洋大模型的落地对于探索海洋、经略海洋会起到重要的推动作用。当前阶段,需要找到合适的应用场景,实现海洋大模型的真正落地,这方面已有一些成功的案例,如无人机遥感、核心海域与全球大洋预测预报、北极航道导航等。中国移动、中国联通等国企构建了大模型和AI4Science平台,通过与高校、研究所的密切合作,结合海洋科学的特点,如对泛化性的要求、多模态数据表示、物理知识等,可以推动海洋大模型的落地