当前,以大模型为核心的生成式AI技术正经历从“规模扩张”向“能力密度提升”的关键转型。DeepSeek作为国产大模型的代表性技术体系,凭借其开源策略、算法创新与全栈协同优化的突破性实践,为行业提供了重要启示:其通过强化学习复现OpenAI o1的深度推理能力,将训练成本降至国际同类模型的1/10,并在工业场景中实现轻量化部署与多模态融合。然而,大模型的进一步发展仍面临数据质量瓶颈、算力“卡脖子”风险等挑战。
本次论坛旨在以DeepSeek为技术样本,探讨下一代大模型在数据与知识融合、算法创新、国产化算力适配及安全可控等维度的技术路径,推动产学研协同突破核心瓶颈。通过多维度技术思辨,论坛将系统性解构DeepSeek的创新实践,为学术界与产业界提供下一代大模型在数据、算法、算力、安全领域的关键技术路线参考,推动国产大模型生态的高质量发展。
图1:与会嘉宾合照
3月29日,由中国计算机学会青年计算机科技论坛(CCF YOCSEF)主办,CCF YOCSEF杭州学术委员会、蚂蚁集团、CCF杭州分部联合组织,“从DeepSeek看下一代大模型技术路径”的深度技术论坛在杭州蚂蚁集团举办。本次论坛由CCF YOCSEF杭州AC委员、西湖大学于开丞和CCF YOCSEF杭州AC委员、杭州电子科技大学余宙共同担任执行主席,由CCF YOCSEF杭州现任学术秘书包翠竹和候任学术秘书赵昶辰共同担任线上主席。邀请网商银行人工智能部总经理郑波,物产中大数字科技有限公司总经理朱海洋,之江实验室科学数据枢纽研究中心副主任、IET Fellow陈红阳,同济大学长聘副教授张奇,联汇科技CEO兼首席科学家、浙江大学滨江研究院Om人工智能中心主任赵天成作为引导嘉宾。
论坛还邀请了浙江大学、中国科学技术大学、合肥工业大学、西湖大学、西安电子科技大学、浙江工业大学、上海人工智能实验室、之江实验室、阿里巴巴、网易伏羲、杭州君同未来科技有限责任公司、联汇科技股份有限公司、杭州海创人形机器人产业创新中心等高校和企业界嘉宾80余人共同参会。此次论坛讨论热烈,持续分享交流近9个小时。
图2:论坛现场
论坛开场由执行主席于开丞主持,首先介绍了CCF YOCSEF和CCF YOCSEF杭州分论坛,以及此次论坛背景、引导嘉宾,对与会嘉宾表示感谢。接下来会议进入引导发言环节。
引导发言
一、智能体在小微风控的应用
图3:网商银行人工智能部总经理郑波做引导发言
本次发言围绕智能体在小微风控的应用展开,探讨了数据、算法、算力和安全等关键因素对金融风控的影响。郑波首先介绍了当前智能风控的发展趋势,强调数据质量、规则制定和专家经验在企业级应用中的重要性。他提到,在小微企业金融服务中,智能体可以提升风险控制能力,优化信贷决策,提高运营效率。随后,他分享了金融行业在智能风控方面的实践案例,包括智能风控模型在反欺诈、信用评估、交易监测等场景中的落地应用,尤其是在网商银行的实践经验。他指出,大模型的引入提升了金融风控的智能化水平,但仍面临数据合规、算法可靠性和行业适配性等挑战。最后展望了未来发展方向,认为要推动智能体在金融领域的深度应用,需进一步优化数据训练、提升行业适配能力,并加强监管合规,确保智能风控的安全与可靠性。
图4:执行主席为郑波颁发感谢牌
二、DeepSeek赋能大型企业集团创新应用初探
图5:物产中大数字科技有限公司总经理朱海洋做引导发言
本次发言围绕大模型与智能体在产业应用中的现状、挑战和未来发展展开,朱海洋首先强调,当前智能体和大模型在企业管理、风险控制和生产流程优化等领域发挥了重要作用。例如,在信用风险评估、金融风控、制造业优化等方面,智能技术正在推动企业数据管理和业务流程的重构。通过与人工智能相关技术的结合,企业可以优化供应链、降低违约风险,并提升运营效率。企业级智能系统的构建,如将文档管理、绩效考核、客户画像等功能集成,提升决策智能化水平。其次,他分析了当前技术的局限性,包括数据的时效性、准确性、成本控制等问题。同时指出,大规模智能系统的部署仍然面临挑战,需要更高效的硬件支持和合理的市场推广策略。随着数据来源的多元化、产业链的协同、生态建设的完善,企业将在智能应用中可以获得更大收益,同时推动产业升级和数字化转型。
图6:执行主席为朱海洋颁发感谢牌
三、DeepSeek:强推理大模型的工程革命
图7: 之江实验室科学数据枢纽研究中心副主任、IET Fellow陈红阳做引导发言
本次发言主要介绍了DeepSeek系列模型及其优化方法。陈红阳认为,“深度求索”这个名字很贴切,他们的产品完美体现了“在正确且困难的事上深度求索”的工程理念。与其说DeepSeek-V3是技术的飞跃,不如说是工程的胜利。介绍了DeepSeek-R1结合了V3和强化学习的深度思考模型,在数学、代码和推理任务中实现了与OpenAI-O1相当甚至更好的性能。然后,陈红阳分享了学界及其团队的跟进工作,围绕跨语言、跨专业泛化能力方面进行的实验以及课程学习策略方面的工作。最后,陈红阳提出若干值得思考的问题,即如何推进强推理模型的工程革命?如何深化强化学习的应用?以及如何创造更多的高质量数据?
图8:执行主席为陈红阳颁发感谢牌
四、大模型的发展和应用新范式
图9: 同济大学长聘副教授张奇做引导发言
本次发言主要聚焦于大型语言模型的发展和应用新范式。张奇首先提到了ChatGPT作为元年的开始,指出这一领域正在经历巨大的变革,并对社会经济产生着深远的影响。随后,详细介绍了大型语言模型的应用和发展历程,并介绍了Prompt Learning、Chain of Thought以及思维树等新技术,这些技术可以帮助大型语言模型更好地适应各种下游任务。除了技术方面,还探讨了大型语言模型在未来的发展趋势,大模型驱动的自动化流程新范式、基于AI AGENT的自主协作新范式等等,强调了“人-大模型”的交互与协同的重要性,认为这是未来发展的关键所在。
图10:执行主席为张奇颁发感谢牌
五、基于R1强化学习的VLM高泛化开放视觉理解探索与研究
图11:联汇科技CEO兼首席科学家,浙江大学滨江研究院Om人工智能中心主任赵天成做引导发言
本此发言主要探讨了利用R1强化学习驱动的“思维链”来改进人工智能模型的开放视觉理解能力。首先介绍了全球首个通过强化学习训练的推理模型O1,该模型突破了传统大语言模型的思考模式,具备长链条逻辑推理能力和自我纠错功能,标志着训练的重点从“知识记忆”转向了“如何思考”。随后,介绍了DeepSeek-R1,展示了通过准确性和格式奖励机制,强化学习能够优化模型的推理过程,防止奖励作弊,并成功应用于视觉推理领域。此外,赵天成重点介绍了具备从文本推理到视觉推理的VLM-R1模型,该模型在新场景下超越基础模型和微调模型的泛化能力,尤其在复杂的视觉理解和决策问题上表现突出。随后,介绍了其团队围绕SFT和RL性能对比、在VLM场景下是否出现Aha Moment、和CV专用模型相比有何区别等问题的探索工作。最后,赵天成强调了奖励工程在未来研究中的重要性,并指出VLM大模型可以带来CV小模型不具备的全新能力。
图12:执行主席为赵天成颁发感谢牌
全员讨论
在引导报告之后进入全员讨论环节。与会嘉宾围绕“下一代大模型的技术路径”和“下一代大模型的关键应用方向”两个议题展开了深入讨论。
图13:全员探讨
讨论议题1: 下一代大模型的技术路径
与会专家们围绕这一议题展开了深入讨论,提出了如下观点:
阿里巴巴通义实验室算法工程师段忠杰讨论了多模态模型,特别提到了GPT-4o这一模型,强调了其在提升工作能力及作为多模态模型的潜力,能够同时处理图像与文本信息。他认为,多模态技术是下一代大型模型发展的合理方向,因为生成能力和理解能力之间的相互促进是关键。他还探讨了实现多模态技术的两个途径,即基于统一Transformer的自回归方法,展示了对多模态技术未来发展的积极展望。
引导嘉宾赵天成认为当前大模型的发展面临着生成(generation)与理解(understanding)能力的深度融合问题。过去的方法在信息保留方面存在缺陷,导致信息丢失较多。而现在的很多方式能够在一定程度上优化效果,但仍依赖于暴力计算,从而保持较简单的训练结构,只需构造良好的数据集即可达到较好的确认效果。在大模型兴起之前,生成与理解本身已经呈现对偶关系,即两者可以相互增强。核心问题在于,图像生成与语言生成的架构尚未完全融合,无法直接处理大规模的图文交互数据并进行统一训练。这一缺陷限制了跨模态信息处理的效率和准确性。近年来的实验表明,如果产品缺乏这种跨模态能力,可能会带来显著的经济损失。因此,未来的发展方向应在模型架构和数据融合上取得突破,将生成与理解能力归纳到统一的计算模式,并借助规模化数据训练实现更高效的智能体构建。这种突破将推动人工智能系统更精准地处理复杂信息,并带来更广泛的产业应用价值。
西湖大学特聘研究员林涛讨论了在表单生成更新过程中整合内容的重要性,特别强调了集中处理相关元素的必要性。他还介绍了BIT范式模型在价格层面的运作机制,并预见未来模型架构和训练范式将实现数据为中心的大统一,从而促进模型的持续迭代。
引导嘉宾郑波提到智能体的发展不仅是技术突破的问题,更涉及工具层面的优化和业务协同的深度结合。在早期探索阶段,企业往往受限于底层信息的处理能力,难以有效整合内部工具。然而,随着技术进步,企业需要加速内部工具体系的整合,使其更好地服务于业务需求。一个关键的方法论是回归工具视角,即明确智能体平台应具备的核心工具集,并通过开放协议来提升互操作性。智能体的应用应优先聚焦于工具层面的完善,例如构建一套标准化的SOP(标准作业流程),从而形成可调用、可扩展的智能体系。这种路径能够加速智能体落地,使其更具实际应用价值,并有望在短期内取得突破。
讨论议题2: 下一代大模型的关键应用方向
对于“下一代大模型的关键应用方向”议题,与会嘉宾们分享了各自观点:
浙江工业大学教授孙国道认为技术普及尤其是智能体技术的发展,旨在使普通民众也能享受到高效服务。然而,他表达了对成本上升的担忧,指出这些成本问题严重阻碍了技术的广泛普及。以自己仅用20美金充值却只能获得有限资源的经历为例,这反映了服务或产品定价与用户体验之间的微妙关系。此外,他强调了系统优化的重要性,指出当前研究生教学文献在解决实际系统问题方面帮助有限。但他对新技术发展持乐观态度,使大模型更加普及和易于使用。
引导嘉宾张奇谈到大模型的正确应用方向是当前讨论的关键,尤其是在社会治理和城市规划方面。以上海为例,政府和企业正在探索如何利用大模型优化城市管理,例如在文化传播、城市特色塑造和社会服务等领域发挥作用。当前的挑战之一是如何确保大模型的使用合理且可控,避免错误引导或误用。
杭州师范大学/诺丁汉大学副教授洪立斌提到近期在学术投稿过程中出现争议事件:其提交的论文收到期刊审稿意见,但反馈内容中出现了原文未涉及的内容,疑似因审稿环节使用AI工具(如大型语言模型)生成意见,导致反馈与论文内容脱节。AI工具虽能提升论文润色、研究提示等环节效率,但也存在被滥用于审稿中的投机取巧问题的风险,甚至可能因工具误用破坏学术严谨性。
阿里巴巴段忠杰紧接着聊到偏好对齐训练在大模型中起到了关键作用,通过引导价值观和优化对齐训练阶段,可以有效减少恶意言论,促进健康的讨论环境。然而,偏好对齐训练在某些方面会损坏大语言模型的理解能力。对齐到何种程度与力度,以达到模型性能和价值观输出的完美权衡是一个值得讨论的问题。
浙江大学百人计划研究员朱霖潮提出当前学术审稿和研究存在较强随机性,未来评价可能更依赖长期影响力而非短期指标;AI正逐渐融入科研流程,但仍受限于人工干预和流程不完整。AI发展的未来方向将聚焦增强推理能力(解决复杂问题)、多智能体协同对齐,以及突破现有范式的系统性创新。然而,当前AI在完整自动化或高难度问题上仍面临挑战,需超越传统方法,探索根本性突破。整体趋势更注重长期价值、复杂问题解决和跨领域协作。
分组讨论
当天下午,论坛开启分组讨论环节,由执行主席余宙主持。与会嘉宾们分为两组,围绕“当前大模型的挑战与机遇是什么?”和“每个关键方向的演进路径?”分组议题展开了深入讨论。两个小组分别从“数据+模型”、“设施+应用”等方面进行了闭门深度探讨,形成多维度洞见。
一组针对“当前大模型的挑战与机遇是什么?”和“每个关键方向的演进路径?”议题,从“数据+模型”方面进行了观点论述:
针对长链思维(长CoT)的实践路径,尽管OpenAI已在此领域取得突破,但开源社区需进一步探索其构造与迁移机制,例如通过知识蒸馏技术实现长CoT数据的跨场景复用,从而系统性提升模型的复杂推理能力。与此同时,跨模态对齐技术呈现标准化趋势,主流方法通过统一框架整合图文等多模态数据,在强化跨语言、跨模态通用适配能力的基础上,需兼顾外部数据接口的兼容性与场景化部署的灵活性,以应对多样化应用需求。
关于数据治理的辩证性讨论中,强调大规模训练数据的噪声管理需建立动态平衡机制。适度保留数据噪声被证实可增强模型在真实场景中的泛化能力,而过度清洗反而可能削弱数据多样性,导致模型鲁棒性下降。这一发现要求研发者在数据质量优化与场景适应性之间寻求精准权衡。此外,大模型的内化边界问题引发深度思辨:在自动驾驶等专业化场景中,模型的训练推理效率仍需与外部工具深度协同;面对大企业技术覆盖的竞争压力,创业团队应着力构建垂直领域的不可替代性价值,通过技术创新壁垒突破生态位限制。
讨论揭示,大模型技术的突破不仅依赖算法迭代,更需在数据治理策略、跨模态协同机制与生态竞争格局中实现系统性进化。
图14:针对分组讨论议题,一组就“数据+模型”方面分享讨论结果
二组针对“当前大模型的挑战与机遇是什么?”和“每个关键方向的演进路径?”议题,从“设施+应用”方面进行了观点论述:
在基础设施建设方面,指出当前国产芯片生态仍在发展阶段,浙江逐渐成为大模型的重要产出地,但目前模型训练仍主要依赖同构卡,利用率偏低,存在IO和通信瓶颈等虚拟化层优化问题;异构卡混合训练的挑战更大。对于端侧芯片,在手机、游戏等用户交互场景中的应用仍需深入探索。
在大模型应用落地方面,列举了多个实际场景:在自动驾驶领域,模型已能较好实现对周边环境的端到端理解与反馈;在会展行业,可用于嘉宾智能匹配与推荐;在建筑施工行业,结合建筑规范,可辅助进行施工结果拍照验收;此外,大模型还在游戏、辅助盲人眼镜等方向展现出潜力。
图15:针对分组讨论议题,二组就“设施+应用”方面分享讨论结果
总结
本次技术论坛汇聚了产学研各界专家,围绕DeepSeek技术体系与下一代大模型发展路径展开深度思辨。与会者一致认为,大模型技术正从规模扩张转向能力密度跃升,开源创新、算法工程化与全栈协同优化将成为突破核心瓶颈的关键路径。通过近9小时的密集分享研讨,论坛形成了以下共识:
技术路径共识与挑战
• 工程化创新驱动效能跃升:DeepSeek通过MoE架构、强化学习与训练成本优化实践,证明国产大模型可通过工程化路径实现推理能力突破。其训练成本降至国际同类模型的1/10,为轻量化部署提供了可复现样本。
• 多模态融合亟待架构革新:跨模态生成与理解的架构割裂仍是主要障碍。专家提出需构建统一计算框架,通过图文交互数据的规模化训练实现能力耦合,GPT-4o等模型展现了该方向的潜力。
• 数据质量与安全双轨并进:长CoT数据蒸馏、噪声动态平衡等策略被验证可提升模型泛化能力,但需警惕过度清洗导致的场景适应性下降。同时,数据合规性、算法可靠性成为金融等垂直领域落地的刚性约束。
应用生态演进方向
• 产业智能化纵深发展:在金融风控、智能制造、城市治理等领域,大模型正推动业务流程重构。智能体技术需加速工具链整合,构建标准化SOP以提升企业级应用效率。
• 普惠化与专业化平衡:端侧芯片优化、异构算力适配等技术可降低使用门槛,但需警惕成本与性能的"剪刀差"。自动驾驶、建筑施工等场景验证了专业化模型与外部工具协同的必要性。
• 学术范式革新挑战:AI深度介入科研全流程已成趋势,但审稿环节的AI误用事件警示需建立技术应用的伦理边界,同时探索长期价值导向的评价体系。
论坛为下一代大模型发展勾勒出三大攻坚路径:构建"生成-理解"统一架构实现多模态能力升维,推进国产算力生态与训练框架的深度适配,建立数据治理与模型安全的全生命周期管理体系。正如执行主席于开丞总结,大模型技术已进入"工程精耕期",唯有通过产学研协同攻克算法创新、算力瓶颈与场景深化的"不可能三角",方能实现国产大模型生态的高质量跃迁。总体而言,本次活动取得了丰硕的成果,会上观点交流热烈,会后所形成的思辨成果,为行业提供了兼具技术锐度与产业落地方向的路线参考。