CCF YOCSEF杭州举办技术论坛:基模与Agent——智能系统的边界之争、评估之变与进化之路
2026-06-12 阅读量:0 小字

202667日下午,由中国计算机学会(CCF)主办,中国计算机学会青年计算机科技论坛杭州分论坛(CCF YOCSEF杭州)组织的基模与Agent:智能系统的边界之争、评估之变与进化之路技术论坛(论坛编号:CCF-YO-26-999)在杭州阿里巴巴西溪园区成功举办。

大合影

全体参会人员合影

本次论坛由CCF YOCSEF杭州AC委员陈佳伟与AC主席刘佐珠(均来自浙江大学)共同担任执行主席。论坛延续CCF YOCSEF“产学研深度融合、直呼其名、自由思辨的特色,邀请北京大学助理教授袁粒、阿里巴巴千问资深算法专家朱达、中国科学技术大学特任教授张岸担任引导发言嘉宾;邀请大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫担任思辨特邀嘉宾。论坛汇聚了来自北京大学、浙江大学、中国科学技术大学、中国人民大学、天津大学、厦门大学等高校的专家学者,以及来自阿里巴巴、蚂蚁集团、小红书、美团、群核科技等科技企业的一线技术专家,累计超过80人参会。

在大模型能力持续突破的今天,智能系统正从模型能力竞争走向系统能力竞争:基模的Scaling不断推进,Agent架构不断演进,但其在复杂真实任务的交付质量仍然不能满足人类的需要。一些关键的问题正在浮现:随着基模不断增强,Agent究竟只是阶段性的工程框架,还是未来智能系统不可或缺的核心架构?与此同时,当打榜失效,我们又该如何高效、可靠地评估模型能力,并稳定地驱动基模与Agent的自进化?本次论坛正是围绕基模与Agent边界之争、标尺之变与进化之路展开深入思辨,力图为业界提供前瞻性的技术判断与应对路径。

论坛伊始,执行主席陈佳伟与刘佐珠代表主办方向与会嘉宾致以热烈欢迎,系统阐述了CCF YOCSEF“承担社会责任、提升成员能力的文化理念,并介绍了本次论坛的选题初衷、核心议题与议程安排。执行主席陈佳伟强调,本次论坛之所以聚焦基模与Agent”,正是希望跳出单一的模型打榜叙事,回到智能系统这一整体视角,邀请来自学术界与产业界的青年力量同台交锋,共同辨析智能系统的能力边界、评估范式与演化方向。

开场

执行主席陈佳伟、刘佐珠主持开场

引导发言

在引导发言环节,三位来自高校与产业一线的嘉宾,分别从多模态统一架构、CAgent工程实践、大模型内部机制与智能体自进化三个维度,为现场观众带来了兼具理论深度与实践厚度的报告。

一、多模态基础模型如何走向生成与理解的协同统一(袁粒 北京大学)

 

袁粒

袁粒作引导发言

袁粒称自己是“基模派”。他提出多模态生成与理解的原生统一这一核心主张。他认为,当前多模态系统中生成与理解仍长期割裂:生成侧多依赖扩散建模,容易出现不符合物理规律与逻辑的内容;而理解侧多基于自回归语言模型,则存在视觉生成能力弱、偏见与幻觉等问题。在他看来,理解相当于将原始数据编码到隐空间,生成则是从隐空间解码回原始空间,二者如同一对编码器解码器。基于这一关系,他比较了两条统一路线:一是串行统一,以下限高、算力要求相对友好、易于通过后训练打通生成与理解为特点;二是并行统一,即在同一骨干网络中融合自回归与扩散,实现多模态原生融合,其上限更高,但训练难度和算力需求也更大。他进一步强调,多模态原生融合应坚持输入输出原生模态融合原生,同一模态不应被拆分为多套编解码器,否则底层像素信息与高层语义信息难以协调。袁粒认为,生成与理解的统一是多模态基础模型的核心;LLM已逼近性能极限,Agent现在,多模态才是未来。没有多模态原生统一,就难以形成真正的世界模型。

二、千问CAgent Harness思考与实践(朱达 阿里巴巴)

作为本次论坛的东道主之一,朱达自称务实派,分享了千问CAgent的工程实践。他围绕通用复杂任务Agent“千问任务助理,提出多、快、好、省四字方法论:是支持信息搜集、研究、生活、办公、开发等多类型任务;是让执行时间与交付质量相匹配;的关键在于先定义评测标准,再驱动技术迭代;则强调通过Agent架构与上下文工程降低token和算力成本。朱达坦诚指出,随着基模能力跃升,过去精心搭建的许多脚手架会逐渐被基模吸收,但新的问题也会不断出现。例如千问主动服务要从被动响应走向精准预判,不仅需要感知真实世界事件、降低算力成本,还需要把握主动联系用户时的隐私边界与情商尺度。在更宏观层面,朱达梳理了从Prompt EngineeringContext Engineering、再到Harness Engineering的演进,并将Harness类比为大模型的操作系统。他进一步提出,未来关键不只是Harness,而是面向AI“AIware Engineering”——一套类似软件工程的方法论,用来管理复杂的人机协作与需求变化。基模与Harness最终将在ROI与能耗的权衡中形成稳定协同。

三、大模型内部机制解码与智能体自进化(张岸 中国科学技术大学)

 

张岸

张岸作引导发言

张岸称自己是夹缝求生派,她的报告围绕大模型可解释性与智能体展开。在可解释性方面,她分享了多项有趣的机制:大模型在生成推理内容前,已能预规划大致需要多少推理token,并可通过内部方向向量干预推理长度与准确率;base模型与reasoning模型的差距往往集中在少量早期决策关键token”上,替换约10%的关键token即可接近完整推理模型的表现。她还介绍了多语言能力与神经元机制的关系,以及少量关键神经元对模型整体能力的决定性影响。在智能体部分,张岸围绕记忆、工具使用、个性化与自进化四个方向展开。她认为,智能体记忆的本质是注意力的管理,可通过自主精炼、回看、视觉记忆和门控记忆等机制提升长程推理效率并避免记忆爆炸。工具使用方面,她从自我验证、环境扩展和噪声鲁棒性三个角度说明Agent能力提升路径。在个性化方面,她指出,真实用户偏好建模正成为顶尖模型的新瓶颈,通用推理能力提升并不必然带来个性化能力提升。在智能体自进化方面,她介绍了通过自演化评分准则和技能选择、利用、蒸馏等机制提升智能体能力的探索。

 

感谢牌1

感谢牌3

执行主席为引导嘉宾颁发感谢牌

思辨环节

引导发言后,论坛进入最具YOCSEF特色的思辨环节。围绕能力边界之争”“评价标尺之变”“协同进化之路三大议题,三位特邀嘉宾分别作引导思辨,随后与会嘉宾以举手抢话筒、自报家门、直呼其名的方式自由交锋。现场观点碰撞热烈,涌现出“基模派务实派蛋黄派夹缝求生派“3D“Agent等多种立场,充分体现了CCF YOCSEF“自由、平等、思辨的文化底色。

本环节特邀大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫参与引导思辨。三位嘉宾分别在多模态推理与Agent落地、大模型数学/代码/agentic能力优化、知识增强与大模型记忆等方向具有丰富研究和产业实践经验。

思辨

与会嘉宾参与思辨

思辨议题一 能力边界之争:基模 VS Agent,哪些智能体能力会被基模吞噬,哪些能力会被保留?

曹绍升以蛋黄派自喻作引导思辨。他认为,基模与Agent之间并不存在一条静态、清晰的边界。早期Agent更多承担提示词工程、流程编排和工具调用等外围能力;随着上下文长度、指令遵循、推理规划与工具使用能力逐渐被基模吸收,Agent的职责也在不断外移和重构。这样看,基模与Agent不是彼此替代的关系,而是在能力扩张与系统补位之间持续协同演化。

围绕这一议题,现场讨论逐渐形成了三个层次的判断。

  • 基模会持续吞噬一部分Agent能力:与会嘉宾普遍认为,过去许多依赖外部脚手架才能实现的能力,例如格式遵循、简单推理、基础规划和部分工具调用,正在随着基模能力提升而被吸收进模型内部。Agent在当前阶段承担的很多补丁式的功能,可能会在下一代基模中变成默认能力。

  • Agent仍会长期保留那些依赖真实世界的系统能力:多位嘉宾指出,基模即使变得更强,也难以直接吞噬所有智能系统能力。面向真实世界的交互接口、权限控制、安全伦理、法律合规、隐私边界和用户偏好,仍需要AgentHarness层来承载。尤其在严肃场景、垂直行业和个性化任务中,系统不仅要回答正确,还要稳定、可控,这些能力往往无法仅靠一个更大的模型完成。

  • 基模与Agent将会共同进化:有嘉宾提出,Harness可以被看作大模型的操作系统,它负责组织上下文、工具、记忆、反馈和执行流程;而Agent在真实环境中获得的用户反馈、工具反馈和任务轨迹,又可以反过来合成高质量数据,支撑基模的中训练与后训练。由此形成的不是单向替代,而是“Agent帮助基模进化,基模反过来重塑Agent形态的闭环。

在这一议题下,多智能体是否能够涌现新能力也成为讨论焦点。有观点认为,多个具备不同专长和偏好的模型协同,可以突破单智能体的局部局限,尤其适合复杂验证、数据合成和专业任务外拓;也有嘉宾指出,如果缺乏可靠的外部反馈与可验证信号,单一类型模型之间的自我辩论未必真正提升智能上限。总体而言,未来智能系统的关键不只是基模更强“Agent更多,而是如何在模型能力、系统架构、反馈信号和真实场景之间建立有效协同。

思辨议题二 评价标尺之变:当Benchmark打榜系统失效,如何高效、可靠地评估基模与智能体性能?

胡斌斌作引导思辨时指出,评测正在成为业界与学界共同面对的核心难题。随着模型能力快速提升,传统静态Benchmark越来越难以反映真实能力:公开榜单容易被污染或被迅速追平,而真实应用往往是长链路、多步骤、强交互的复杂任务,单轮问答式评测难以刻画完整体验。因此,评测范式需要从结果打分走向过程、场景与反馈的综合评价。

围绕该议题,与会嘉宾主要从四个方面展开讨论:

  • 模型能力和系统能力的区分:与会者认为,基模能力评测可关注指令遵循、知识理解、数学、代码、规划、反思等通用能力;Agent系统评测则更应关注执行轨迹、工具调用效率、上下文管理、错误恢复和最终交付质量。对于Agent而言,能否在工具报错、路径受阻时完成自我修复,往往比单次答案更能体现真实能力。

  • 从公开题库到真实场景:有嘉宾以法律、医疗等严肃场景为例指出,模型榜单高分并不等于真实可用。真正有效的评测,需要来自真实业务中的难case、边界case和高责任任务,并依赖产业协同、学科交叉和领域专家参与,持续沉淀为动态评测集。此外,真实场景中的评价标准并不总是唯一答案。例如情感陪聊、个性化推荐、办公助理等任务,最终要看用户是否觉得有帮助、是否提升效率、是否产生业务价值。因此,需要建立线上指标离线指标人工评估模型自动评估的链路,让不同评价信号相互校准。

  • 从静态评测到动态评测:嘉宾们讨论由谁评估之问,人类评估最贴近真实体验但成本高,模型评估效率高但存在偏见,环境评估相对客观但可能被利用规则漏洞。未来评测体系需要综合人类、模型和环境三类评估者。与其只追求统一榜单,不如为不同使用方提供快速构建评测体系的方法框架,使评测随模型能力、业务场景和用户需求持续迭代。

总体来看,与会嘉宾形成的共识是:Benchmark不会消失,但静态打榜已不足以承担智能系统评价的全部责任。未来真正有价值的评测,不仅测评模型的静态能力,更要测评系统在真实任务中是否可靠、高效、可控,并真正对用户有用。

思辨议题三 协同进化之路:面向复杂开放场景,如何高效、稳定地驱动基模与Agent的自进化?

张宁豫作引导思辨时,将智能系统持续进步的核心动力概括为好奇心收益,也就是合适的奖励与反馈机制。他指出,完成任务、提升效率等明确目标相对容易设计,真正困难的是如何让AI在开放环境中持续探索,并保持进化过程的稳定,防止越学越偏。

围绕该议题,与会嘉宾主要从四个方面展开讨论:

  • 自进化需要外部新信息:有嘉宾从信息论角度指出,如果没有外部新信息注入,系统不可能凭空无限提升。许多所谓自进化,本质上仍依赖外部知识、人工经验、环境反馈,或是对已有数据的更充分利用。但如果没有新数据输入,能力终会停在数据边界之内,源源不断地自我提升并不现实。

  • 自进化在特定任务领域已初见成效:有嘉宾对自进化持更开放态度,将Agent放入可验证环境中,让其不断生成任务、选择技能、执行尝试、获得反馈并进行蒸馏,可能在特定任务域内形成持续改进。在线蒸馏、模型合并、开放域目标导向训练,以及以coding为落脚点让智能体递归构建和调试自身,都是值得探索的方向。

  • 自进化的理想闭环:有嘉宾将自进化拆解为记忆、行动与模拟三个阶段:记忆对应过去的经验积累,行动对应当前的工具调用与任务执行,模拟对应未来的规划、预测和试错。只有三者形成闭环,智能体才可能获得稳定、可积累的能力增长,否则自进化容易退化为无序探索或低质量数据循环。

  • 未来形态将是多智能体与人机环境协同:与会嘉宾认为,未来智能系统的进化未必是单一模型不断变强,而可能是多智能体与人机环境协同演化。多智能体既可以是显式multi-agent架构,也可以是单Agent在不同上下文和角色之间切换,甚至可以体现为MoE内部的多样性。与此同时,人类仍将在智能体闭环中承担监管、评价等职责。

总体来看,驱动基模与Agent协同进化的关键,不能让模型关起门来自我提升,而需要构建高质量的数据、反馈、工具、场景和治理体系,让智能系统在环境的持续互动中获得可验证、可积累的能力增长。

思辨感谢牌

执行主席为三位特邀嘉宾颁发感谢牌

千问感谢牌

执行主席为赞助单位颁发感谢牌 

论坛总结

在总结环节,执行主席刘佐珠作了总结发言,对论坛成效给予高度肯定,并感谢千问团队的赞助支持。

历时数小时的高密度研讨在热烈的掌声中落下帷幕。本次论坛汇聚学术界与产业界的青年力量,围绕基模与Agent”这一智能系统发展的核心命题,从能力边界、评价标尺与进化路径三个维度展开了层层递进的深度思辨。围绕三个核心议题,与会嘉宾进行了深入且有见地的探讨和辩论。这场思辨的火花,不仅为下一代智能系统的研究提供了前瞻性的技术思路,也再次彰显了CCF YOCSEF搭建学术桥梁、助力人工智能高质量发展的责任担当。

热门动态
2026-05-31
CCF YOCSEF保定组织“破除产学研壁垒,让科研力量精准赋能河北中...
2026-05-29
聚焦低空经济,共话产业未来2026年5月27日,“聚焦低空经济,共...
2026-05-25
2026年5月20日上午,中国计算机学会青年计算机科技论坛(CCF YOC...
2026-05-25
2026年5月20日上午,中国计算机学会青年计算机科技论坛(CCF YOC...
2026-05-14
论坛 【活动名称】参加总部特别论坛:养虾者说 【时间地点】2026/3/15,北京 【参与人员】张畔,冯士恩,杨博洋,耿超 【活动名称】2025-2026大比武 【时间地点】2026/4/11,保定 【参与人员】王祝,刘扬,尹红涛,彭锦佳,张畔,张少康,张凯喆,贾楠
2026-01-22
2026年1月17日上午,CCF YOCSEF保定分论坛在保定市深圳园展示中...
2026-01-19
2026年1月17日,CCF YOCSEF保定第八届学术委员会第二次会议暨换...
2026-01-05
一、举办论坛:【活动名称】技术论坛:无人机视觉语言导航如何赋...
2025-12-31
2025年12月27日,CCF YOCSEF合肥分论坛第十五届学术委员会第二次...
2025-12-31
2025年12月27日,CCF YOCSEF合肥分论坛第十五届学术委员会第二次...
2025-08-11
CCF YOCSEF 昆明成功举办“小语种·大未来”技术论坛聚焦东南亚与...
2025-08-11
CCF YOCSEF 昆明成功举办“小语种·大未来”技术论坛聚焦东南亚与...
2025-12-02
2025年11月22日,中国计算机学会青年计算机科技论坛(CCF YOCSEF...
2025-12-02
2025年11月22日,中国计算机学会青年计算机科技论坛(CCF YOCSEF...
2025-11-24
CCF YOCSEF保定举办“应急救援场景下无人机AI视觉模型的创新突围...
2025-11-05
1、YOCSEF保定主办论坛活动 【活动名称】观点论坛:百万高端数据...
2025-10-21
GenAI时代大考:计算机高职教育的培养体系如何破茧重生?CCF YOC...
2025-09-29
承担社会责任 提升成员能力2025年9月6日,CCF YOCSEF合肥顺利举...
2025-09-29
承担社会责任 提升成员能力2025年9月6日,CCF YOCSEF合肥顺利举...
2025-09-22
2025年9月21日,中国计算机学会青年计算机科技论坛(CCF YOCSEF...
CCF聚焦