2026年6月7日下午,由中国计算机学会(CCF)主办,中国计算机学会青年计算机科技论坛杭州分论坛(CCF YOCSEF杭州)组织的“基模与Agent:智能系统的边界之争、评估之变与进化之路”技术论坛(论坛编号:CCF-YO-26-999)在杭州阿里巴巴西溪园区成功举办。
本次论坛由CCF YOCSEF杭州AC委员陈佳伟与AC主席刘佐珠(均来自浙江大学)共同担任执行主席。论坛延续CCF YOCSEF“产学研深度融合、直呼其名、自由思辨”的特色,邀请北京大学助理教授袁粒、阿里巴巴千问资深算法专家朱达、中国科学技术大学特任教授张岸担任引导发言嘉宾;邀请大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫担任思辨特邀嘉宾。论坛汇聚了来自北京大学、浙江大学、中国科学技术大学、中国人民大学、天津大学、厦门大学等高校的专家学者,以及来自阿里巴巴、蚂蚁集团、小红书、美团、群核科技等科技企业的一线技术专家,累计超过80人参会。
在大模型能力持续突破的今天,智能系统正从“模型能力竞争”走向“系统能力竞争”:基模的Scaling不断推进,Agent架构不断演进,但其在复杂真实任务的交付质量仍然不能满足人类的需要。一些关键的问题正在浮现:随着基模不断增强,Agent究竟只是阶段性的工程框架,还是未来智能系统不可或缺的核心架构?与此同时,当打榜失效,我们又该如何高效、可靠地评估模型能力,并稳定地驱动基模与Agent的自进化?本次论坛正是围绕基模与Agent的“边界之争、标尺之变与进化之路”展开深入思辨,力图为业界提供前瞻性的技术判断与应对路径。
论坛伊始,执行主席陈佳伟与刘佐珠代表主办方向与会嘉宾致以热烈欢迎,系统阐述了CCF YOCSEF“承担社会责任、提升成员能力”的文化理念,并介绍了本次论坛的选题初衷、核心议题与议程安排。执行主席陈佳伟强调,本次论坛之所以聚焦“基模与Agent”,正是希望跳出单一的模型打榜叙事,回到“智能系统”这一整体视角,邀请来自学术界与产业界的青年力量同台交锋,共同辨析智能系统的能力边界、评估范式与演化方向。
引导发言
在引导发言环节,三位来自高校与产业一线的嘉宾,分别从多模态统一架构、C端Agent工程实践、大模型内部机制与智能体自进化三个维度,为现场观众带来了兼具理论深度与实践厚度的报告。
一、多模态基础模型如何走向生成与理解的协同统一(袁粒 北京大学)

袁粒作引导发言
袁粒称自己是“基模派”。他提出“多模态生成与理解的原生统一”这一核心主张。他认为,当前多模态系统中生成与理解仍长期割裂:生成侧多依赖扩散建模,容易出现不符合物理规律与逻辑的内容;而理解侧多基于自回归语言模型,则存在视觉生成能力弱、偏见与幻觉等问题。在他看来,理解相当于将原始数据编码到隐空间,生成则是从隐空间解码回原始空间,二者如同一对“编码器—解码器”。基于这一关系,他比较了两条统一路线:一是“串行统一”,以下限高、算力要求相对友好、易于通过后训练打通生成与理解为特点;二是“并行统一”,即在同一骨干网络中融合自回归与扩散,实现“多模态原生融合”,其上限更高,但训练难度和算力需求也更大。他进一步强调,多模态原生融合应坚持“输入输出原生”与“模态融合原生”,同一模态不应被拆分为多套编解码器,否则底层像素信息与高层语义信息难以协调。袁粒认为,生成与理解的统一是多模态基础模型的核心;LLM已逼近性能极限,Agent是“现在”,多模态才是“未来”。没有多模态原生统一,就难以形成真正的世界模型。
二、千问C端Agent Harness思考与实践(朱达 阿里巴巴)
作为本次论坛的东道主之一,朱达自称“务实派”,分享了千问C端Agent的工程实践。他围绕通用复杂任务Agent“千问任务助理”,提出“多、快、好、省”四字方法论:“多”是支持信息搜集、研究、生活、办公、开发等多类型任务;“快”是让执行时间与交付质量相匹配;“好”的关键在于先定义评测标准,再驱动技术迭代;“省”则强调通过Agent架构与上下文工程降低token和算力成本。朱达坦诚指出,随着基模能力跃升,过去精心搭建的许多脚手架会逐渐被基模吸收,但新的问题也会不断出现。例如“千问主动服务”要从“被动响应”走向“精准预判”,不仅需要感知真实世界事件、降低算力成本,还需要把握主动联系用户时的隐私边界与情商尺度。在更宏观层面,朱达梳理了从Prompt Engineering到Context Engineering、再到Harness Engineering的演进,并将Harness类比为“大模型的操作系统”。他进一步提出,未来关键不只是Harness,而是面向AI的“AIware Engineering”——一套类似软件工程的方法论,用来管理复杂的人机协作与需求变化。基模与Harness最终将在ROI与能耗的权衡中形成稳定协同。
三、大模型内部机制解码与智能体自进化(张岸 中国科学技术大学)

张岸作引导发言
张岸称自己是“夹缝求生派”,她的报告围绕大模型可解释性与智能体展开。在可解释性方面,她分享了多项有趣的机制:大模型在生成推理内容前,已能“预规划”大致需要多少推理token,并可通过内部方向向量干预推理长度与准确率;base模型与reasoning模型的差距往往集中在少量早期“决策关键token”上,替换约10%的关键token即可接近完整推理模型的表现。她还介绍了多语言能力与神经元机制的关系,以及少量“关键神经元”对模型整体能力的决定性影响。在智能体部分,张岸围绕记忆、工具使用、个性化与自进化四个方向展开。她认为,智能体记忆的本质是“注意力的管理”,可通过自主精炼、回看、视觉记忆和门控记忆等机制提升长程推理效率并避免记忆爆炸。工具使用方面,她从自我验证、环境扩展和噪声鲁棒性三个角度说明Agent能力提升路径。在个性化方面,她指出,真实用户偏好建模正成为顶尖模型的新瓶颈,通用推理能力提升并不必然带来个性化能力提升。在智能体自进化方面,她介绍了通过自演化评分准则和技能选择、利用、蒸馏等机制提升智能体能力的探索。
思辨环节
引导发言后,论坛进入最具YOCSEF特色的思辨环节。围绕“能力边界之争”“评价标尺之变”“协同进化之路”三大议题,三位特邀嘉宾分别作引导思辨,随后与会嘉宾以“举手抢话筒、自报家门、直呼其名”的方式自由交锋。现场观点碰撞热烈,涌现出“基模派”、“务实派”、“蛋黄派”、“夹缝求生派”、“3D派”、“Agent派”等多种立场,充分体现了CCF YOCSEF“自由、平等、思辨”的文化底色。
本环节特邀大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫参与引导思辨。三位嘉宾分别在多模态推理与Agent落地、大模型数学/代码/agentic能力优化、知识增强与大模型记忆等方向具有丰富研究和产业实践经验。
思辨议题一 能力边界之争:基模 VS Agent,哪些智能体能力会被基模吞噬,哪些能力会被保留?
曹绍升以“蛋黄派”自喻作引导思辨。他认为,基模与Agent之间并不存在一条静态、清晰的边界。早期Agent更多承担提示词工程、流程编排和工具调用等外围能力;随着上下文长度、指令遵循、推理规划与工具使用能力逐渐被基模吸收,Agent的职责也在不断外移和重构。这样看,基模与Agent不是彼此替代的关系,而是在能力扩张与系统补位之间持续协同演化。
围绕这一议题,现场讨论逐渐形成了三个层次的判断。
基模会持续吞噬一部分Agent能力:与会嘉宾普遍认为,过去许多依赖外部脚手架才能实现的能力,例如格式遵循、简单推理、基础规划和部分工具调用,正在随着基模能力提升而被吸收进模型内部。Agent在当前阶段承担的很多补丁式的功能,可能会在下一代基模中变成默认能力。
Agent仍会长期保留那些“依赖真实世界”的系统能力:多位嘉宾指出,基模即使变得更强,也难以直接吞噬所有智能系统能力。面向真实世界的交互接口、权限控制、安全伦理、法律合规、隐私边界和用户偏好,仍需要Agent或Harness层来承载。尤其在严肃场景、垂直行业和个性化任务中,系统不仅要回答正确,还要稳定、可控,这些能力往往无法仅靠一个更大的模型完成。
基模与Agent将会共同进化:有嘉宾提出,Harness可以被看作“大模型的操作系统”,它负责组织上下文、工具、记忆、反馈和执行流程;而Agent在真实环境中获得的用户反馈、工具反馈和任务轨迹,又可以反过来合成高质量数据,支撑基模的中训练与后训练。由此形成的不是单向替代,而是“Agent帮助基模进化,基模反过来重塑Agent形态”的闭环。
在这一议题下,多智能体是否能够涌现新能力也成为讨论焦点。有观点认为,多个具备不同专长和偏好的模型协同,可以突破单智能体的局部局限,尤其适合复杂验证、数据合成和专业任务外拓;也有嘉宾指出,如果缺乏可靠的外部反馈与可验证信号,单一类型模型之间的自我辩论未必真正提升智能上限。总体而言,未来智能系统的关键不只是“基模更强”或“Agent更多”,而是如何在模型能力、系统架构、反馈信号和真实场景之间建立有效协同。
思辨议题二 评价标尺之变:当Benchmark打榜系统失效,如何高效、可靠地评估基模与智能体性能?
胡斌斌作引导思辨时指出,评测正在成为业界与学界共同面对的核心难题。随着模型能力快速提升,传统静态Benchmark越来越难以反映真实能力:公开榜单容易被污染或被迅速追平,而真实应用往往是长链路、多步骤、强交互的复杂任务,单轮问答式评测难以刻画完整体验。因此,评测范式需要从结果打分走向过程、场景与反馈的综合评价。
围绕该议题,与会嘉宾主要从四个方面展开讨论:
模型能力和系统能力的区分:与会者认为,基模能力评测可关注指令遵循、知识理解、数学、代码、规划、反思等通用能力;Agent系统评测则更应关注执行轨迹、工具调用效率、上下文管理、错误恢复和最终交付质量。对于Agent而言,能否在工具报错、路径受阻时完成自我修复,往往比单次答案更能体现真实能力。
从公开题库到真实场景:有嘉宾以法律、医疗等严肃场景为例指出,模型榜单高分并不等于真实可用。真正有效的评测,需要来自真实业务中的难case、边界case和高责任任务,并依赖产业协同、学科交叉和领域专家参与,持续沉淀为动态评测集。此外,真实场景中的评价标准并不总是唯一答案。例如情感陪聊、个性化推荐、办公助理等任务,最终要看用户是否觉得有帮助、是否提升效率、是否产生业务价值。因此,需要建立“线上指标—离线指标—人工评估—模型自动评估”的链路,让不同评价信号相互校准。
从静态评测到动态评测:嘉宾们讨论“由谁评估”之问,人类评估最贴近真实体验但成本高,模型评估效率高但存在偏见,环境评估相对客观但可能被利用规则漏洞。未来评测体系需要综合人类、模型和环境三类评估者。与其只追求统一榜单,不如为不同使用方提供快速构建评测体系的方法框架,使评测随模型能力、业务场景和用户需求持续迭代。
总体来看,与会嘉宾形成的共识是:Benchmark不会消失,但静态打榜已不足以承担智能系统评价的全部责任。未来真正有价值的评测,不仅测评模型的静态能力,更要测评系统在真实任务中是否可靠、高效、可控,并真正对用户有用。
思辨议题三 协同进化之路:面向复杂开放场景,如何高效、稳定地驱动基模与Agent的自进化?
张宁豫作引导思辨时,将智能系统持续进步的核心动力概括为“好奇心”与“收益”,也就是合适的奖励与反馈机制。他指出,完成任务、提升效率等明确目标相对容易设计,真正困难的是如何让AI在开放环境中持续探索,并保持进化过程的稳定,防止越学越偏。
围绕该议题,与会嘉宾主要从四个方面展开讨论:
自进化需要外部新信息:有嘉宾从信息论角度指出,如果没有外部新信息注入,系统不可能凭空无限提升。许多所谓自进化,本质上仍依赖外部知识、人工经验、环境反馈,或是对已有数据的更充分利用。但如果没有新数据输入,能力终会停在数据边界之内,源源不断地自我提升并不现实。
自进化在特定任务领域已初见成效:有嘉宾对自进化持更开放态度,将Agent放入可验证环境中,让其不断生成任务、选择技能、执行尝试、获得反馈并进行蒸馏,可能在特定任务域内形成持续改进。在线蒸馏、模型合并、开放域目标导向训练,以及以coding为落脚点让智能体递归构建和调试自身,都是值得探索的方向。
自进化的理想闭环:有嘉宾将自进化拆解为记忆、行动与模拟三个阶段:记忆对应过去的经验积累,行动对应当前的工具调用与任务执行,模拟对应未来的规划、预测和试错。只有三者形成闭环,智能体才可能获得稳定、可积累的能力增长,否则自进化容易退化为无序探索或低质量数据循环。
未来形态将是多智能体与人机环境协同:与会嘉宾认为,未来智能系统的进化未必是单一模型不断变强,而可能是多智能体与人机环境协同演化。多智能体既可以是显式multi-agent架构,也可以是单Agent在不同上下文和角色之间切换,甚至可以体现为MoE内部的多样性。与此同时,人类仍将在智能体闭环中承担监管、评价等职责。
总体来看,驱动基模与Agent协同进化的关键,不能让模型“关起门来自我提升”,而需要构建高质量的数据、反馈、工具、场景和治理体系,让智能系统在“人—机—环境”的持续互动中获得可验证、可积累的能力增长。
执行主席为赞助单位颁发感谢牌
论坛总结
在总结环节,执行主席刘佐珠作了总结发言,对论坛成效给予高度肯定,并感谢千问团队的赞助支持。
历时数小时的高密度研讨在热烈的掌声中落下帷幕。本次论坛汇聚学术界与产业界的青年力量,围绕“基模与Agent”这一智能系统发展的核心命题,从能力边界、评价标尺与进化路径三个维度展开了层层递进的深度思辨。围绕三个核心议题,与会嘉宾进行了深入且有见地的探讨和辩论。这场思辨的火花,不仅为下一代智能系统的研究提供了前瞻性的技术思路,也再次彰显了CCF YOCSEF搭建学术桥梁、助力人工智能高质量发展的责任担当。










