CCF YOCSEF杭州举办技术论坛：基模与Agent——智能系统的边界之争、评估之变与进化之路 - 新闻动态

2026年6月7日下午，由中国计算机学会（CCF）主办，中国计算机学会青年计算机科技论坛杭州分论坛（CCF YOCSEF杭州）组织的“基模与Agent：智能系统的边界之争、评估之变与进化之路”技术论坛（论坛编号：CCF-YO-26-999）在杭州阿里巴巴西溪园区成功举办。

全体参会人员合影

本次论坛由CCF YOCSEF杭州AC委员陈佳伟与AC主席刘佐珠（均来自浙江大学）共同担任执行主席。论坛延续CCF YOCSEF“产学研深度融合、直呼其名、自由思辨”的特色，邀请北京大学助理教授袁粒、阿里巴巴千问资深算法专家朱达、中国科学技术大学特任教授张岸担任引导发言嘉宾；邀请大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫担任思辨特邀嘉宾。论坛汇聚了来自北京大学、浙江大学、中国科学技术大学、中国人民大学、天津大学、厦门大学等高校的专家学者，以及来自阿里巴巴、蚂蚁集团、小红书、美团、群核科技等科技企业的一线技术专家，累计超过80人参会。

在大模型能力持续突破的今天，智能系统正从“模型能力竞争”走向“系统能力竞争”：基模的Scaling不断推进，Agent架构不断演进，但其在复杂真实任务的交付质量仍然不能满足人类的需要。一些关键的问题正在浮现：随着基模不断增强，Agent究竟只是阶段性的工程框架，还是未来智能系统不可或缺的核心架构？与此同时，当打榜失效，我们又该如何高效、可靠地评估模型能力，并稳定地驱动基模与Agent的自进化？本次论坛正是围绕基模与Agent的“边界之争、标尺之变与进化之路”展开深入思辨，力图为业界提供前瞻性的技术判断与应对路径。

论坛伊始，执行主席陈佳伟与刘佐珠代表主办方向与会嘉宾致以热烈欢迎，系统阐述了CCF YOCSEF“承担社会责任、提升成员能力”的文化理念，并介绍了本次论坛的选题初衷、核心议题与议程安排。执行主席陈佳伟强调，本次论坛之所以聚焦“基模与Agent”，正是希望跳出单一的模型打榜叙事，回到“智能系统”这一整体视角，邀请来自学术界与产业界的青年力量同台交锋，共同辨析智能系统的能力边界、评估范式与演化方向。

执行主席陈佳伟、刘佐珠主持开场

引导发言

在引导发言环节，三位来自高校与产业一线的嘉宾，分别从多模态统一架构、C端Agent工程实践、大模型内部机制与智能体自进化三个维度，为现场观众带来了兼具理论深度与实践厚度的报告。

一、多模态基础模型如何走向生成与理解的协同统一（袁粒　北京大学）

袁粒作引导发言

袁粒称自己是“基模派”。他提出“多模态生成与理解的原生统一”这一核心主张。他认为，当前多模态系统中生成与理解仍长期割裂：生成侧多依赖扩散建模，容易出现不符合物理规律与逻辑的内容；而理解侧多基于自回归语言模型，则存在视觉生成能力弱、偏见与幻觉等问题。在他看来，理解相当于将原始数据编码到隐空间，生成则是从隐空间解码回原始空间，二者如同一对“编码器—解码器”。基于这一关系，他比较了两条统一路线：一是“串行统一”，以下限高、算力要求相对友好、易于通过后训练打通生成与理解为特点；二是“并行统一”，即在同一骨干网络中融合自回归与扩散，实现“多模态原生融合”，其上限更高，但训练难度和算力需求也更大。他进一步强调，多模态原生融合应坚持“输入输出原生”与“模态融合原生”，同一模态不应被拆分为多套编解码器，否则底层像素信息与高层语义信息难以协调。袁粒认为，生成与理解的统一是多模态基础模型的核心；LLM已逼近性能极限，Agent是“现在”，多模态才是“未来”。没有多模态原生统一，就难以形成真正的世界模型。

二、千问C端Agent Harness思考与实践（朱达　阿里巴巴）

作为本次论坛的东道主之一，朱达自称“务实派”，分享了千问C端Agent的工程实践。他围绕通用复杂任务Agent“千问任务助理”，提出“多、快、好、省”四字方法论：“多”是支持信息搜集、研究、生活、办公、开发等多类型任务；“快”是让执行时间与交付质量相匹配；“好”的关键在于先定义评测标准，再驱动技术迭代；“省”则强调通过Agent架构与上下文工程降低token和算力成本。朱达坦诚指出，随着基模能力跃升，过去精心搭建的许多脚手架会逐渐被基模吸收，但新的问题也会不断出现。例如“千问主动服务”要从“被动响应”走向“精准预判”，不仅需要感知真实世界事件、降低算力成本，还需要把握主动联系用户时的隐私边界与情商尺度。在更宏观层面，朱达梳理了从Prompt Engineering到Context Engineering、再到Harness Engineering的演进，并将Harness类比为“大模型的操作系统”。他进一步提出，未来关键不只是Harness，而是面向AI的“AIware Engineering”——一套类似软件工程的方法论，用来管理复杂的人机协作与需求变化。基模与Harness最终将在ROI与能耗的权衡中形成稳定协同。

三、大模型内部机制解码与智能体自进化（张岸　中国科学技术大学）

张岸作引导发言

张岸称自己是“夹缝求生派”，她的报告围绕大模型可解释性与智能体展开。在可解释性方面，她分享了多项有趣的机制：大模型在生成推理内容前，已能“预规划”大致需要多少推理token，并可通过内部方向向量干预推理长度与准确率；base模型与reasoning模型的差距往往集中在少量早期“决策关键token”上，替换约10%的关键token即可接近完整推理模型的表现。她还介绍了多语言能力与神经元机制的关系，以及少量“关键神经元”对模型整体能力的决定性影响。在智能体部分，张岸围绕记忆、工具使用、个性化与自进化四个方向展开。她认为，智能体记忆的本质是“注意力的管理”，可通过自主精炼、回看、视觉记忆和门控记忆等机制提升长程推理效率并避免记忆爆炸。工具使用方面，她从自我验证、环境扩展和噪声鲁棒性三个角度说明Agent能力提升路径。在个性化方面，她指出，真实用户偏好建模正成为顶尖模型的新瓶颈，通用推理能力提升并不必然带来个性化能力提升。在智能体自进化方面，她介绍了通过自演化评分准则和技能选择、利用、蒸馏等机制提升智能体能力的探索。

执行主席为引导嘉宾颁发感谢牌

思辨环节

引导发言后，论坛进入最具YOCSEF特色的思辨环节。围绕“能力边界之争”“评价标尺之变”“协同进化之路”三大议题，三位特邀嘉宾分别作引导思辨，随后与会嘉宾以“举手抢话筒、自报家门、直呼其名”的方式自由交锋。现场观点碰撞热烈，涌现出“基模派”、“务实派”、“蛋黄派”、“夹缝求生派”、“3D派”、“Agent派”等多种立场，充分体现了CCF YOCSEF“自由、平等、思辨”的文化底色。

本环节特邀大模型专家曹绍升、蚂蚁集团高级算法专家胡斌斌、浙江大学副教授张宁豫参与引导思辨。三位嘉宾分别在多模态推理与Agent落地、大模型数学/代码/agentic能力优化、知识增强与大模型记忆等方向具有丰富研究和产业实践经验。

与会嘉宾参与思辨

思辨议题一　能力边界之争：基模 VS Agent，哪些智能体能力会被基模吞噬，哪些能力会被保留？

曹绍升以“蛋黄派”自喻作引导思辨。他认为，基模与Agent之间并不存在一条静态、清晰的边界。早期Agent更多承担提示词工程、流程编排和工具调用等外围能力；随着上下文长度、指令遵循、推理规划与工具使用能力逐渐被基模吸收，Agent的职责也在不断外移和重构。这样看，基模与Agent不是彼此替代的关系，而是在能力扩张与系统补位之间持续协同演化。

围绕这一议题，现场讨论逐渐形成了三个层次的判断。

基模会持续吞噬一部分Agent能力：与会嘉宾普遍认为，过去许多依赖外部脚手架才能实现的能力，例如格式遵循、简单推理、基础规划和部分工具调用，正在随着基模能力提升而被吸收进模型内部。Agent在当前阶段承担的很多补丁式的功能，可能会在下一代基模中变成默认能力。
Agent仍会长期保留那些“依赖真实世界”的系统能力：多位嘉宾指出，基模即使变得更强，也难以直接吞噬所有智能系统能力。面向真实世界的交互接口、权限控制、安全伦理、法律合规、隐私边界和用户偏好，仍需要Agent或Harness层来承载。尤其在严肃场景、垂直行业和个性化任务中，系统不仅要回答正确，还要稳定、可控，这些能力往往无法仅靠一个更大的模型完成。
基模与Agent将会共同进化：有嘉宾提出，Harness可以被看作“大模型的操作系统”，它负责组织上下文、工具、记忆、反馈和执行流程；而Agent在真实环境中获得的用户反馈、工具反馈和任务轨迹，又可以反过来合成高质量数据，支撑基模的中训练与后训练。由此形成的不是单向替代，而是“Agent帮助基模进化，基模反过来重塑Agent形态”的闭环。

在这一议题下，多智能体是否能够涌现新能力也成为讨论焦点。有观点认为，多个具备不同专长和偏好的模型协同，可以突破单智能体的局部局限，尤其适合复杂验证、数据合成和专业任务外拓；也有嘉宾指出，如果缺乏可靠的外部反馈与可验证信号，单一类型模型之间的自我辩论未必真正提升智能上限。总体而言，未来智能系统的关键不只是“基模更强”或“Agent更多”，而是如何在模型能力、系统架构、反馈信号和真实场景之间建立有效协同。

思辨议题二　评价标尺之变：当Benchmark打榜系统失效，如何高效、可靠地评估基模与智能体性能？

胡斌斌作引导思辨时指出，评测正在成为业界与学界共同面对的核心难题。随着模型能力快速提升，传统静态Benchmark越来越难以反映真实能力：公开榜单容易被污染或被迅速追平，而真实应用往往是长链路、多步骤、强交互的复杂任务，单轮问答式评测难以刻画完整体验。因此，评测范式需要从结果打分走向过程、场景与反馈的综合评价。

围绕该议题，与会嘉宾主要从四个方面展开讨论：

模型能力和系统能力的区分：与会者认为，基模能力评测可关注指令遵循、知识理解、数学、代码、规划、反思等通用能力；Agent系统评测则更应关注执行轨迹、工具调用效率、上下文管理、错误恢复和最终交付质量。对于Agent而言，能否在工具报错、路径受阻时完成自我修复，往往比单次答案更能体现真实能力。
从公开题库到真实场景：有嘉宾以法律、医疗等严肃场景为例指出，模型榜单高分并不等于真实可用。真正有效的评测，需要来自真实业务中的难case、边界case和高责任任务，并依赖产业协同、学科交叉和领域专家参与，持续沉淀为动态评测集。此外，真实场景中的评价标准并不总是唯一答案。例如情感陪聊、个性化推荐、办公助理等任务，最终要看用户是否觉得有帮助、是否提升效率、是否产生业务价值。因此，需要建立“线上指标—离线指标—人工评估—模型自动评估”的链路，让不同评价信号相互校准。
从静态评测到动态评测：嘉宾们讨论“由谁评估”之问，人类评估最贴近真实体验但成本高，模型评估效率高但存在偏见，环境评估相对客观但可能被利用规则漏洞。未来评测体系需要综合人类、模型和环境三类评估者。与其只追求统一榜单，不如为不同使用方提供快速构建评测体系的方法框架，使评测随模型能力、业务场景和用户需求持续迭代。

总体来看，与会嘉宾形成的共识是：Benchmark不会消失，但静态打榜已不足以承担智能系统评价的全部责任。未来真正有价值的评测，不仅测评模型的静态能力，更要测评系统在真实任务中是否可靠、高效、可控，并真正对用户有用。

思辨议题三　协同进化之路：面向复杂开放场景，如何高效、稳定地驱动基模与Agent的自进化？

张宁豫作引导思辨时，将智能系统持续进步的核心动力概括为“好奇心”与“收益”，也就是合适的奖励与反馈机制。他指出，完成任务、提升效率等明确目标相对容易设计，真正困难的是如何让AI在开放环境中持续探索，并保持进化过程的稳定，防止越学越偏。

围绕该议题，与会嘉宾主要从四个方面展开讨论：

自进化需要外部新信息：有嘉宾从信息论角度指出，如果没有外部新信息注入，系统不可能凭空无限提升。许多所谓自进化，本质上仍依赖外部知识、人工经验、环境反馈，或是对已有数据的更充分利用。但如果没有新数据输入，能力终会停在数据边界之内，源源不断地自我提升并不现实。
自进化在特定任务领域已初见成效：有嘉宾对自进化持更开放态度，将Agent放入可验证环境中，让其不断生成任务、选择技能、执行尝试、获得反馈并进行蒸馏，可能在特定任务域内形成持续改进。在线蒸馏、模型合并、开放域目标导向训练，以及以coding为落脚点让智能体递归构建和调试自身，都是值得探索的方向。
自进化的理想闭环：有嘉宾将自进化拆解为记忆、行动与模拟三个阶段：记忆对应过去的经验积累，行动对应当前的工具调用与任务执行，模拟对应未来的规划、预测和试错。只有三者形成闭环，智能体才可能获得稳定、可积累的能力增长，否则自进化容易退化为无序探索或低质量数据循环。
未来形态将是多智能体与人机环境协同：与会嘉宾认为，未来智能系统的进化未必是单一模型不断变强，而可能是多智能体与人机环境协同演化。多智能体既可以是显式multi-agent架构，也可以是单Agent在不同上下文和角色之间切换，甚至可以体现为MoE内部的多样性。与此同时，人类仍将在智能体闭环中承担监管、评价等职责。

总体来看，驱动基模与Agent协同进化的关键，不能让模型“关起门来自我提升”，而需要构建高质量的数据、反馈、工具、场景和治理体系，让智能系统在“人—机—环境”的持续互动中获得可验证、可积累的能力增长。

执行主席为三位特邀嘉宾颁发感谢牌

执行主席为赞助单位颁发感谢牌

论坛总结

在总结环节，执行主席刘佐珠作了总结发言，对论坛成效给予高度肯定，并感谢千问团队的赞助支持。

历时数小时的高密度研讨在热烈的掌声中落下帷幕。本次论坛汇聚学术界与产业界的青年力量，围绕“基模与Agent”这一智能系统发展的核心命题，从能力边界、评价标尺与进化路径三个维度展开了层层递进的深度思辨。围绕三个核心议题，与会嘉宾进行了深入且有见地的探讨和辩论。这场思辨的火花，不仅为下一代智能系统的研究提供了前瞻性的技术思路，也再次彰显了CCF YOCSEF搭建学术桥梁、助力人工智能高质量发展的责任担当。

CCF YOCSEF YOCSEFCCF Young Computer Scientists & Engineers Forum

引导发言

一、多模态基础模型如何走向生成与理解的协同统一（袁粒 北京大学）

二、千问C端Agent Harness思考与实践（朱达 阿里巴巴）

三、大模型内部机制解码与智能体自进化（张岸 中国科学技术大学）