分论坛 > 济南 > 新闻动态
“AI协同学习时代:教学评价该何去何从?”CCF YOCSEF济南探讨教学评价体系重构路径
2025-09-30 阅读量:0 小字

在生成式人工智能迅猛发展的背景下,学生与AI的协同学习已逐渐成为教育实践中的新常态。ChatGPT、DeepSeek、文心一言等大模型工具被广泛用于作业完成、语言润色、代码生成与知识探索,这对传统以学生独立产出为核心的教学评价体系提出了前所未有的挑战。为此,CCF YOCSEF 济南学术委员会于2025年9月20日在济南大学第五学术报告厅举办主题为“AI协同学习时代:教学评价该何去何从?”的观点论坛。本次论坛邀请了来自教育技术、人工智能及教学实践领域的专家,共同探讨教学评价在AI协同学习背景下的重构路径。

1

该论坛由CCF YOCSEF济南AC委员杨晓晖(济南大学)、委员张亮亮(济南大学)担任执行主席,CCF YOCSEF济南AC副主席李克峰(山东交通学院)、委员余盛朋(山东女子学院)负责主持线上会议。与会嘉宾包括济南大学高等教育研究院执行院长王玲、山东财经大学计算机与人工智能学院副院长崔超然、杭州电子科技大学教务处处长林菲、山东建筑大学副教授马玉玲、浪潮优派总经理陈天真、科大讯飞山东区域高教大客户经理李伯威、CCF YOCSEF总部AC委员范举(中国人民大学)、CCF YOCSEF总部AC委员唐晓岚(首都师范大学)、CCF YOCSEF南京AC委员刘艾(南京航空航天大学)、CCF YOCSEF济南AC主席田杰(山东女子学院)、CCF YOCSEF济南学术秘书杨磊(济南大学)、原CCF YOCSEF济南AC委员王琳(济南大学)、CCF YOCSEF济南AC委员宋景琦(山东建筑大学)、CCF YOCSEF济南委员李太忠(国网智能科技股份有限公司)、CCF YOCSEF济南委员李维新(济南大学)、CCF YOCSEF济南委员刘小丽(济南大学)、CCF YOCSEF济南委员王薇(山东职业学院)、袁方正(山东大学)等四十余位学者和产业专家。论坛深入探讨了AI技术的兴起对教学评价带来哪些赋能与冲击、人机协同教育教学新模式下应该更关注评价哪些能力、生成式人工智能(GenAI)时代教学评价体系应如何构建等核心问题,达成凝练以下共识:

1.     AI技术对教育评价的冲击,本质上并非简单的技术层面干扰,而是推动评价体系顺应时代发展的关键契机。生成式人工智能的介入,确实可能带来教学评价的失真,这对学生和教师都构成了挑战。但其根源并非技术本身,而在于我们如何使用技术以及评价体系能否随之进化。我们面临的与其说是技术挑战,不如说是一次重新审视教育本质的重要机遇:教育究竟要培养学生什么样的能力?评价的指挥棒应指向哪里?唯有回答好这些问题,才能更好地驾驭技术,让GenAI真正为教育赋能。

2.     人机协同教育教学新模式下的评价观应注重“过程”与“产出”的融合,二者并非对立,而是一个相互递进、深度融合的关系。相较于传统评价,我们必须高度重视“人机协作过程”的评价权重,因为其能够反应整个动态学习过程,并直接塑造最终“产出”的质量与内涵。在新的范式下,评价必须穿透“产出”的表面,深入“过程”的黑箱,否则评价将难以触及学习的本质,丧失其应有的教育洞察力与引导价值。

生成式人工智能时代教学评价体系的重构应建立协同动态机制。评价体系的构建不应是静态固化的,而需形成多方参与、持续优化的协同动态系统。这一机制既要融合教育专家、技术开发者、管理者及师生等多方视角,实现共建共治,也需具备对技术演进与教学场景变化的动态适应能力。通过引入动态数据反馈与调整机制,在实践中不断探索,使评价体系能够响应GenAI发展带来的新挑战与新机遇,从而在变局中保持其科学性。

01.开场

论坛伊始,执行主席杨晓晖介绍了本次论坛的相关背景和CCF YOCSEF文化,明确指出,生成式人工智能的迅猛发展正深刻改变教育教学生态,传统教学评价体系在这一变革浪潮中面临严峻挑战。从高校人才培养实践来看,以笔试、论文、标准化考试为核心的传统评价方式已显露诸多弊端,而AI技术的介入既带来了效率提升的机遇,也引发了评价失真、能力导向模糊等新问题。

02.引导发言:破题启思,奠定基调

引导发言环节点燃了思维火花,三位嘉宾通过精彩的专题报告,为后续讨论奠定了启发性基调。

王玲以《AI对教学评价改革的赋能与冲击》为题作引导发言,阐述了大学教学评价中“重结果评价,轻过程评价;重量化评价,轻质性评价;重知识评价,轻能力评价”等“顽瘴痼疾”,并分析了Al技术带来的教学评价失真、数据滥用、教师角色被弱化等冲击与风险。

2

王玲以《AI对教学评价改革的赋能与冲击》为题作引导发言

崔超然作题为《从预测到洞察:数据驱动的学生能力评价新范式》的引导发言,指出人工智能技术正深刻改变着许多学科的研究范式,催生出广泛的“人工智能+”研究浪潮,提出利用数据驱动方法推动教学评价从学生能力“预测”到学生能力建构过程的“洞察”与动态理解,从而为构建一种更加动态、全面、发展性的学生能力评价新范式提供了路径。

3

崔超然作题为《从预测到洞察:数据驱动的学生能力评价新范式》的引导发言

林菲以《变“堵”为“疏”:面向人机协同的未来教育评价体系重构》为题作引导发言,阐述了疏导评价目标从“知识复现”转向“价值创造”,从“个体能力考核”转向“人机协同能力评价”,从“终结性评价”转向“过程性与展示性评价”方式的转变,并分享了以《C语言》为例的具体实施案例和《生成式AI应用基础》课程考核实例。

4

林菲作题为《变“堵”为“疏”:面向人机协同的未来教育评价体系重构》的引导发言

03.思辨环节:观点交锋,探求路径

思辨环节开场,现场公布的线上问卷结果反映:①超过60%的参与者认为,AI技术使得基于论文、作业等传统形式的考核方式逐渐失去原有意义,且容易引发学术不端;②超过半数的调查者认为,在人机协同成为新常态的背景下,教学评价中“学习能力”的衡量重心应转向对人机协作解决问题能力的考察;③超过70%的参与者认为,评价学生的“AI使用成果”应关注成果中体现的学生个人思考、修改与加工的深度;③35.71%的参与者认为在未来的教学评价体系中,AI最适合扮演“辅助者”角色,即通过提供数据支持与初步分析,由教师进行最终决策;另有同等比例(35.71%)的参与者则倾向于将AI定位为“协同者”,强调其与教师形成能力互补,共同完成评价任务;④近半数参与者指出,当前推动新评价体系落地最亟需突破的瓶颈在于理念层面,即亟需推动教育管理者、教师、学生及家长等各方评价观念的更新。

5

与会嘉宾思辨讨论

议题一:AI技术的兴起对教学评价带来哪些赋能与冲击?

针对AI在教学评价的角色,专家们形成了“修补匠”与“颠覆者”的激烈辩论。有专家指出,AI技术对传统以结果为导向的教学评价方式构成了新挑战,学生提交的报告或论文可能因借助AI工具而表面质量很高,然而这却难以真实反映学生的学习过程与实际能力水平;有专家认为,尽管生成式AI可能引发评价失真,但传统评价方式本身也存在局限:教师的主观因素容易导致评价偏差,大量评价任务又加剧了教师负担,相比之下,AI的介入反而有助于在一定程度上减少人为标准偏差,并缓解教师的评价负担。

有专家强调,教学评价的本质聚焦于检验教学目标是否达成,应包含“生评师”与“师评生”两个维度,在操作层面,可引入基于过程性数据的评价方式,这为重构评价体系提供了新机遇;有专家补充,关于过程性或者各种 AI 技术在数据收集展现出价值,但更应关注其带来的根本性冲击与不确定性,并以编程能力评价为例,过去评价重点考察学生的代码编写能力,但在AI辅助编程日益普及的当下,是否仍需考察此项能力?部分专家认为,学生需要具有基本编程能力,能够判断AI生成代码是否正确;还有专家补充了评价结果与能力脱节的具体现象,部分学生项目经历丰富,尽管他们阐述了自身具备通过AI协作完成编程任务的能力,但在现场代码编写中却无法独立完成,最终导致评价结果不通过。有企业专家却反对该观点,在实际工作中企业普遍以结果为导向,并广泛使用大模型作为辅助工具,关键在于员工具备判断与运用AI生成结果的能力,而非要求每个人都掌握全部的底层代码实现。

此外,部分专家指出,评价本身即存在失真的可能,AI的引入并非问题根源,而是加剧了其复杂性与挑战性,应推动评价体系向多元化、个性化方向发展;另有专家补充指出,在音乐评价中,人工评审会因聆听时长和状态而产生波动,而AI则能保持恒定标准,应用型与研究型院校的培养目标不同,其对AI技术的定位与应用方式也应有所区别。

议题二:人机协同教育教学新模式下,应该更关注评价哪些能力?

在本环节中,与会专家激辩的焦点集中在人机协同的教育模式下,教学评价应更重视“过程”还是“产出”。专家们首先指出,评价应重点关注复杂工程问题的分析能力、价值创新能力、批判性思维与提出质疑的能力,以及团队协作能力;也有部分专家强调评价标准需考虑专业类型,例如计算机专业学生必须掌握强人机交互能力,并具备扎实的编程与调试能力,理工科非计算机专业学生需具备强人机交互能力,以支持其专业领域实践;有专家补充,对本科生与研究生的能力要求也应有所区别,本科生教育应夯实基础能力,而研究生阶段则需在已掌握基本能力的前提下,重点训练其工程实现与创新能力。

在教学评价应更重视“过程”还是“产出”这一焦点上,部分专家们指出,评价应聚焦于结果产出的过程,关键在于明确区分哪些成果由AI生成,哪些是学生基于AI输出进行的独立思考与修改,从而真实反映学生的认知贡献与能力成长;另有专家们进一步强调过程性评价的优先性,认为结果是“终结性评价”,结果本身难以追溯其形成路径,无法反映其整个学习过程中的成长、努力、思维演变和问题解决能力的发展;并且,产出结果对于高等教育所强调的创造力、协作能力、沟通表达能力等高阶认知技能,难以进行有效量化和评估。

然而,一些专家指出,“过程”固然重要,但教育的最终目标仍在于产出有价值的成果,成果是学生核心能力与AI辅助共同作用的集中体现,也是其思维过程的最终结晶;尽管AI的介入可能造成评价失真,但它无法真正理解人类情感,也无法做出具有责任感的价值判断,这正是人类产出的核心区分点。此外,大部分专家强调,当前AI素养尚不能超越甚至取代传统素养,传统素养所承载的基础知识、思维方法与人文底蕴,仍具有AI素养无法替代的根本性价值。

议题三:生成式人工智能(GenAI)时代教学评价体系应如何构建?

本议题围绕GenAI时代教学评价体系的构建路径展开讨论,重点包括:教育评价标准应由谁来主导制定、评价体系制定应如何兼顾多样性与公平性,以及如何建立动态机制以适应技术与环境的快速变化。有专家指出,评价体系的核心是教育价值和人的全面发展,其构建工作理应由深谙教育规律的学者和一线教师主导;也有专家认为,尽管教育专家能更精准地把握人才培养目标,但多元主体协同参与的具体机制仍需明确;另有专家强调,鉴于学校类型、专业特点差异显著,评价体系的制定应吸纳教育家、技术专家、管理者、学生及企业代表等多方共同参与,AI可作为指标构建的辅助工具提供参考,但最终决策权仍应以教育专家为主。

此外,有专家肯定了AI作为高效评价工具的价值。例如,利用视频技术智能分析课堂“抬头率”,可以突破传统听课的时空局限,为教学评估提供大规模、可量化的行为洞察,有效辅助教学改进。然而,部分专家强调,教学活动中存在大量难以被技术捕捉的隐性维度,例如教师的人格魅力、课堂氛围的感染力,某项教学行为可能在AI评价体系中呈现较高指标,但这并不直接等同于教学效果的优劣,评价体系构建应需融入多维要素。

还有专家指出,评价应该关注学生学习的效果,评价改革需科学“加减法”,优化评价体系内容结构,而非一味“做加法”,应该还要做减法,尤其在AI大模型时代,应强化对学生解决复杂工程问题能力的评价,相应减少对琐碎知识细节的机械考察,从而实现评价导向从“知识覆盖”向“能力建构”的转型升级。

此外,专家共识认为,重构教学评价体系需把握“变与不变”的辩证统一。“不变”的是评价促进学生发展的核心宗旨;“变”的是利用GenAI实现动态、多源的数据采集与分析,并针对多样化的教育场景进行精准评价。


6

思辨嘉宾颁发感谢牌

04.论坛总结:凝聚共识,展望新程

思辨环节结束后,CCF YOCSEF 济南AC主席田杰对本次观点论坛作了系统总结。面对生成式人工智能等新技术对教育评价带来的机遇与挑战,学界和业界需共同秉持开放、审慎、创新的态度,在坚守育人初心的前提下,积极探索数据驱动与人文关怀相结合、过程性与结果性评价相协调、标准化与个性化相统一的新型评价范式。

7

部分论坛与会专家学者合影


CCF聚焦