分论坛 > 上海 > 新闻动态
CCF YOCSEF上海观点论坛“如何建立认知智能的评价体系”在复旦大学江湾校区成功举办
2023-07-26 阅读量:90 小字

随着ChatGPT等一系列大型预训练模型的发展,通用人工智能技术的发展潜力开始显现,人工智能的研究也开始由感知智能迈向认知智能。认知智能是人工智能技术发展的高级阶段,常常被理解为赋予机器理解数据、知识表达、逻辑推理和自主学习等方面的能力。然而,如何更加具体地将认知智能的评价标准客观化,并确定这种标准是否适用于给定智能系统却并未能在学术界和工业界被深入讨论。

为了探索认知智能与大模型在科学研究与行业应用中的现状,探索认知智能的评价体系,2023722日,由中国计算机学会主办,CCF YOCSEF上海分论坛、复旦大学承办的如何建立认知智能的评价体系在复旦大学江湾校区顺利召开。论坛由CCF YOCSEF上海副主席刘斐AC委员戈维峰共同担任执行主席YOCSEF上海通讯委员高永彬担任微论坛执行主席。来自上海高等院校、科研院所和企事业单位的专家学者、企业代表,以及CCF YOCSEF上海AC委员和通讯委员李晋国、刘斐、戈维峰、高永彬、郭畅、尹强、许盛诚、郑臻哲、马骏等20余人参加了论坛本次论坛也是继2022610YEF2022“服务机器人的自主意识与高级智能能否实现?202369机器人大模型的机遇与挑战:从AIGCAIGA论坛之后,CCF YOCSEF上海人形机器人系列论坛的第三次活动

   开场致辞环节,CCF YOCSEF上海副主席李晋国介绍了CCF YOCSEF的文化,以及上海开展活动的特色,感谢各支持单位和来宾对CCF YOCSEF上海本次论坛的帮助。
引导发言首先是来自复旦大学计算机学院李直旭研究员《大模型时代的知识工程演进》。直旭从知识工程的角度明确比较了大模型与知识图谱的优势与不足,提出了在未来发展中大模型与知识图谱应保持竞合关系,互相帮助,互为补充的展望。
引导发言二来自上海计算机软件技术开发中心陈敏刚博士带来《认知智能测评初探》。敏刚指出,认知智能评价体系需要包括感知与认知,推理,生成,规划与行动,安全等多个维度并逐条剖析,为认知智能技术的发展带来了新的思考。随后敏刚结合自己的工作,面向大模型这一认知智能的前沿技术提出了基于基准(prompt)的测评,基于人工的测评,基于大语言模型的评估,基于场景的测评等多条路径。
位引导发言嘉宾来自上海擎朗智能科技有限公司的资深解决方案专家徐胜徐胜以《认知智能可持续发展路径的探索-治理与创新协同并进》为题,结合产业界需求,指出了当前大模型存在的成本、安全、隐私以及专业需求等问题,讨论了在企业视角下大模型选用的方案。最后提出大模型可以从基础能力,行业深度,综合服务,安全隐私,降本增效方面进行评测和选择的思路,为产业界大模型应用提供了参考。
在引导发言后,CCF YOCSEF上海2012-2013主席张文强研究员为引导发言嘉宾颁发感谢牌,论坛进入思辨环节
思辨环节,与会嘉宾与与会人员共同深入探讨了三个思辨问题。讨论内容围绕大模型这一核心技术,在测评体系、认知能力评价以及行业产业影响展开激烈的讨论。
思辨问题一:现有的评测体系是否充分衡量了大模型的认知能力?
与会多位嘉宾分别从产业界与学界总结了当前大模型的测评存在安全性、领域泛化性、逻辑推理能力等多方面的欠缺。多位与会嘉宾认为,当前的大模型评价体系尚无法实现对大模型认知能力的评判。对此张晔表示,评测体系需要分通用和行业大模型两类,通用大模型应该重点考虑安全方面现有的行业大模型评价体系是不够的,且测试数据集是固定和公开的,在实用中不一定能获得同等的效果。敏刚认为,大模型全面的评价体系还未建立。大部分基于选择题的测评方式,无法衡量大模型的逻辑推理能力对于复杂任务的自动分解以及规划能力尚未找到很好的评价方案。从科研与技术的层面,桂韬分析比较了开放性的评测和封闭式评测的优势与缺陷,提出了使用自动化评测方法解决生成式测评的方案。直旭则表示认知智能在基础层面已经形成了较为完备的测评方案,但是面对海量的学科知识体系需求,高级知识的归纳,演绎,推理等高级层面的评测体系仍需进一步完善。论坛执行主席刘斐与维峰还针对上述问题,对等级认证和评定的标准和认证体系现有的评价体系容易出现的缺陷以及ChatGPT和国产模型对比 三个问题引导展开讨论,获得了参会专家的积极响应。
思辨问题二:大模型的认知能力评价应该包含哪些方面?
直旭敏刚张晔等多位嘉宾均认为,大模型的自主意识与自我认知是大模型的认知能力评价的关键方面,其包括大模型的价值观、大模型是否会产生情绪等多个方面。桂韬认为模型认知能力和安全能力有时是相背的,大模型对helpful harmness这一相背概念的平衡需要纳入认知能力的测评。在评测大模型的时候,不仅应该考虑描述的合理性,也应该考虑与事实的匹配性,防止出现大模型的输出与事实不匹配的状况。此外桂韬与张晔分别从技术与应用的角度讨论了模型本身的泛化能力在认知测评中的问题。张晔还指出大模型要学会利用其他第三方工具的能力刘斐和徐胜面向企业应用提出,大模型的测评在企业中不但需要考虑商业因素,还需要考虑其是否可以解决企业的实际问题如何建立企业评测库,来选择大模型,需要更加细致化的考量
思辨问题三: 如何研判认知智能大模型对各个行业带来的剧烈冲击和创新发展机遇,使得学界和企业能够做出针对性的调整?
在产业的角度刘斐徐胜以及张晔等嘉宾认为,大模型的发展带来了一定的冲击,但是对于产业界来说,更多的是机遇。刘斐指出机器人的问答系统,大模型能提供更好的帮助,使得机器人在缺乏用户关注的语料的情况下满足需求。徐胜提出使用大模型来分析客户的数据,能够根据客户的画像来提升用户交互的体验的设想。而在科研方向,直旭维峰、桂韬在科学问题的重定义,原有任务被大模型取代以及算力数据瓶颈等问题上进行了讨论。直旭认为大模型会经历高峰热潮期到平稳期,一些大模型未解决的问题,导致其在很多方面不能完全替代现有的人工智能小模型,如何解决这一问题是学术界的一个研究热点产业界中,大模型与小模型如何有效的结合,并与任务场景适配是另一个方向。直旭同时指出,大模型的应用确实存在关键科学问题不好提炼等问题,此外,如何突破数据鸿沟,有效利用国家数据资源也是一个方向。面对数据鸿沟和算力鸿沟桂韬也认为数据和算力是影响大模型相关研究展开的主要因素,比如语料的清洗和质量,中文的清洗难度更大,需要建立专业的数据团队。在学科方向被替代的问题上,维峰提出目前很多项目和研究方向被大模型覆盖,可能导致一定现实问题。对此问题桂韬认为学术界的优势在于看的更远,能够做更长远的探索,应当积极与企业界合作,突破大模型对学界研究工作带来的瓶颈,同时可以促进学界研究成果更好落地。
思辨环节输出以下结论:
1.       大模型全面的评价体系还未建立,大模型当前基于固定数据集或场景问题的测评无法反应其认知能力。为了更好地评价大模型的认知能力,需要针对通用和行业垂直两类大模型建立不同的评测体系,并针对大模型安全性、归纳演绎推理能力解决问题的准确性等多方面设计新的测评方案。评测大模型需要学术界和工业界共同参与,在制定认知大模型的评测标准时,需要充分考虑其对于各行各业的影响,使得认知智能大模型的评测体系能够引导相关领域发展。
2.       大模型的认知能力评价不但应当包含常规任务能力评测,还应包括长文本理解能力、大模型价值观、大模型事实鉴别能力、大模型深层逻辑推理,以及在应用场景下的第三方工具使用与信息获取的能力。面向企业应用,需要建立企业评测库实现对大模型选择更加细致化的考量。随着大模型的发展,未来可以构建模型超市-能力工具的概念,国家层面建立生态圈,不同行业可以按照应用场景选择相关模型。
3 当前大模型对产业和科研界冲击与机遇并存,在企业侧大模型的问答与知识涌现的能力可以在多方面增强产品性能。而在科研侧,学界主要面临的问题是数据算力瓶颈、大模型研究中科学问题提炼困难,原有方向受到大模型覆盖与冲击等问题。针对此问题,学界需要解决大模型自身问题以及探索大模型应用场景两方面入手,积极与企业界合作,突破大模型对学界研究工作带来的瓶颈,实现产研的互补。当前多模态大模型仍然存在技术瓶颈,多项关键技术有待突破,未来模型规模会更大,另外新算子的出现可能会使大模型的训练与使用更加平民化。学术界和工业界应当继续保持对大模型的热情,更加关注发展大模型的认知智能能力,推动大模型在科学问题上和商业应用中的突破。
会议执行主席戈维峰总结发言后,思辨环节告一段落,由CCF YOCSEF上海副主席李晋国为思辨环节嘉宾颁发感谢牌。

此次论坛历时四个多小时,与会人员在激烈讨论中,围绕认知智能评价体系与大模型对产学研的影响开展了深入思辨。本次论坛由中国计算机学会主办,CCF YOCSEF上海分论坛、复旦大学承办,感谢参会嘉宾的大力支持。


热门动态
2018-07-31
CCF YOCSEF 上海分论坛于2018年7月23日晚在上海交通大学徐汇校区...
2018-07-14
人工智能(AI)在理论、技术和应用等方面得到学术界、产业界、教...
2018-07-11
CCF YOCSEF上海分论坛于2018年7月6日晚上在上海市黄浦区洛克外滩...
CCF聚焦