CNCC2024 | 探索大语言模型的潜能与局限——大语言模型的能力边界在哪?技术论坛
2024-11-05 阅读量:42 小字

2024年10月26日,CNCC 2024技术论坛“探索大语言模型的潜能与局限——大语言模型的能力边界在哪?”在横店圆明新园夏苑英国馆顺利举办。论坛邀请到哈尔滨工业大学计算学部自然语言处理研究所副所长秦兵教授、东南大学计算机科学与工程学院认知智能研究所所长漆桂林教授、同济大学设计与创意学院王昊奋研究员、清华大学计算机系东昱晓副教授作引导发言。论坛设置专题讨论环节,邀请到小米AI实验室大模型算法负责人刘伟、哈尔滨工业大学人工智能学院副院长冯骁骋教授、浙江大学智能科学与工业软件所副所长张宁豫副教授以及国防科技大学计算机学院田植良助理研究员等围绕思辨议题进行讨论发言。另有80余位来自高校、企业的专家学者参与本次论坛。全体与会人员围绕大模型能力评价、边界探测、能力增强等方面展开深入交流。论坛由CCF YOCSEF哈尔滨主席李洋东北林业大学)和CCF YOCSEF南京主席吴天星(东南大学)作为执行主席共同主持。CCF YOCSEF哈尔滨AC委员丁小欧与CCF YOCSEF南京AC委员孟凡共同担任在线主席。

论坛开始,李洋首先介绍了CCF YOCSEF及其文化,强调本次论坛是CCF YOCSEF哈尔滨与CCF YOCSEF南京联合举办,期望以大模型落地实践主题为契机,汇集分论坛优势力量,共促高质量发展。随后,吴天星介绍此次技术论坛的背景。近年来,大语言模型已成为推动人工智能技术进步的关键动力之一,而基于Transformer架构的大语言模型在各项自然语言处理任务中表现卓越,涵盖文本生成、情感分析、问答系统、知识推理等诸多领域。然而,这些模型在实际领域应用中仍面临着诸多挑战和局限,包括模型的泛化性、鲁棒性、可解释性等。因此在不同领域应用中如何探测大语言模型的能力边界并设计增强策略是大语言模型落地实践的重要挑战。基于此,论坛旨在探讨大语言模型泛化能力边界,针对新领域或未见数据的鲁棒性,模型生成内容的可解释性,以及检索增强生成、大小模型协同、参数高效微调等多种不同的增强策略,期待激发与会人员对大语言模型潜能与局限的深入思考,共同推动大语言模型技术的发展与应用。    

引导发言

论坛邀请了四位引导嘉宾,他们基于自身丰富的大模型技术研发与实践经验及独到见解,分别就大模型自我感知能力探索、从知识工程视角集成知识图谱与大语言模型、世界模型角度下知识增强大模型的融合创新与展望、理解与探索大模型能力涌现带来了精彩的引导发言,也为后续的思辨环节奠定了良好的思辨基础。

图片2

秦兵教授作引导发言

秦兵在其引导发言中认为探索大模型知识边界,对其智能化进阶至关重要。当代大语言模型对知识边界的感知能力较弱,与人类具有显著差异。通过推理、搜索、指令微调、偏好学习等技术可以提升模型的知识边界感知能力。通过持续学习、检索增强、模型融合等技术可以进一步扩展大模型知识边界。未来工作需要进一步探索“不知道自身知道”和“不知道自身不知道”两种情形。

图片3

漆桂林教授作引导发言

漆桂林在其引导发言中认为大语言模型和知识图谱都需要工程上的努力来确保其正常工作。大语言模型的工程任务包括:表示、预训练、提示调优、推理、知识融合与更新、知识验证。知识图谱的工程任务包括:表示、知识建模、知识抽取、知识融合与更新、知识推理、知识验证。知识图谱可以增强大语言模型的预训练、提示调优、推理、知识融合、更新和验证。大语言模型可以帮助知识图谱进行知识建模、知识抽取、知识融合、知识推理和验证。大语言模型和知识图谱的集成可促成新的知识服务平台研发,二者结合的未来应是:语言为“形”,知识为“心”,图谱为“骨架”,共同带来泛化性、鲁棒性、可解释性的提升

图片4

王昊奋研究员作引导发言

王昊奋在其引导发言中认为从世界模型视角出发,尽管已经提出了“自组织、自进化”的需求,但目前还缺少对此的深层解读,提醒应反思现有的大语言模型训练过程是否是最简洁高效的方式。从心智理论和智能体的角度引出大模型的概念,探讨在将大语言模型视为世界模型时需考虑的多种推理问题,包括概率推理、关系推理和目标导向推理。最后,他总结了大模型优化的三个方向:提示工程、检索增强和指令微调,并构建了基于外部知识需求和模型调整需求的技术象限,涉及RAG、微调、提示工程等多种技术。

图片5

东昱晓副教授作引导发言

东昱晓在其引导发言中介绍了近年来大模型的发展历程,指出目前大语言模型的能力上限不断被突破,提到如今的大模型已能够在生活场景中发挥几年前无法想象的作用。他分享了团队在模型涌现能力方面的实验结果,发现影响模型性能的关键因素之一是模型loss,且大模型在降低loss方面比小模型更具优势。尽管大模型的发展时间还较短,但其潜力巨大,在算力和模型规模仍在不断增长的同时,大模型的能力边界仍需时间进一步检验。

观点思辨

在引导发言后,李洋吴天星共同主持了接下来的思辨环节,与会嘉宾及参会人员围绕大语言模型能力评价体系构建、可复制推广的大语言模型能力边界探测框架、针对能力局限的增强策略三个议题展开了深入思辨。

图片6

特邀嘉宾刘伟、张宁豫、田植良作思辨发言

思辨议题一:针对大语言模型在实际应用中的泛化性、鲁棒性、可解释性等问题,如何构建其能力评价体系?

参与讨论的观点认为评测是指引技术发展的灯塔,能够帮助我们有针对性地优化技术、弥补不足。然而,大模型的评测工作面临许多挑战,成本也较高。虽然自动评测在准确性上尚不如人工评测,但其自动化和易用性具有优势。由于大模型的能力范围广,评测内容庞大,并且提示工程对不同模型的影响较大,如何保证评价的公平性成为一大难题。随着模型的不断发展,参与评测的人员也需要具备更高的能力。从可解释性和鲁棒性两个角度出发,在可解释性方面,用户期望系统能提供可靠的解释,这不仅能提升用户信任,也是增强模型能力的一种方式。产品可解释性不仅体现在用户体验上,模型设计结构和理论层面的可解释性同样重要。在鲁棒性方面,模型需符合企业和组织的价值观与背景设定,特别是避免出现价值观偏差等问题。此外,对于大模型能力的评价,目前有很多的测评榜,但我们需要冷静地看待这些数据,思考是否要坚持对技术的深耕,以及如何更好的跟工业界需求结合去推进技术发展。目前,国内外的模型其实很难做得面面俱到,大模型的能力本身很难判断,而模型的智能其实也很难评价。一般来说,评价体系构建有两种方式,一种是top-down方法,从理论开始,学术界设计方法,构建合理的评价体系评价大模型产业界是自下而上的,从各个场景评测大模型,从各个实践方式来评测,二者需要做有效的结合。

思辨议题二:如何基于大语言模型能力评价体系,设计一套可复制推广的大模型能力边界探测框架方法?

参与讨论的观点认为可复制可推广指评测框架在多个领域具有通用性,而不仅限于某些特定数据集。此外,探测框架也应考虑模型的未来发展,而非仅着眼于当前模型。具体方法包括:(1)设计不同的提示语来评测大模型,(2)尝试使用小模型探测大模型的边界。若在特定领域中小模型的表现足够好,就可以用它来有效评估大模型。评价大模型与评价人相似,都具有行业属性,每个小模型都有自己的评价体系。通过行业模型,系统地评判各领域的模型表现。同样,软件工程中的评价框架也可为大模型评测提供借鉴,例如,大模型的问答能力评测可参考软工专业的评价方法,将其视为软件来进行评估。具体到能力评估,一个人的能力包括知识水平、综合素质和特定任务能力,若仅评估任务能力,可能导致“刷分”现象。因此,未来的评价体系应区分知识与能力、综合素质与任务能力,构建科学的框架。综上而言,有两项基本原则:第一,尽量学习和借鉴成熟的评测方法,避免轻易创新;第二,建立标准化的评价框架。探测和评测需明确区分,探测应专注于具体的技术,保持简便可执行,不能“鸡同鸭讲”。尽管问题复杂,需要自动化和多学科专业人士的共同努力来发现科学规律。评测和探测应以动态、发展的视角去推进。

思辨议题三:针对大语言模型不同方面的能力局限,应采用何种增强策略?

参与讨论的观点认为首先应从三个角度探讨大模型的增强:首先是知识层面,当前业界已经在多个场景中探索大模型的应用落地,核心技术包括持续预训练、知识增强和RAG等,这些都是在知识层面提升大模型的主要手段。其次是能力层面,关键技术如奖励模型和世界模型尚处于初步阶段,仍有很大提升空间。最后是安全可信,大模型的安全问题和潜在错误需要高度关注。深入理解模型的神经元机制,有助于构建更加安全可信的大模型。在模型增强方面,可以通过不同阶段的模型结构优化;数据增强则包括数据的扩展和合成。能力与知识应当分开看待,以便于更清晰地定义模型边界,同时进行工具增强、RAG增强、流程增强等。此外,还需关注落地的小模型,特别是如何弥合小模型和大模型之间的能力差距。大模型的核心要素包括模型和数据,模型层面相对成熟,但数据层面的研究相对薄弱,尤其是如何区分高质量和低质量数据,以及从低质量数据中突破大模型的局限性。值得注意的是,这里低质量数据并不等同于价值观偏差的数据,而是指数据质量不佳。大模型本质上是基于概率分布的采样过程,因此无论高质量或低质量的数据,甚至多模态数据都可以作为输入,以丰富模型的能力。

图片7

精彩思辨瞬间

论坛总结

历经四小时的热烈讨论,与会嘉宾及参会人员一致认为探测大语言模型的潜能与局限非常重要,首先需要学术界与产业界分工合作,理论与实践相结合从而构建大语言模型能力评价体系;其次要以动态发展的视角探索大语言模型能力边界探测方法,从行业任务与小模型入手,借鉴成熟做法;此外,大语言模型的增强要综合考虑模型增强与数据增强,二者缺一不可,互相依赖,互相促进。论坛最后,本次论坛的执行主席吴天星与李洋表示通过此次论坛,深度探讨了大语言模型的能力边界探测问题,后期将整理论坛成果,形成技术报告输出,未来在CCF YOCSEF哈尔滨与CCF YOCSEF南京的合作下将持续办好大语言模型落地实践论坛,CNCC 2025再见!

图片8

论坛现场

图片9

与会人员合影留念


热门动态
2023-04-20
大规模预训练模型的快速发展,特别是ChatGPT的横空问世...
CCF聚焦