2024年9月25日,由中国计算机学会主办,CCF YOCSEF武汉分论坛承办的“‘小作坊’拥抱大模型,路在何方?”技术论坛在武汉潮漫凯瑞国际酒店樱花厅顺利召开。本次论坛由汪蓉(华清远见,YOCSEF武汉AC委员)和裴羽尘(华中师范大学,YOCSEF武汉AC委员)担任执行主席,由刘芳(武汉城市学院,YOCSEF武汉AC委员)和王玉龙(华中农业大学,YOCSEF武汉AC委员)担任线上主席,参与本次论坛的还有CCF秘书长唐卫清,YOCSEF武汉主席郑渤龙,副主席叶正,学术秘书邹逸雄、周凤,AC委员:彭聪、叶正、蔡佩桥、范小虎、孙昊、吴佳,还有YOCSEF苏州AC侯凯、YOCSEF长沙AC张嘉莲、YOCSEF西安AC张庆庆。论坛邀请了中国人民大学魏哲巍、香港科技大学(广州)文泽忆、西安交通大学刘松作为嘉宾进行了引导发言,还邀请了华中科技大学计算机科学与技术学院智能信息与大数据实验室张瑞、湖南大学周旭、新加坡南洋理工大学张书豪、国防科技大学甘新标作为思辨嘉宾。吸引了来自学术界和企业界的100多位相关人士共同参与。现场讨论气氛热烈,拥有不同技术背景与立场的同僚各抒己见。
在引导发言环节,魏哲巍以“基于大模型多智能体的图生成:机遇与挑战”为题,以图生成为例分享了自己进行大模型相关研究的经验。首先介绍了不直接研究大模型训练的条件下,利用其强大的知识量,自动扮演不同节点进行生成框架;接着介绍通过LLM agent可以模拟现实中的网络,与特定领域知识结合下,使整个模型具有一定常识,通过询问大模型和调查来分析power-law的原因;最后以文献引用为例,通过基于大模型多智能体的图生成,证明引用数的马太效应并不是由歧视造成的,而是由优先连接造成的。
魏哲巍—引导发言
香港科技大学(广州)文泽忆的引导发言题目是“基于层间差异感知模型分解的高效微调“,重点介绍了如何进行更高效的微调大模型,详细介绍了DeFT模型,通过奇异值分解策略减少模型参数量,在保持模型性能的同时减少模型微调的代价,更好地服务大模型的应用。
文泽忆—引导发言
西安交通大学刘松为我们带来了题为“GPU算力受限场景下DNN模型的高效自动训练优化方法”的引导报告。他首先介绍了当前在GPU算力受限场景下高效训练大模型所面临的挑战,包括训练成本高昂,显存要求高,然后详细介绍了多种优化策略:基于数据交换和重计算的自适应显存优化方法,基于频域分布特性和相似性计算的高效张量量化方法和基于流水线并行的分布式模型训练调度优化。
刘松—引导发言
引导发言环节-颁发感谢牌
在思辨讨论环节,论坛邀请了华中科技大学计算机科学与技术学院智能信息与大数据实验室的张瑞,湖南大学周旭,新加坡南洋理工大学张书豪,国防科技大学甘新标作为嘉宾就“小作坊如何拥抱大模型”展开讨论。
第一个问题我们就小作坊团队拥抱大模型的机遇与挑战展开讨论。
张瑞表示当前大厂全力拥抱大模型,具身智能等新的应用的崛起是现在的趋势,大家应该全力拥抱大模型。但是对于绝大多数人来说,大多数人都在小作坊,不应该去竞争底座大模型,而应该把目光放在微调大模型。甘新标则认为对于基座模型还是有必要去做,不然说不定未来会被卡脖子,因此我们需要要有自己的大模型。不管做的效果如何,我们还是需要去有一个基座模型,技术可以慢慢积累。周旭认为首先小作坊之间可以进行合作,一起合作来办大事,另外我们还可以积极去拥抱那些有大量计算资源的公司去合作,来相互提升。张书豪认为小作坊是可以做一些大公司目前还没有顾及到的一些特定垂直领域。魏哲巍也表示目前大模型还是有很多的研究点,比如说openAI的O1,目前有很多的小作坊跟着去研究,这并不需要太多的计算资源。因此,目前留着小作坊的机会还有很多。文泽忆则认为大模型像当年的iPhone,华为等大公司可以去做手机追赶iPhone,而其它小公司可以做APP。对于小作坊科研团队而言,现在也是如此,我们可以在大模型上做一些APP应用和做微调。刘松认为小作坊应该将其硬件资源高效利用,小作坊在基础大模型上可能不太好去研究,但是可以在自己的擅长垂直领域利用大模型去做一定的扩展。甘新标则赞同大家的见解,认为大模型确实带来了很多机遇,需要抓住机遇。
由此看来,尽管开发底层大模型需要强大的算力与资金资源,但小作坊团队可以在大模型基础上进行微调或者进行二次开发拓展其特定垂直领域的应用。
思辨环节
第二个问题我们讨论了小作坊团队如何突破数据资源和资金资源的双重限制。叶正表示,对于数据,很多研究可以用合成数据就达到很好的效果,这也是个很好的方向。对于资金,就学生而言可以有很多白嫖的资源,另一方面可以去参加比赛获得一定优惠。对于小作坊科研团队,更重要的是要有想法。周旭通过自己的经验,所属团队花了15年的时间做了一个医疗大模型。在做大模型初期是没有数据的,但团队与南方医科大学合作,利用合作者数据,推动了大模型开发的进展。她建议对于年轻独立的老师,可以拥抱大团队,来作出一些改进。孙昊则认为大模型的出现并没有阻碍科研推动,反而因其具有强大的数据分析和推断能力,可以帮助改善解决以前一些传统问题,我们应该思考如何利用大模型寻找新的科研方向。魏哲巍也表示,大模型的出现是对数据资源一个很好的补充,以前生成图很难,但现在有大模型这个过程就很自然,比如,通过视觉大模型画出时间序列来做分类。他认为通过大模型的zero-shot能力可以很轻易的做到过去很困难的事情。未来是充满希望的。邹逸雄也认为由于数据隐私的问题,很多数据不能完全交给大公司去做,但这本身就是一种机遇,设计算法就为小作坊去服务,例如为医院、警局这种计算资源紧张的提供应用服务。另一方面,结合自己也做小样本学习,认为自己可以一方面转到垂类领域,另一方面研究过程要为网络的机理做更深的解释,这也是大公司不会花大价钱做的事情。张瑞则对此补充,检索增强生成技术(RAG)已经在很多银行、政府落地的项目中被应用,服务大模型的二次开发。侯凯也表示高校的团队对于大模型的研究方向的确认,可以去垂直领域做一些探索,做一些结果,这对研究和教学都很有帮助,垂直类的领域跟好和产业结合,对于通用领域相对比较困难。
张瑞强调大模型垂直领域和L0不是一个概念,有一些技术可以在垂直领域和通用领域可以通用比如说LoRA 矩阵分解,对于数据资源方面,像openAI去非洲国家雇佣人来标注 对我们小作坊来说,我们直接用大模型去生成,比如利用prompt提示大模型来生成质量还不错的数据 另一方面我们可以用一些算法来生成。张书豪则结合自己的研究方向是向量数据库,认为其研究并不会受到这两者影响,相反外部数据库与大模型结合的应用越来越多。魏哲巍认为小作坊还是可以用小模型,或者针对大模型中的小模型来解决大模型的一些问题,这是需要一些技巧和技术沉淀。比如说他所在团队用HPC方法的小模型打败了大模型在情感分方向的问题。他强调作为研究者一定要结合自身条件作可行的科研。陈冠毅表示在交叉学科方面,尽管数据量有限,但有一些高质量的数据,这些数据用于微调训练还是可以训练出有效果的模型。周凤也从工业界角度发表看法,她认为可能目前存在信息不对称,很多公司都提供了优惠的计算资源,然后还有一些开源的平台和工具可以提升计算效率,小作坊团队可以多去了解利用。
从嘉宾们的讨论中可以看出小作坊在拥抱大模型时并没有完全受到数据与资金限制,小作坊团队可以通过数据增强、模型微调以及积极与公司、大团队合作来解决问题,更要抓住大模型所带来的数据资源能力,有效利用大模型探索新的研究方向和解决方案。
我们第三个讨论的问题时小作坊团队如何利用开源工具和预训练模型提升效能。周凤介绍到工业界其实是有一些开源工具来分析训练大模型过程中瓶颈,可以帮助用户做到降本增效。孙昊则认为该问题的解决可以参考初创公司的解决方案,通常他们是如何将大模型运用到自己的垂直领域,特别是一些小公司,他们是用哪些方法来高效训练这些模型。蔡佩桥则是从企业界如何将开源工具变现的角度发表自己的看法,通过生成式大模型自媒体的盈利大大提高,而对于小企业而言,他们的日常办公如文案设计效率都可以在大模型帮助下大大提高。张瑞则认为用AI生成的低质量内容充斥着我们的空间,降低了我们使用的效率,这方面的研究还没做到很好,要考虑到AI幻觉问题,AI生成的内容是错误的。甘新标则结合自己的科研课题如何提升大模型的计算效率分享经验:对大公司来说,他们的节点很多,如何高效利用这些节点来提升计算效率,这个问题还存在很大难度。魏哲巍认为大模型代码开源,使得二次开发调用和部署都非常便捷,不用在线调用其他的大模型;其次对于如何提升大模型的在垂直领域的能力,比如说Llama,这件事情还是很有挑战的,比如侧重训练了它的代码能力,但模型在数学分析能力又会下降,会有一种遗忘现象,这些问题去解决还是很有难度的。张瑞认为大模型中有一个重要的组成部分,就是调用工具的能力。如果说一个任务需要用到多个工具,就会涉及到多个工具的调用和嵌套。前段时间的热门研究方面,多智能体,有一些框架:LangChain等这些可能是小团队进行开发时需要考虑解决的问题。
由此看来,目前对于小团队如何利用好开源工具和预训练模型提升效能正处在积极发展的时期,中间还存在着很多技术难点,尚未有确定的答案,其未来趋势值得期待。
在思辨环节的最后,嘉宾们也一句话总结了对此次论坛的看法。魏哲巍表示自己对于大模型的出现持积极乐观态度,小作坊也应该拥抱大模型。文泽忆表示自己也曾考虑过不拥抱大模型,但他确实是一个有效的工具,我们要学会利用他。甘新标表示小作坊应该积极拥抱大模型,但还是要从自身科研方向出发不能盲从。张瑞认为,对于现在的大模型,我们可以将它比作微信,我们这些小作坊可以在大模型的上面开发各种各样的应用,这也是一个好消息。周旭认为大模型给我们的生活和学习带来了便利,我们小作坊应该拥抱大模型,但也要走好自己的路。张书豪表示,小作坊要避免和大公司直接对抗,可以考虑另辟蹊径。
思辨环节-颁发感谢牌
本次论坛活动在大家的热烈讨论中圆满结束,会后唐卫清给所有YOCSEF AC针对技术论坛筹备等事宜进行了复盘与总结。
全体合影
本次技术论坛的输出观点是:小作坊拥抱大模型时可以有效利用其分析数据推理的能力,要抓住所带来的机遇在垂直领域进行二次开发和微调的应用,这样可以避免对算力与资金的需要,同时可以对传统因数据缺失而受限的研究问题,展开新的研究范式;在进行二次开发等应用时,小作坊团队可以从检索增强生成技术、提升数据质量、寻找多方合作等多角度,解决小作坊“用不起”大模型的难题;小作坊利用大模型还存在计算效率低,调用嵌套多等技术问题,大模型自身仍存在AI幻觉等缺陷,是有待解决的。