技术论坛 | 存储如何助力大模型推理提速？ - 论坛

4月10日下午，一场以“存储如何助力大模型推理提速？”为主题的观点论坛在厦门大学翔安校区益海嘉里楼302室成功举办。本次论坛由中国计算机学会（CCF）主办，CCF YOCSEF厦门分论坛组织，汇聚了来自国内顶尖高校及产业界的专家学者，共探大模型时代的存储瓶颈与破局之道。

市委组织部骆磊作为特邀嘉宾出席。厦门大学信息学院教授沈志荣和副教授高聪明担任本场论坛的执行主席。

厦门市委组织部骆磊

论坛伊始，执行主席高聪明介绍了论坛的背景与议程，指出在算力需求激增的当下，打破“存算墙”、实现大模型推理的降本增效，已成为学术界与产业界共同面临的核心课题。

在引导发言环节，三位嘉宾从不同技术路线分享了前沿洞见与产业实践。

厦门大学付印金副教授带来了“面向大模型的存储缩减技术浅析”。他直击技术痛点，指出在大模型推理中，长上下文与多并发场景会引发 KV Cache 存储开销的急剧膨胀，使其成为制约推理性能与部署成本的核心内存瓶颈。针对这一挑战，他展示了通过PCA去相关、自适应量化以及熵编码等核心方法，如何实现极致的压缩与性能跃升。

中山大学副教授付印金

群联电子高级研发总监刘安城围绕“生成式AI本地部署解决方案”展开分享。他以Openclaw一周内爆红，却因云端Token调用成本过高而迅速下架的实际案例，揭示了云端大模型高昂的使用成本痛点。基于此，他详细介绍了群联aiDAPTIV技术的方案。该方案通过NAND Flash扩展GPU与内存，大幅降低机器成本，使得边缘设备能够有效运行高达120B参数量级的开源大模型，从而加速大模型微调与推理的广泛落地。

群联集团厦门佳芯电子有限公司总经理刘安城

华为闪存存储算法首席研究员陆奕瑾聚焦AI存储推理加速方案技术分享。她强调，随着智能体应用大模型推理进入深水区，满足严苛时延下的高性价比吞吐已成为唯一的衡量标准。为解决现存的“内存墙”问题，行业必须从纯算力堆叠的传统架构，全面走向基于共享外置存储的存算融合架构，并通过加速库协同层级化存储系统，实现全流程的推理加速。

华为AI存储解决方案架构师陆奕瑾

随后的思辨环节将论坛推向高潮。围绕“大模型推理的存储瓶颈主要来自哪里？”“在硬件无法改变的情况下，如何通过软件手段进行存储侧的推理优化？”以及“未来大模型推理阶段，存储还会是主要瓶颈吗？”三大核心议题，特邀嘉宾北京理工大学张法教授、厦门大学唐璐副教授、厦门大学吕熠娜老师与现场观众展开了深入交锋。

北京理工大学教授张法

厦门大学副教授唐璐

厦门市智能存储与计算重点实验室助理教授吕熠娜

现场讨论指出，边缘端推理目前面临的不仅是单点硬件性能瓶颈，更是整体系统架构的局限；在存储系统设计上，容量与吞吐并非完全对立，而是需要结合具体的业务并发量与时延要求进行分层化、智能化的动态平衡。多位与会者达成共识，软硬协同优化与层级化存储是当前解决本地部署难题的最优解。

本次论坛厘清了当前大模型存储加速技术的发展脉络，促进了产学研用的深度交流。与会专家一致认为，突破存储技术瓶颈是推动大模型从云端走向边缘、真正赋能千行百业的必经之路。论坛的成功举办，为探索更高效、低成本的大模型推理方案提供了明确的技术方向与行业参考，标志着学界与业界在破解算力与存储解耦难题上迈出了务实的一步。

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum