2024年11月2日14:00
由中国计算机学会(CCF)主办
CCF YOCSEF厦门 & CCF YOCSEF香港联合组织
技术论坛|视频大模型行业落地应用的理想与现实
在厦门市集美区软件园3期B09金砖创新基地数字经济研究中心举办
图1: 与会嘉宾大合影
本场“告白”学术盛宴经过两地筹备组精心策划,终于如期而至。来自境内外的专家学者云集厦门,共同探讨视频大模型的发展前景。本次论坛得到了厦门市科学技术局、厦门市集美区人民政府、厦门市集美区科技与工信局的大力支持,以及香港科技大学、香港理工大学、北京大学、东南大学、广东外语外贸大学、厦门大学、华侨大学、集美大学、厦门理工学院等知名高校的学术助力。同时,亚马逊云科技、致心科技、美图公司、智融合科技、华为、吉快科技、重构艺数科技、厦门广播电视集团等产业界的专家学者也给予了鼎力支持。论坛聚焦于视频大模型的落地应用,展开了三个辩题的深入讨论,旨在通过智慧碰撞,进一步优化视频大模型的发展路径。
图2: 执行主席&线上主席合影 左起:田雪清、张龙晖、刘东屏、韦康
论坛执行主席由张龙晖(CCF厦门秘书长、CCF YOCSEF厦门学术委员,厦门智融合科技有限公司)和刘东屏(CCF YOCSEF香港副主席、亚马逊云科技)共同担任,线上主席由田雪清(CCF厦门委员、CCF YOCSEF厦门学术委员、金圆集团)及韦康(CCF香港委员、香港理工大学)担任。本次论坛议程主要有引导发言、思辨环节2个部分。
图3: 引导发言1 北京大学袁粒
袁粒(北京大学)为现场嘉宾带来主题为《生成未必理解:从视频生成开源模型到理解与生成统一架构》发言,他阐述通过生成与理解的相互割裂,视频理解限制视频生成,提出生成未必理解的观点,致力于实现国产理解生成一体化原生模型,并展示图生视频的黑悟空游戏视频。袁粒提出视频生成是否收敛到扩散模型?其认为扩散模型虽然目前在视觉效果上最佳,但是其在逻辑推理和生成时长上限制较大,自回归路线更值得持续探索,扩散模型的去噪建模可以作为后处理模块。最后袁粒博士也呼吁同学们积极参与开源项目,在参与开源中亦可发掘很多真实的学术问题。
图4:引导发言2 致心科技陈功
陈功(致心科技)以《音乐生成技术的应用实践》为主题进行了深入探讨。他首先指出,音乐的核心在于情感的传递,而通过脑波分析,我们可以获得直接且客观的情感数据。其次进一步阐述了音乐风格迁移生成算法在作曲模型中的应用,强调符号化的处理方式相较于音频更贴近市场的需求。同时他也指出了行业面临的挑战:高质量的音源多依赖于海外资源,音频转换为符号的过程复杂,版权问题以及优质检索工具的缺失成为行业发展的障碍。
图5:引导发言3 美图公司刘洛麒
刘洛麒(美图公司)聚焦于应用落地,分享题为《以用户需求驱动研发:美图奇想大模型的落地时刻》的演讲。他介绍了美图公司自主研发的美图奇想大模型(Miracle-Vision),该模型融合了美学体系与大模型技术,并在近期进行了全面升级,增强了图像与视频生成功能,旨在为电商、广告、游戏、影视和动漫五大行业提供支持。刘洛麒通过实例展示了模型的部分功能,如AI写真、AI动漫、AI商品图和AI模特试衣等向与会嘉宾们展示了美图奇想大模型在实践应用中的震撼效果。
在短暂的茶歇之后,嘉宾们带着引导发言的热烈气氛很快切入圆桌思辨,渴望在交流中擦出思想的火花。此环节由本场论坛议题设计者许清泉(CCF YOCSEF厦门学术委员、美图公司)担任特邀主持人,执行主席刘东屏协助主持,全过程中,他们以承前启后的流畅过渡,引导现场嘉宾深入探讨,确保了讨论的连贯性与深度。
图6: 与会现场部分剪影
正方:视频大模型生成视频的良品率是可控的。
随着人工智能技术的不断进步,特别是深度学习和神经网络的发展,大模型在视频生成方面的能力显著提升。通过大量的数据训练和算法优化,这些模型能够更好地理解视频内容的语义和结构,从而提高生成视频的质量。此外,通过人机交互和反馈机制,可以对模型进行持续的训练和调整,使其生成的视频更加符合用户需求,达到较高的良品率。因此,视频大模型生成视频的良品率是可以通过技术手段进行有效控制的。
反方:视频大模型生成视频的良品率是不可控。
尽管人工智能技术在视频生成领域取得了显著进展,但视频内容的复杂性和多样性使得大模型难以完全掌握所有细节。视频生成不仅涉及图像处理,还包括音频同步、情节连贯性、情感表达等多个维度,这些因素都增加了控制的难度。此外,用户对视频质量的主观评价差异较大,很难有一个统一的标准来衡量“良品”。因此,即使是大模型也无法保证每次生成的视频都能达到满意的良品率,从而使得视频生成的良品率具有不可控性。
笔者认为,以图像为引导的视频生成,通过技术迭代,良品率在一定程度上可控,但仍面临挑战,尤其是长视频和复杂内容的语义对齐。2C市场的视频生成难度较大,而2B市场相对可控。虽然视频片段生成可控,但全程视频AI生成难以实现。当前技术能满足基本片段需求,但未达到专业级,视频修复和照片动态化的良品率较低,不易控制。视频生成的主要难点在于生成符号而非直接视频。
在此议题中,依旧讨论热烈且观点鲜明:
正方:基于国产芯片软硬件生态落地更为合适。
首先,国产芯片和软硬件生态的本地化研发和生产能够更好地满足国内市场的需求,适应国内的政策环境和市场特性。其次,国产芯片的发展有助于提升国家在全球半导体产业中的竞争力,减少对外部市场的依赖,保障国家信息安全。再者,国产软硬件生态能够促进国内产业链的完善和技术创新,带动相关产业的发展,创造更多就业机会。因此,从长远来看,基于国产芯片软硬件生态的落地更有利于国家的战略发展和产业升级。
反方:基于非国产芯片软硬件生态落地更具优势。
非国产芯片,尤其是来自国际领先企业的产品,通常在技术成熟度、性能稳定性以及全球市场认可度上具有明显优势。这些芯片和软硬件生态经过全球市场的验证,能够为用户提供更加可靠和高效的服务。此外,非国产芯片生态拥有更广泛的国际合作和资源共享,有助于中国企业快速融入国际市场,提升国际竞争力。而且,非国产芯片的丰富生态能够为企业提供更多选择,降低研发成本和风险。因此,从现实应用角度出发,基于非国产芯片软硬件生态的落地可能更为实际和高效。
综上所述,笔者认为AI视频生成技术的发展和应用,不仅是技术层面的竞争,更是国家层面的战略布局。国产生态的发展需要企业、学校和研究机构的共同努力,通过不断优化和适配,实现技术的自主可控,从而在影视行业乃至更广泛的领域中发挥更大的作用。
本议题为开放式讨论,与会专家们纷纷表达了他们的见解和展望,部分发言如下:
王放(厦门广播电视集团)首先指出,尽管传统影视行业目前正处于一个低迷期,但视频生成模型在特定领域的应用仍然是必要的。他提到了几个具体的场景,比如视频包装、配音以及老画面的修复的迫切需求,这些应用可以提升制作效率,降低成本,同时也为传统内容注入新的活力。陈功(致心科技)紧接着进一步扩展发言,他认为人工智能不仅在音乐制作领域可以帮助降低成本,使音乐传播更加便捷,视频生成技术也将达到类似的效果。这意味着AI技术有可能成为影视行业转型升级的重要推动力。刘洛麒(美图公司)则从另一个角度出发,他认为生成式视频目前更多是作为一种辅助工具存在。但随着技术的不断进步和性能的提升,未来人工参与的比例将会越来越少,生成式视频的应用范围和影响力将不断扩大。陈铎(AINEXT)具体化说明AI在影视制作中的应用场景,他指出片头、场景化的内容以及片段性的视频完全可以由AI来完成,这不仅能提高制作效率,还能为创作者提供更多创意空间。张龙晖(智融合科技)结合自己的观察,提到厦门影视行业与AI技术结合有着很好的切入点。这表明在不同地区和市场中,AI视频生成技术有着广泛的应用前景。赵集民(睿优智造)则从产品开发的角度提出了自己的看法,他认为研发一个完美产品的成本过高,而且市场并不一定需要绝对完美的产品。相反,一个可用的、能够满足基本需求的产品往往更受市场欢迎。
图7: 感谢牌颁发
4个小时脑力激荡时间飞速而过,论坛接近尾声。两位执行主席对本次论坛进行小结,并对活动赞助方美图公司、金砖创新基地数字经济研究中心表达感谢,为引导嘉宾、思辨嘉宾颁发感谢牌,同时也感谢每一位热情参与现场的嘉宾们,感谢筹备组所有成员。在周奕毅(CCF YOCSEF厦门主席、厦门大学)的链接下,本次活动也得到了CCF YOCSEF总部金一(YOCSEF总部副主席)、陈小军(YOCSEF厦门联系AC)以及贺瑞君(YOCSEF香港联系AC)远程悉心指导。期待更多的牵手、告白在CCF上演,期待12月7日《大模型-万卡训练的存算之道》技术论坛再会…