2023年5月20日下午于浙江省温州市香格里拉大酒店的丽水厅,CCF YOCSEF上海在2023年CCF青年精英大会(YEF)上,举办了“大模型时代下的数据资产与人工智能治理”技术论坛,论坛由YOCSEF上海前任主席裴颂文教授,新加坡管理大学朱飞达副教授共同担任执行主席。YOCSEF上海荣誉委员熊贇、YOCSEF上海副主席李洋,AC委员颂文、冰雪、马骏、泽良,通信委员郭畅、文杰,以及王加溢、赵勤,YOCSEF总部主席、北京邮电大学教授高志鹏,昆明分论坛主席、云南师范大学教授赵样,昆明分论坛、云南大学副教授赵娜,以及来自全国各地高等院校、科研院所和企事业单位的专家、学者50余人参加了论坛。
论坛主要分成两个环节,分别是嘉宾引导发言和思辨环节。在引导发言环节,4位嘉宾从大模型时代下的数据资产与人工智能治理如何突围的4个维度进行了技术分享;在思辨环节,嘉宾与听众们对四个数据资产和人工智能治理的问题进行了深入讨论,现场气氛十分的热烈而有序。
第一位嘉宾是来自华东师范大学的金澈清教授,分享了题为“基于区块链的数据资产管理”的引导发言。数据是第五生产要素,从农业时代到工业时代,再到数字时代,数据已经成为了影响社会进程的重要因素。区块链是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,其本质是利用数据和数学构建信任。本次报告介绍了在区块链相关领域的研究进展,即该技术在供应链、人工智能、教育等领域的应用,以及区块链管理数据资产所面临的挑战。
第二位嘉宾是来自复旦大学的熊贇教授,分享了题为“数据资产与数字化转型”的引导发言。随着数字技术的不断进步,数据已经成为驱动产业创新和发展的一项重要资源。数据资源可以满足预期会带来经济利益,拥有或者控制的资源,由过去的交易或者事项形成的。数据资源符合资产的定义和特征,可看作一种资产。本次报告介绍了数据资产的概念及其性质,提出了数据资产化框架,分析业务以及管理数字化转型的特点,并探讨了如何利用数据资产来赋能数字化转型。
第三位嘉宾是来自新加坡管理大学的朱飞达教授,分享了题为“协同智能场景下的数据治理:挑战与前沿”的引导发言。报告介绍了协同智能的两个核心部分:信任和激励。信任基于可信计算的数据绑定,建立事物的关联证明,基于分布式计算的数据同步与存储,让建立起来的事物关联证明不可篡改。而在激励方面,数据资产化,数据资产互操作性,数据资产生态和安全资管都是十分重要的。
第四位嘉宾是来自蚂蚁集团的资深技术专家张荣华,分享了题为“大模型时代下的数据架构及智能化治理系统设计”的引导发言。介绍了蚂蚁数据架构的3大阶段,从架构上找到问题的根本原因,提高了可运筹优化能力,从1.0起步阶段发展到2.0常态化-自动化阶段。在大型企业的数字化转型和升级过程中,随着业务增长,数据多样性,数据量,表数量急剧增加,又由于数据直接存在复杂的依赖关系,导致数据系统的混乱程度持续增加,因此设计出了新一代大数据架构及治理系统,有效减缓了熵增,实现高效的自动化智能化治理。同时,基于大模型的网络优化,将会为数据仓库建设及治理进一步提效。
颁发引导发言嘉宾感谢牌
听众提问
在思辨环节,5位嘉宾与观众共同深入探讨了4个思辨问题。
思辨问题一:人工智能和数据智能的不断发展,特别是大模型的飞速崛起,为数据资产,数据要素市场和数据治理带来的是更多机会还是挑战,还是两者都有?
金澈清:大模型对于数据模型的话既有机会又有挑战。大模型能给我们做出一些解答,且准确性较高。但同时也依赖于语料库的质量,需要趋利避害。
朱飞达:机遇大于挑战。大模型需要很多的数据,把大家或多或少都拉到了同一起跑线上,数据的重要性因此凸显了出来。同时也有人会认为是个风险,例如GPT的接口是否还能用,成本是否可控,所以如果存在一个去中心的的GPT,能保证没有人能拔电源是十分有必要的。
熊贇:有挑战才有机遇。对于数据和技术两者是相辅相成的,当技术发展到一定阶段就有了充足的数据。数据越来越多带来了更多挑战,带来了更多的机会,两者是交替前行的。
张荣华:大模型支撑是必不可少的,也需要基础设施和算力的支持。各行各业受大规模的冲击也是非常大的,如果没有跟上趋势,在市场份额会有所下降。竞争对手如果跟上了趋势,则用户满意度就会受影响。所以挑战同时也促进了企业的进步。
赵样:同时挑战与机遇并存的。会有熵增的过程会不断上升和下降,最终呈现螺旋式上升。我们可能会关注更多领域之际的复杂网络构成的大模型。
裴颂文:在学术界的这些问题带来了许多新的研究方向,同时在企业接触到用户的一线需求,这些需求是真实反映在产品上的。在蚂蚁集团,遇到过哪些挑战,做过哪些迭代?
张荣华:大模型对服务于蚂蚁内部的产品的冲击也是十分明显的。微软发布的相关产品给人们带来更高效的便利同时,但国内的产品并没有跟上浪潮,最多利用了GPT接口,无法对具体语料进行微调,但最终的效果是比不上竞争对手的。如果放到市场上,那用户的倾斜度将会更高一些。需要跟上浪潮,才能在竞争中获得用户的认可。
裴颂文:想谈一谈ChatGPT对教育带来的变化,教育中的一些列数据,如何管理这些数据,大模型是否会对教育模式带来一定的革新?是否会借助大模型的工具应用到教学中?
赵样:ChatGPT的问题十分受关注。在目前的教育形态下,一直鼓励以学生为中心,能不能利用大模型促使学生进行完全自主化的学习也是我们十分关注的。目前来看,技术是比较成熟的,但缺乏成熟的体制去应用,另一方面,教师资源是跟不上的,教师所做的教学设计是没有做分层的。传统教学领域中,教师的作用还是非常大的。但在终身学习领域中,大模型还是能做很多事情的。
金澈清:不管有没有大模型,我们当老师都是越来越不容易。之前学生对老师的依赖是比较大的,但现在学生可以接触到更好的资源,如慕课。好的教学资源确实有更好的教学效果,这对老师的要求提出了很高的要求。听说学校有学生用ChatGPT改论文的,还有学生用ChatGPT写作业。离开了这个帮手,学生可能学习也会受影响。
熊贇:有了大模型以后,第一点,不应该担忧谁会被淘汰,因为一直会有新技术的更替。但更重要的是对数据思维更加关注,有了大模型后,我们需要提高的数据能力更强了。第二点影响是我们做科学研究或者产品研究来说,大模型所带来的伦理问题和意识形态方面是我们需要考虑的,因为大模型会带来一定思想上的引导。大模型国内一直都在做,只是现在大家会看到在通用领域会做的更好。我看到的很多实验室和企业,他们在各自的垂直领域其实也已经有了很好的基础,不断地提出模型的各种假设和应用。虽然大模型这件事件是目前比较热的概念,但这件事其实大家都是一直都在做的。
朱飞达:第一个点,作为教师来讲,自己的讲课内容是否可以模块化,根据学生的情况进行组合。第二个点,是激励模块。现在有很多新的方式做一些教育激励,包括现在的在线教育。激励机制既能调动学习积极性,又能通过数据收集学生的技术栈,能更好地适配学生的工作。像这样一些的激励机制,是未来可能会发展起来的。
思辨问题二:在未来数据资产和治理的发展中,哪些技术方向和研究课题是最值得关注和投入的?
熊贇:我是持比较保守的观点。这么多年以来,看到很多新的词不断出现,技术不断进步,但比较核心的数据本身其实并没有发生任何变化,这些任务也没有发生任何变化。我们最近也用ChatGPT这种大模型去结合新闻事件对股票市场的预测以及情感分析,但这些任务还是原来的任务。对于学生来说,选定一个自己感兴趣的方向,以导师和实验室方向契合的角度来考虑更为重要。并不要求过分追求热点,更多的是抓牢自己本身的兴趣和导师的方向,再结合新技术做一些创新。
赵样:关于这个问题,我结合自身来谈谈自己的看法。在研究生阶段,去解决一个实际问题,去找到一个比较好的方向,和你的专业领域和导师的方向契合,如果想要在科研这条道路上走的更远,研究生可以更聚焦一些,盯紧一个领域做下去。
朱飞达:还是要聚集于基本的问题。计算机分解到最后还是一些基本的问题。计算思维和数据思维将来应该是一种每个人都应该具备的基本能力。不管技术怎么发展,这些都是共通的。
金澈清:未来数据治理方面会发生什么情况,再看大模型是否管用。先有问题才有解决方案。如果大模型是不管用的,可以考虑换一种新的应用,用这样的一种思维去考虑问题。数据治理问题已经存在很多年了,但到目前为止都解决的不够好,不够好的原因是问题变复杂了。而问题复杂是多个维度的,一个维度是说数据的规模变大了,另外一个维度是说数据的关联性变多了,还有一个维度是说数据的质量变差了。在这样的情况下,一些传统方法不太管用了。在未来可以关注,是否可以将多维数据的融合方面,数据质量的提升方面能够做出一些比较好的进步。
思辨问题三:除了大模型,还有哪些新的发展会对数据资产和治理产生大的影响,比如元宇宙,Web 3,AIGC?
赵样:从教育领域出发,随着元宇宙、web3、大模型的提出,很多领域都在进行讨论,它们对大数据的推动都是非常大的。元宇宙和web3的不断向前发展,必定产生更多的多模态的数据,对数据治理和数据挖掘等各个领域也提出更高的要求。
熊贇:数据积累多了,新的技术就产生了。不管哪个新的技术产生,对数据的不同角度都会有不同的影响,不管是刚刚赵老师讲到的模态方面,还是金老师刚刚提到的数据质量方面,其实都是有带来挑战的,所以对于数据治理方面是有新的工作要做。不论还有哪些技术的产生,但最终还是回到了数据的技术,使得我们对数据治理和数据资产等等方面有更多的影响。
朱飞达:现在数据的形态更多了。最早研究的数据是从数值数据开始的,到后来文本计算,线上数据,现在又到了区块链的链上数据。随着数据的量越来越大,形态越来越多,对我们未来各方面都会有很大的影响。
金澈清:我认为对数据做全生命周期的管理是比较重要的点,未来需要建立数据中台。数据中台可以理解为新一代的互联网数据库,可以从数据的全生命周期,数据的融合,数据的质量提升,进行全方面、多功能的数据管理。有这样的中台,为我们企业或者具体任务能提供更大的支持,所以在未来建立数据中台是十分有必要的。
思辨问题四:在这些方面,学界,产业界和政府,社会如何更好合作?
朱达飞:随着大模型的出现,学术界不太好做,需要很大的资源,数据也大多在公司手里。我们要去思考学术界的优势在哪里,原来的小模型将何去何从。大模型的能力很强,但功耗过大,对生态环境还是有很大的压力。而小模型在功耗方面有一定的优势,类似于这样的问题是可以研究的。从政府方面来看,伦理问题,可解释性问题,公平性问题也是很明显的。像现在比较火的GPT可能要暂停一下,需要立法介入。所以政府、学界和企业界还是有许多可以合作的地方的。
赵样:大模型在数据治理的方面发挥了很大作用。在做智慧城市智慧大脑的时候,包括数据治理,我们是自顶向下地定义数据,让数据的采集和生成的源头遵从一定的规范,还是后期再去做数据的管理。在这其中,其实政府应该发挥出协同和统筹的引领作用。在基础教育领域,我们也做了一些研究,比如每个班都有智慧班牌,小学生和中学生学习状态的采集,包括眼动、表情和肢体等等数据。同时,在校园里我们也做过一定分析,比如人工智能应用于小学体育教育。但同样都会面临到一个问题,比如涉及到隐私和数据安全的问题。其实这些数据是没办法将它推广并应用的,所以政府在立法上,数据保护各方面上,都应该发挥更多的作用。
熊贇:大模型带来最值得关注的点,和大数据刚出来的时候,让更多老百姓都知道这样的技术,大模型也产生了这样科普型的效应。让更多人知道了大模型可以带来社会的影响和推进,由此引发了政府更好的关注民生。学界提供技术支持,辅助业界的应用,更好的将成果落地转化。对企业来讲,有了政府的支持,学界的技术支持,有了大模型之后,gap缩小,有了更新的技术,用更正能量的方式对社会做出更有用的贡献的产品。
金澈清:这个问题涉及到企业、学界和政府,而源头在企业,企业有需求,解决问题是最重要的,企业能够把场景和数据从源头上打通,和学界有交叉互动,促进行业整体发展。从宏观来说,是个信息技术产业,这个产业本身,好的发明都来自企业。整体来说,对产业界的促进和发展比较快的。政府也很重要,需要制定相关政策,促进整个产业的发展。主体要从企业来发起,这样的话,总体的生态是有活力的。
裴颂文:从政府的视角来说,政府更关注民生的问题,民生的问题会诞生出来自老百姓真正的需求。在现在的形态下,政府也要做数字化转型来解决这一系列问题。现在不光是企业认识到数据的管理十分重要的,政府也是十分重视的。制定了一系列惠企的政策和产业引导文件,比如设立首席数据官,规范数据治理。成立大数据管理部门,承担政府数据资产的建设、管理和维护。
最后,论坛执行主席裴颂文做了论坛的总结与展望。期待大模型的应用能成功突围数据资产与人工智能领域的技术惯性和传统社会观念。