CCF YOCSEF青岛首次在YEF上举办博学堂论坛——“薛定谔的RS”:你被推荐系统猜中了吗？ - 论坛

推荐系统是一个热门的话题和技术领域，且在我们的日常生活中随处可见，如网上购物、新闻资讯、电影推荐和短视频推荐等。其强大的自动推荐能力无疑成为提升推送效率，增强用户黏性的“利器”。然而，在繁荣数字经济、推动社会发展的同时，推荐算法过滤、算法操纵、算法黑箱、算法短视等一系列问题凸显。2022年8月，全国首例“算法推荐”案的判决提醒我们，在打造比自己更“懂自己”的算法推荐服务的同时，也要做到技术可信与用户信息保障之间的良性动态平衡。在这样的背景下，中国计算机学会青年计算机科技论坛（CCF YOCSEF）青岛分论坛于2023年5月19日在温州CCF青年精英大会（YEF2023）上举办了博学堂论坛——《“薛定谔的RS”:你被推荐系统猜中了吗？》。本次论坛邀请到了推荐系统、信息检索和大数据等方面的专家学者，从专业技术的角度围绕可信推荐、隐私保护、过滤过度等问题展开研讨。

本次论坛由YOCSEF青岛AC委员刘金环（青岛科技大学）与青岛现任主席于彦伟（中国海洋大学）担任执行主席，CCF YOCSEF青岛21-22副主席孙丽珺（青岛科技大学）担任线上执行主席，由CCF YOCSEF青岛学术委员会、青岛科技大学信息科学技术学院和中国海洋大学信息科学与工程学部协办。中国科学院计算技术研究所研究员沈华伟，山东大学计算机科学与技术学院助理教授辛鑫，香港大学计算机学院助理教授黄超，山东师范大学副教授郭磊，合肥工业大学张琨博士，作为引导发言嘉宾线下出席。武汉大学教授李晨亮作为引导发言嘉宾线上出席。除五位到场的嘉宾外，我们还邀请到华南农业大学数学与信息学院副教授黄栋，作为思辨嘉宾出席。CCF YOCSEF青岛21-22主席李昕（中国石油大学）、22-23主席包永堂（山东科技大学）、学术秘书傅真（山东优谷有鹿数字科技有限公司）和晁国清（哈尔滨工业大学(威海)）、AC委员王玲玲（青岛科技大学）、艾崧溥（多数科技有限公司）、YOCSEF总部AC委员赵恺（中科院自动化研究所）、YOCSEF深圳22-23年主席汤步洲（哈尔滨工业大学（深圳））、YOCSEF上海22-23年主席裴颂文（上海理工大学）、YOCSEF济南现任主席孟雷（山东大学）、YOCSEF广州副主席刘同来（仲恺农业工程学院）等来自全国多所高校及企事业单位的70余人线下参加了本次论坛，900余人通过腾讯直播平台线上参加了本次论坛，1000余人通过YOCSEF青岛公众号关注了本次论坛。

在论坛的引导发言阶段，沈华伟研究员以“互联网信息服务算法推荐治理的实践与思考”为题，介绍了国家网信办等部门出台的《互联网信息服务算法推荐管理规定》，从服务规范、用户权益等角度针对生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等五大类互联网信息服务算法应用进行规范。还进一步介绍了互联网信息服务算法治理所着眼的问题、治理实践及思考，并对互联网信息服务算法安全治理的技术路径进行探讨。

辛鑫教授以“基于离线强化学习的推荐系统”为题，介绍了如何使用离线训练数据来构建基于强化学习的推荐系统方法。该方法主要包括结合监督学习与对比学习的训练方法，以及基于奖励引导的训练方法。推荐系统旨在改善用户体验，由于强化学习非常贴合这一目标——最大化用户在每个会话的累积奖励，因此使用强化学习去构建推荐系统是一个很具有前景的研究方向。然而，在离线训练的场景下，设计基于强化学习的推荐算法并不容易。具体而言，传统强化学习的关键在于使用大量的在线试错训练智能体，因此在训练过程中会产生许多试错经验。然而，在推荐场景下，在线试错代价高昂。因此，在推荐场景下，智能体需要通过以前推荐策略产生的离线数据进行训练，而传统的强化学习算法在这些离线训练设置下可能导致次优的策略。

张琨博士以“融合文本信息的用户个性化建模及可解释推荐”为题，从评论与用户-产品二部图融合的角度提出了评论感知图对比学习框架（RGCL)，以及从如何主题层面理解用户行为展开研究，提出了主题增强的图神经网络可解释推荐的方法（TGNN）。用户评论作为用户观点和态度的体现，是用户个性化建模的重要组成部分。然而，在用户与产品交互的二部图中，直接将评论作为节点的属性信息无可避免的会引入噪声，从而限制了推荐效果。如何实现高效的评论信息挖掘以提高推荐质量以及可解释性，成为用户个性化建模及推荐系统研究的一个重要挑战。

黄超教授以“鲁棒推荐系统的研究”为题，介绍了如何设计更为鲁棒的推荐系统从而解决实际场景中的两个关键问题：1) 现有推荐算法的效果极大程度上依赖充足、准确的用户交互记录作为监督信号，在监督信号稀缺的情况下，很难学得准确、高质量的用户、商品表征。2) 数据噪声和倾斜分布问题阻碍模型进行有效的用户、商品交互建模，导致现有基于图的协同过滤模型偏向于预测流行商品，并在面对交互数据稀缺的用户时会出现严重的效果退化。推荐系统能够帮助用户缓解信息过载问题，近年来在线上购物、流视频网站、地点推荐等各类网络应用中发挥了越来越重要的作用。为了更准确地对用户偏好进行建模，协同过滤方法将用户、商品嵌入语义空间，可使用表征向量压缩观测到的用户、商品交互数据。

郭磊教授以“面向共享账户的跨域序列推荐算法”为题，介绍了一种更具一般性和挑战性的跨域推荐应用场景，即面向共享账户的跨域推荐任务。由于共享账户的存在，使得该任务主要面临两方面的挑战：1）由于共享账户的行为是混合在一起的，使得已有算法很难产生相关的推荐结果；2）由于缺乏对用户身份的识别，使得跨域传输可能是无效的，甚至带来负迁移问题。本报告重点介绍了针对该任务所设计的两种不同解决方案，即基于图卷积神经网络和强化学习的跨域推荐算法。

李晨亮教授以“多场景融合的搜推系统前沿进展”为题，从特征重构、知识共享、模型结构优化、预训练模型等多个角度介绍了当前多场景融合的搜推系统进展。指出搜推系统已渗透进生活与工作的各个角落，现阶段不同场景往往相对独立，各类场景定制的搜推模型不断更新。如何打破不同场景之间的数据壁垒，推进全方面的用户需求理解，改善低资源场景的性能、降低智能化服务的成本是目前业界较为关心的问题。

引导发言阶段结束后，论坛进入Panel环节。会场的6位嘉宾围绕5个议题展开了思辨研讨。

议题1：如何建立一个可信推荐系统,进而破除推荐系统的“叠加态”魔咒？

黄栋：推荐系统也好和数据安全，涉及到多个层面的力量博弈，包含政府、用户以及企业，所以它并不平衡。另外，用户的视角具有一定的盲目性，把选择权和知情权直接完全交给用户，可能也并不适合。

华伟：可信的这件事是一个主观的事，把技术和技术在社会中的运用，以及个人对技术理解的结合程度，创造一个综合的客观评价。

黄超：它更多的不是关注一个推荐系统的精确性，而是需要一个公平性的属性，如通过保护用户的隐私或是推荐之后让用户有一个更好的体验，这种可信赖的推荐系统可能会更值得去研究。

辛鑫：非常赞同沈老师的观点，可信的需求是非常客观的，可以引入多视角去了解平台、用户和政府要优化的分别是什么。每一个人对可信推荐系统的理解都是不一样的，需要加强个性化的推荐系统。

张琨：可信的标准目前其实是不确定的。对于不同的角色而言，每个人对可信的理解是不一样的。目前来讲的话，还是需要有这种更明确的一些定义或方向，才能去讨论怎么去实现。

郭磊：用户觉得不可信是因为没有参与到推荐过程中去，大多数情况下推荐算法像一个黑盒子，因此可加强其可解释性。

议题2：你被推荐系统锁定了吗？推荐是否过度？是否有漏网之鱼？

郭磊：有时希望随机的推荐，按照偏好推荐确实存在漏网之鱼或过度推荐。

张琨：认为现在的推荐是过度推荐。企业希望不漏掉任何可能的用户。可参考大模型，采用随机策略保证推荐更多样。

辛鑫：每个人都有自己的体验。可能目前没有很好的算法推荐这样的场景，比如医院分诊台，对推荐系统有更高的要求，在很多民生领域存在很多漏网之鱼。

沈华伟：度很难讲，从同质化和多样化角度来讲。从需要、特殊群体来看，很多普及技术对特殊群体来说并不了解。要把推荐看成一种服务，而不仅仅是技术。

黄超：不用完全关注算法准确性，推荐系统生态中，更多关注用户长期的体验，衡量短期的精确度会造成用户流失，要考虑长、短期的效果。

黄栋：投喂信息是否存在导向型问题需要关注。度无法量化，投喂目标是否可以量化。有兴趣的基础上要考虑有社会责任感和价值观的信息。

议题3：你更关注推荐的准确性，还是更加关注保护用户隐私呢？

黄栋：准确性不是很好的度量。用户隐私保护要适度，用户视角更local，期望更全局的视角。

黄超：很多APP没有用户隐私，有时APP可以用，但不要给其他人应用。从公平角度，应该用完消除数据和影响，需要更灵活的编辑。

沈华伟：企业认为技术上很难做到消除数据和影响。没有安全只有平凡，因为平凡所以安全。隐私和精确性是从两个角度来说的。

辛鑫：需要定义什么是隐私。对推荐算法提隐私难以实现和管理。是否有责任向用户批露用了哪些数据。

张琨：目前无法做到删除数据和学到的知识，但可以做到达到准确率标准的情况下用哪些数据就足够了。

郭磊：隐私是分层级的，对于隐私的保护从立法角度执行和监管需要更大的努力。违反协议跨平台使用数据的情况需要避免。

沈华伟：隐私界定并不严格。国家保护了知情权和选择权。认为从扩大了使用和知悉范围来界定更好。

议题4：推荐系统是否在无形中禁锢了我们，应如何打破推荐技术的“过滤气泡”？是否会造成“群体极化”？

沈华伟：每个人都生活在自己的茧房，推荐系统会带来更紧的气泡。未来更多的考虑认知安全。很多是社会问题，不仅仅是技术问题。

黄栋：从过去主动查找到现在的被动接受，行为模式的改变有利有弊。获取知识能力发生了改变。

辛鑫：推荐算法是系统和人的交互，是否对人也有要求，限制某些使用，长时间收到推荐信息是否对价值观念有改变。根据认知能力分级是否更合理。

郭磊：对青少年来说，推荐系统会加速禁锢的行为，系统层面应承担更多的责任。

张琨：每个人都非常喜欢看到自己喜欢的东西，推荐系统加速了这种情况，应避免“夹带私货”。

黄超：要打破信息茧房还是很困难的。算法可在重排环节增加推荐内容的多样化，要牺牲掉短期的精确性。鼓励生成多样化。

议题5：推荐系统的生态如何改善才能使其更规范的成长？

黄超：当前太过度追求精确度，更多鼓励大家追求公平性、可信赖、隐私保护。

黄栋：企业看到的更多是业务量的成长，生态应该更体现社会责任感，对社会贡献的增长。目标导向怎么定义，需要思考短期刺激和长期收益。

沈华伟：推荐系统有自己的生命。优化的目标是能活多久，如何一直被大家用。

辛鑫：学术界定义的推荐系统与工业界的定义有很大差距。企业需要有社会责任感。在学术界需要论文的insight，而不是与baseline的比较。

张琨：生态改善需要先活下来，是否可以改善评价推荐系统的标准，有了多维度指标才能有动力去做，不仅仅是收益，还要有社会责任感等。

郭磊：推荐系统是能活下来也跟应用场景有关。

在panel环节后进入自由思辨环节，现场观众向各位嘉宾进行了提问，受邀嘉宾和现场观众进行了热烈讨论。最后，YOCSEF青岛分论坛主席于彦伟做论坛总结，感谢邀请嘉宾的精彩报告和观点分享，感谢所有参加的观众和组织人员。历时四个多小时，本次论坛在热烈的会场氛围中圆满结束。欢迎大家继续关注CCF YOCSEF青岛的微信公众号，关注我们的后续活动。

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum