大数据技术的发展正深刻地改变着我们的生活。一方面,随着大数据技术在各行各业的延伸,孤立、零散的信息得到了有效整合、利用,数据蕴含的价值得以发挥;另一方面,现实应用中的数据所具有的语义复杂、异构多源、海量高维、动态多变等特点,又对科研学者提出了新的挑战,我们该如何应对?
2015年10月17日,CCF YOCSEF成都分论坛将在四川大学江安校区计算机学院学术报告厅举办“大数据技术前沿研讨”专题报告会,本次论坛邀请多位在数据分析领域科研成绩斐然的青年学者与您近距离交流互动,共同探讨当前大数据技术与应用的热点问题。
特邀讲者 李国良
清华大学计算机系副教授。主要研究方向为数据库,群体计算,海量数据挖掘、分析与检索。在数据库、数据挖掘、信息检索领域的顶级会议和期刊上发表论文60余篇,他引2500余次,入选爱思唯尔2014年中国高被引学者榜单。主持国家优秀青年基金、青年973等项目。获得了IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖)、计算机学会青年科学家奖、教育部新世纪优秀人才等奖项。担任IEEE TKDE编委,FCS编委,Elsevier Big Data Research编委,多次担任SIGMOD、VLDB、KDD、ICDE等会议的程序委员会委员。获得过数据库领域重要国际会议DASFAA’14的最佳论文提名奖,APWeb’14最佳论文奖,EDBT’13大数据比赛冠军。获教育部自然科学奖二等奖(2013年,第四完成人)、计算机学会自然科学奖二等奖(2013年,第一完成人)。
演讲题目:大数据群体计算
演讲摘要:大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战。一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求;另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术。针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,基于人机协作的群体计算是有效的解决途径。大数据群体计算是一种新型计算模型,其目的是通过整合互联网上大量用户和计算资源来处理现有计算技术难以解决的大数据问题。本报告将介绍大数据群体计算的研究现状,面临的挑战以及发展趋势。
特邀讲者 毛睿
深圳大学计算机与软件学院副教授,主要研究方向为通用大数据管理分析方法和高性能计算;分别于1997年和2000年在中国科学技术大学计算机科学系获学士和硕士学位,于2006年和2007年在美国德州奥斯汀大学获统计学硕士和计算机科学博士学位,2007~2010年在甲骨文美国公司从事数据库研发工作;于2010年加入深圳大学计算机与软件学院,现任深圳大学计算机与软件学院副院长、广东省普及型高性能计算机重点实验室和深圳市服务计算与应用重点实验室常务副主任;兼任中国计算机学会大数据专家委员会、高性能计算专业委员会和数据库专业委员会委员、中国计算机学会青年科技论坛深圳分论坛副主席、2016年中国数据库学术会议程序委员会共同主席、PAAP2015国际会议指导委员会共同主席以及多个国际期刊和会议的编委或程序委员会委员;先后主持包括4项国家项目的10多项科研项目,在国内外期刊会议上发表论文40多篇,提出了度量空间索引的支撑点空间模型理论框架,获SISAP2010和BIBE2003国际会议Best Paper奖。
演讲题目:大数据抽象及UMAD项目最新进展
演讲摘要:数据种类的多样性(Variety)是大数据问题带来的主要挑战之一。通用的数据处理技术因其广泛的适用性和相对低的开发成本,一直受到商业数据库管理系统的亲睐。从专用到通用的演进一直贯穿于数据库管理系统的发展历程中。度量空间数据处理技术把数据抽象成度量空间中的点,把数据间相似性的衡量抽象成满足三角不等式的距离函数,只利用三角不等式进行数据的管理和挖掘等工作,具有高度的通用性。UMAD项目以度量空间为基础,构建通用大数据管理挖掘框架,目前已经在索引和分类等方面取得了一定的进展。
特邀讲者 邹兆年
哈尔滨工业大学计算机科学与技术学院副教授、硕士生导师。研究领域为大数据、数据库、数据挖掘。负责国家自然科学基金面上项目1项、国家自然科学基金重点项目课题1项。出版学术著作1部,在VLDB Journal、IEEE Transactions on Knowledge and Data Engineering、KDD、ICDE、CIKM、ICDM等计算机领域国际期刊和会议上发表学术论文20余篇。现任ACM哈尔滨分会秘书长、《计算机系统应用》期刊编委,曾任DASFAA、WAIM、APWEB等国际学术会议程序委员会委员。获得2013年度全国优秀博士学位论文提名奖、2012年度中国计算机学会优秀博士学位论文奖、2011年度黑龙江省高校自然科学一等奖等奖励。
演讲题目:Simultaneous Computation: 不确定图数据计算的一种新方法
演讲摘要:社会网络、生物网络、知识库等通常被表示为图数据。由于数据采集技术的误差、数据集成等原因,大量图数据存在不确定性,因而出现了一类新型数据——不确定图数据(uncertain graph data)。近年来,国内外在不确定图数据管理与挖掘方面开展了大量研究,在不确定图数据的模型与算法等方面取得了诸多研究成果。不确定性的存在导致许多不确定图数据计算问题成为#P完全问题。现有的不确定图数据查询与挖掘方法主要基于采样方法,即对不确定图的可能世界进行采样,然后在样本上进行查询处理或挖掘。我们提出了一种新的不确定图计算方法——simultaneous computation。该方法利用不确定图可能世界间的结构相似性,将不同可能世界上相同的计算步骤进行合并,实现“同时计算”,因而发挥了计算算法的内在并行性。实验结果表明,该方法对于解决不确定图数据计算问题是十分有效的。
特邀讲者 蔡毅
华南理工大学软件学院教授,博士毕业于香港中文大学,香港城市大学博士后,清华大学、香港城市大学、新加坡南洋理工大学访问学者。研究兴趣为Big Data, Semantic Web, Information Retrieval, Recommender System, Data Mining and Cognitive Modeling。在国际学术期刊和会议上发表论文70多篇,包括国际顶级学术会议如IEEE Trans. Knowl. Data Eng.、Neural Networks、Decision Support Systems、Knowledge-based System、Neurocomputing、CIKM、AAMAS、DASFAA、ER等。获得2010年国家科学技术学术著作出版基金资助出版学术专著,由高等教育出版社和Springer出版社出版全英文学术专著2本。在科研方面,主持2个国家级项目,3个省级项目;广东省“千百十工程”培养对象,广东省优秀青年创新人才人选;参与国家级项目3个、省部级项目3个,4个海外研究项目。
演讲题目:Entropy-based Term Weighting Schemes for Text Categorization in Vector Space Model
演讲摘要:Term weighting schemes have been widely used in information retrieval and text categorization models. In this work, we first investigate into the limitations of several state-of-the-art term weighting schemes in the context of text categorization tasks. Considering that category-specific terms are more useful to discriminate different categories, and these terms tend to have smaller entropy with respect to these categories, we then explore the relationship between a term’s discriminating power and its entropy with respect to a set of categories. To this end, we propose two entropy- based term weighting schemes (i.e., tf·dc and tf·bdc) which measure the discriminating power of a term based on its global distributional concentration in the categories of a corpus. To demonstrate the effectiveness of the proposed term weighting schemes, we compare them with seven state-of-the-art schemes on a long-text corpus and a short-text corpus respectively. Our experimental results show that the proposed schemes outperform the state-of-the-art schemes in text categorization tasks with KNN and SVM.
执行主席 彭舰
四川大学计算机学院(软件学院)教授,博士,四川省学术与技术带头人后备人选,宝钢优秀教师,国家留学基金委IBM优秀教师。CCF YOCSEF成都分论坛2015年度主席,ACM Chengdu Chapter副主席,成都市科技青年联合会副主席。单独或与人合作在国际会议或核心期刊上发表论文50余篇,其中SCI或EI检索30余篇。主编或者参与出版教科书5本,其中国家十一五规划教材2本,译著2本。负责或参与了包括国家自然科学基金等各类项目10余项,获得四川省科技进步三等奖2项。负责教育部微软精品课程1项,教育部IBM综合教改项目1项,省级高等教育质量工程2项,省级教改项目1项,获得四川省教学成果一等奖1项,四川省教学成果三等奖1项。
执行主席 段磊
四川大学计算机学院副教授,中国计算机学会(CCF)高级会员、CCF数据库专业委员会委员、CCF YOCSEF成都分论坛学术秘书。研究兴趣为数据挖掘与知识工程,研究领域包括:分类预测、时间序列、对比挖掘、进化计算、医学/生物信息分析、知识管理、大数据计算。主持国家自然科学基金项目、教育部博士点基金项目、中国博士后科学基金、软件工程国家重点实验室开放基金项目、卫生公益性行业科研项目子课题等多项科研项目。已获软件著作权2项,申请发明专利1项。目前发表论文逾70篇,其中SCI/EI检索30余篇。获得PAKDD 2014最佳论文奖、NDBC 2014萨师煊优秀学生论文奖(指导教师)。
程 序
14:45-15:00 会议签到
15:00-15:20 专题报告
特邀讲者:李国良 清华大学副教授,国家优秀青年科学基金获得者
演讲题目:大数据群体计算
15:20-15:40 专题报告
特邀讲者:毛睿 深圳大学副教授,CCF 大数据/高性能计算/数据库 专委
演讲题目:大数据抽象及UMAD项目最新进展
15:40-16:00 专题报告
特邀讲者:邹兆年 哈尔滨工业大学副教授,CCF优秀博士学位论文奖获得者
演讲题目:Simultaneous Computation: 不确定图数据计算的一种新方法
16:00-16:20 专题报告
特邀讲者:蔡毅 华南理工大学教授,广东省优秀青年创新人才
演讲题目:Entropy-based Term Weighting Schemes for Text Categorization in Vector Space Model
16:20-16:30 合影茶歇
16:30-17:00 互动交流
执行主席:彭舰 四川大学教授,CCF YOCSEF成都分论坛主席
执行主席:段磊 四川大学副教授,CCF YOCSEF成都分论坛学术秘书
参加人员:IT领域专业人士、研究生、媒体、其他有兴趣者
报名方式:联系人: 段磊; Email: leiduan@scu.edu.cn; Tel: 13684023157
请务必于10月15日前回反馈参会回执,以便会议安排。
参会回执
姓名 |
|
单位 |
|
电话 |
|
Email |
|
地点:成都市双流县川大路四川大学江安校区二基楼B509
扫描图中二维码可得详细导航路线
所有评论仅代表网友意见