大数据文摘授权转载自智源社区
整理:戴一鸣,李梦佳
8月5日,ACM SIGKDD 2021 正式公布了最佳论文奖,Runner Up奖、新星奖、研究时间检验奖、应用数据科学时间检验奖、创新奖和服务奖。其中斯坦福大学的Aditya Grover获得最佳论文奖,UIUC 的Shweta Jain获得Runner Up 奖,莱斯大学的华人学者胡侠获得新星奖。研究时间检验奖由Chong Wang和David M. Blei共同获得,应用数据科学时间检验奖的获奖者是Diane Tang等人。来自微软的Johannes Gehrke获得创新奖,来自Linkedin的Shipeng Yu获得服务奖。ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。自 1995 年以来,KDD 已经连续举办了26届,今年将于2021年8月14日至18日在新加坡举办。本次SIGKDD 2021大会共收到1541篇有效投稿,其中238篇论文被接收,接收率为15.44%,相比 KDD 2020 的接收率16.9%有所下降(216/1279篇)。论文标题: Learning to Represent and Reason Under Limited Supervision自然智能体,如人类,擅长构建世界的表征,并使用这些表征来有效地进行推理和做决策。即使在有限的监督下,这种高级推理能力也可以发展起来。与此形成鲜明对比的是,基于机器学习 (ML) 的智能体在获得大规模标注数据集或模拟器的条件下取得主要进展,如目标识别和玩游戏等。本论文由三部分组成。首先,论文建立了基础的学习概率生成模型,目标是模拟所有可用的数据,即使在监督受限的环境中,也能够为智能体提供一个自然的学习目标。论文讨论了很多使用这些模型进行高维学习和推理所需要的取舍(trade-off),包括选择特定的学习目标、优化流程和模型参数等。基于这些结果,研究者开发了新算法来提高模型的性能,并在用未标记的数据集进行训练时降低偏置。之后,研究者将这些模型扩展到关系数据领域,用来学习这些数据的表征。这一过程是无监督的,研究者探索并展示了模型在分类和序列决策中的性能。最后,论文介绍了这些模型在加速科学研究的两个实际应用:1.学习压缩感知的数据相关先验;2.优化电池充电的实验设计。这些案例说明, 智能体能够克服现实世界中高维推理和决策问题的关键监督瓶颈。Aditya Grover是Facebook AI核心机器学习团队的一位研究者,同时也是UCLA计算机系的一名助理教授。Aditya的主要研究方向是用于概率建模的机器学习,无监督表征学习,以及序列决策,这些研究已用于物理学、气候变化等领域。Aditya于2020年毕业于斯坦福大学,获得博士学位,并在谷歌大脑、微软研究院、OpenAI等机构完成了实习。论文标题(英):Counting Cliques in Real-World Graphs团是网络科学中的重要结构,在垃圾邮件检测、图形分析、图形建模、社区检测等领域有着广泛的应用。由于组合数量过多的问题,获得具有数百万个节点和边的图的 k-团计数是一个具有挑战性的问题。随着 k 的增加,k 团的数量呈指数增长,目前缺乏除了枚举以外的其他计算方法。大多数现有的技术无法计算 k > 5的 k 团计数。因此,获得全局 k 团计数非常具有挑战性。获得每条边或每个顶点所属的 k 团计数(称为局部 k 团的计数)更是如此。在这项工作中,研究者提出了一套技术,以有效地计算在大型图中 k团的数量,提升了模型的水平,达到了目前的最佳效果。论文的第一个方法是名为 TuránShadow 的随机化算法,它使用极值组合学来估计 k 团计数在 k ≤10时的数量级,而且比当前的SOTA方法更快、更准确。研究者进一步利用这种计算团的机制来计算那些缺少了几条边的近团(near-cliques)。在另一个应用中,论文展示了如何超越边,并结合高阶结构(如 k 团)的信息,能够生成比现有方法更具可读性的图形可视化。论文提出的第二个方法称为 Pivoter,它计算了所有 k 的全局和局部 k 团,所用的时间只是所有其他方法(包括并行/近似方法)所用时间的一小部分。此外,此方法还改进了团计数从 O (2n)到 O (3n/3)的最坏情况下的运行时间,证明了确实可以不用枚举来计算团计数。至关重要的是,它使用了名为旋转(pivoting)的经典技术,这种技术大大减小了团的搜索空间。利用该算法,论文首次得到了以前不可行的几个图的 k 团计数。随着数据越来越多,挑战也越来越大。在未来方向的探索上,研究者将致力于使大型、真实世界的图表上的团计数变得更容易。Shweta Jain 是伊利诺伊大学厄巴纳-香槟分校的博士后,与 Hanghang Tong 教授一起工作。她最近在加州大学圣克鲁兹分校获得了计算机科学博士学位。Shweta 的研究兴趣在于随机化和近似算法、组合优化、图挖掘和应用于海量数据的算法。本届大会的新星奖颁发给了莱斯大学的胡侠博士,用于表彰他在以人为本的数据挖掘,以及研发可解释、自动化的,能够让领域专家易于构建复杂机器学习算法方面的贡献。胡侠博士是莱斯大学计算机系的副教授,目前已在NeurIPS, ICLR, KDD, WWW, IJCAI, AAAI等顶级会议上发表论文超过100篇。他的团队研发了知名开源工具包AutoKeras,是GitHub上目前使用最广泛的自动机器学习工具(有8000多star和1000多fork量)。同时,胡侠博士在深度协同过滤、异常检测、图数据等方面的工作已分别被TensorFlow、苹果和Bing的生产系统使用。胡侠博士有多篇论文获得顶会最佳论文奖,包括WWW,WSDM和ICDM。胡侠博士的总引用次数超过10000次,H-index达到41。他也是WSDM 2020大会的共同主席。KDD大会还颁布了时间检验奖,嘉奖十多年前重要的领域论文,包括:论文标题(英):Collaborative topic modeling for recommending scientific articles. KDD 2011: 448-456.作者:Chong Wang, David M. Blei论文标题(英):Overlapping experiment infrastructure: more, better, faster experimentation. KDD 2010: 17-26论文标题(中):叠加实验基础设施:更多、更好、更快的实验作者:Diane Tang, Ashish Agarwal, Deirdre O’Brien, Mike MeyerSIGKDD创新奖
获奖者:Dr. Johannes Gehrke(微软)
理由:For his outstanding contributions to new data mining algorithms and data privacy
SIGKDD服务奖
获奖者:Dr. Shipeng Yu(LinkedIn)
理由:For his outstanding history of serving and promoting the field of data mining and the data mining community