雷锋网按:本文由雷锋网作者奕欣、岑峰、张驰、三川联合编辑。
北京时间8月15日,在经过两天的Tutorial和Workshops后,KDD 2017于今天下午正式开幕。
开场,KDD 2017大会主席Stan Matwin向我们展示了一组数据:本次KDD共有来自51个国家1656名注册参会人员,是美国之外注册人数最多的一届,参会人数最多的五个国家依次是:美国、中国、加拿大、印度和日本。这次会议共收到有效投稿论文1143篇,颁发学生奖学金15.3万美元,均创下历史新高。KDD 2017获得了54.4万美金的赞助支持,金额达到有史以来的第二高。
论文详细收录名单如下:http://www.kdd.org/kdd2017/accepted-papers
随后,KDD 2017大会主席Stan Matwin与区域主席Evangelos Milios,被哈利法克斯市政府授予哈利法克斯大使奖。
大会副主席Faisal Farooq在发表致辞时,感谢了组委会的48位成员及158位辛勤付出的志愿者。
ACM SIGKDD主席裴健博士介绍了SIGKDD组织,目前SIGKDD共有1862位来自全球64个国家的活跃会员,拥有超过200万美元的经费。裴健博士在会上呼吁大家积极加入SIGKDD,成为其中的一员。
会上公布了KDD 2017的一系列数据:
今年的KDD研究类论文的审核总数为748篇,收录130篇,包括64篇oral,66篇poster,录用率分别占8.6%及8.8%。
而应用类论文共审核390篇,收录86篇,包括36篇oral,50篇poster,录用率分别占9.2%和12.6%。
论文提交数最多的国家是美国(占50%)与中国(占13%)。
论文中最受欢迎的话题是:时间与时序数据(temporal and time-series data),图算法(graph algorithms)。
Invited talk的关注领域:用数据科学理解行为,机器学习应用,智能系统和数据科学,管理与基准。
在随后的议程上,KDD 2017公布了最佳论文&最佳学生论文奖,最佳应用论文奖,以及最佳博士论文奖(见后文详细介绍)。
接下来进行了KDD Cup的颁奖。本次KDD Cup由阿里天池承办,名叫Convolution的团队包揽了两个比赛第一名,成员来自美团点评、微软中国和北京航空航天大学。关于这次比赛的结果,欢迎关注雷锋网的后续报道。
随后KDD对今年授予的三大核心奖项进行颁奖。2016年雷锋网(公众号:雷锋网) AI 科技评论就针对当年的这三个奖项及获奖者进行逐一介绍,详情可参考《KDD2016各大奖项获奖名单解密》。
在热烈的掌声中,十年最佳论文奖/时间检验论文奖获得者 Thorsten Joachims 博士,杰出服务奖获得者、香港科技大学教授杨强博士,KDD创新奖获得者、西蒙弗雷泽大学教授裴健博士,依次上台领奖。雷锋网此前已对这三个奖项及得奖者做了详细介绍。
最后,裴健博士以《Pattern Mining Introspection and Prospective》(模式挖掘的回顾与展望)为主题做了大会报告,他以“啤酒与尿布”这一广为人知的案例说起,分享了他对于模式挖掘的最新研究成果和经验。
KDD的三大论文奖项包括,最佳论文&最佳学生论文奖(Best Paper & Best Student Paper Award)和最佳应用论文奖(Applied Data Science Best Paper Award),博士论文奖(Doctoral Dissertation Award)。
论文:Accelerating Innovation Through Analogy Mining
作者:Tom Hope,Joel Chan,Aniket Kittur,Dafna Shahaf
摘要:大型概念资源库(如美国专利数据库)可以向人们提供类似问题的解决方案的灵感,从而加速创新和发现。然而在这些庞大而凌乱的资源库中发现有用的信息,对于人类或自动化技术来说仍是一个挑战。传统的解决方法有,具有高度关系结构(如谓词演算表征)但非常稀疏,且成本很高的人工创建的数据库。更为简单的机器学习/信息检索相似性度量可以扩展到大型的自然语言数据集,但很难解释结构相似性,而这又是类比的核心。这篇论文探讨了学习更简单的结构表征的可行性和价值,特别是“问题模式”,它规定了产品的目的,以及实现该目的的机制。论文中的方法结合众包和CNN,提取产品描述中的目的和机制向量表示。论文表明,这些学习到的向量能比传统的信息检索方法,以更高精度和更快速度找到类比。在一个思想实验中,模型检索的类比能力提升了产生创意的可能性。研究结果表明,学习和利用较弱的结构表征,是大规模计算类比的有效方法。
Runner up论文:
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
作者:David Hallac, Sagar Vare, Stephen Boyd, Jure Leskovec
论文:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network
作者:Yanfang Ye,Shifu Hou,Yangqiu Song
摘要:随着Android恶意软件的增长及其对用户的影响,Android恶意软件检测已成为网络安全日益重要的课题。Android恶意软件也越来越复杂,需要新防御技术从而保护用户免受威胁。这篇论文中,为了检测Android恶意软件,我们不再仅仅使用API调用,而是进一步分析它们之间的不同关系,并创建更高层次的语义,这就让攻击者更难逃避被检测。我们将Android应用,相关的API,及其与结构化异构信息网络(HIN)的丰富关系作为代表。然后我们使用基于元路径的方法来表征应用程序和API的语义相关性。我们使用每个元路径来制定Android应用的相似性度量,并使用多内核学习聚合不同的相似之处。然后通过学习算法自动加权每个元路径进行预测。据我们所知,这是使用结构化HIN进行Android恶意软件检测的最佳方法。对来自Comodo Cloud Security Center的实体样本收集进行综合实验,我们比较了各种恶意软件检测方法。实验结果表明,我们开发的HinDroid系统,胜过其他Android恶意软件检测技术。HinDroid已经被并入Comodo Mobile Security产品的扫描工具。
Runner up论文:
DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution
作者:Thomas Vandal, Evan Kodra, Sangram Ganguly, Andrew Michaelis, Ramakrishna Nemani, Auroop R Ganguly
最佳论文:Local Modeling of Attributed Graphs: Algorithms and Applications
作者:Bryan Perozzi
摘要:对于在原始连接信息之外、有关联节点属性的图,在现实中遇到它们正变得常态化。社交网络就是个例子:既包含交友关系,又有兴趣和人口统计信息等用户属性。一个存在于蛋白质之间的交互网络,可能不仅有交互关系,还包含了蛋白质的基因表达层。这些信息就能用一个图来描述——其中用节点表示对象,用边缘表示它们之间的关系,与节点关联的特征向量表示属性。这种图数据通常被称作是属性图。这份论文聚焦于为属性图开发可扩展的算法与模型。这些数据可被看作是既离散(边缘)、又连续(嵌入节点之间的距离),我会从这两个角度探讨这个问题。
具体地,我展示了一个网上学习算法,利用最新的深度学习技术生成丰富的图嵌入。我通过这一新方法对多重社会关系进行编码,其结果对网络中的多标签分类和回归都非常有价值。
对于离散图所呈现出的反常社群,我展示了用来处理它们的本地算法。对于导致社群诞生的图属性(比如某社交网络中的用户共同兴趣),这些算法找出了它们的子集。该论文中,所有方法的可扩展性通过有限的图初始参数来保证,比如 ego networks 和truncated random walks,它们以每个顶点为中心对本地信息进行利用。另外,对图变量的范围进行限制,使得我的方法能进行简单的并行处理。这需要通过大数据处理商品工具来实现,比如MapReduce 和 Spark 。本研究的应用前景很广阔:包括数据挖掘、信息检索、用户画像、人口统计推理、线上广告以及诈骗识别。
本文作者:奕欣 本文转自雷锋网禁止二次转载,原文链接
相关资源:2017 KDD 论文集