本次竞赛任务为数据库领域的经典问题 — 海量向量数据的组织和查询。在该问题中,给定包含N条向量的数据集,要为其中的每一条向量找到数据集中与之距离最近的K个向量。其难点是快速构建K最近邻图(KNN Graph Construction)并支持低时延高并发的K近邻查询。K最近邻图构建问题在实际应用中存在很高的价值,因为比较准确的K最近邻图能够被转换为索引,极大地优化近似最近邻查询的效率与准确度。比赛中的测试数据集为一千万条被微软的大型自然语言表示模型图灵v5编码为100维向量的必应(Bing)查询,参赛队伍需要在给定的时间限制下,针对这一大规模高维向量数据集,尽可能精确地构建K最近邻图。
获奖证书
本次比赛共有28支来自世界知名高校的队伍参赛,包括密歇根大学、慕尼黑工业大学、加州大学河滨分校、新加坡国立大学、香港科技大学、复旦大学、上海交通大学等。在比赛中,王嘉翼基于经典的最近邻下降算法(NN-Descent)提出了全新方案。在有限的构建时间内,可以将K最近邻图的召回率提高到接近最优的98.7%,最终成功斩获冠军。

ACM SIGMOD数据管理国际会议是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)主办的国际性学术会议,是数据库领域最好的学术会议之一,同时也是中国计算机学会(CCF)和清华大学计算机学科推荐学术会议目录中的A类会议。自2009年组织发起以来,ACM SIGMOD程序竞赛每年都会举办,并已成为数据管理领域最具影响力的国际赛事。
王嘉翼

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/193972.html