whenever

  • Home

  • Tags21

  • Categories6

  • Archives122

  • About

基于近邻图的向量检索算法:单调相对邻域图MRNG的一些重要理论性质

Posted on 2021-09-18 In 近似最近邻搜索

论文信息

题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search

作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。

背景

理论分析基于图的ANNS算法。

为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?

冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).

理论模型

单调图能够确保精度100%。寻找一个搜索更高效的单调图?边最少的单调图,减少任意一条边,图就不是单调的了。

在NSG的论文中MRNG并没有很好的定义,我们只知道满足那样约束条件后图是单调的,但是,我们并不知道它是不是边最少的单调图,或者是不是在给定数据集上唯一的一个单调图。本文在MRNG定义的基础上给出了以下引理,并给出了证明。

引理1. 在给定数据集上,MRNG是唯一的。

引理2. MRNG是边最少的单调图,也就是任意去掉其中一条边得到的图便不再单调。

根据上面的内容,MRNG似乎是我们想要的理想的用于ANNS的图,但是我们要构建一个这样的图结构要花费高昂的时间开销。

实践优化

考虑到构建MRNG高昂的时间成本,本文从两个角度优化:(1)出度上界;(2)候选池上界。

作者通过实验得到Generalized MRNG的以下特点:在MRNG中,一些过长的边并不会给搜索性能带来积极的影响。设置一个适当的出度上界在相同的精度下提升搜索效率(MRNG虽然可确保精度,但是效率不一定有Generalized MRNG好)。作者在规模为5000维度分别为25和100的数据集上实验测试表明:Generalized MRNG的最优平均出度仅为MRNG出度的一半。作者还用了相变的概念来解释度上界对Generalized MRNG的影响。比如,随着当度较小时,随着度的增加,连通性逐渐提升,搜索性能提升;当度达到一个特定值,连通性也达到一个特定的水平(比如刚好达到一个全局联通的水平),继续增加度,搜索性能基本不会再受连通性影响。

冲突结点

作者给出局部最优结点和冲突结点的定义。其中,冲突结点是非常重要的一个概念,作者在文中已经给出了非常重要的理论证明,我认为这非常值得进一步的实践研究。作者也给出了一些主要的挑战:每一条边都会产生一个冲突结点集合,因此,可能存在大量冗余的冲突结点,这对保存冲突结点和搜索检查冲突结点都是不利的;某一个冲突结点安排给哪一条边是最优的,这不好评判。

未来,如何用好冲突结点,需要进一步探索,特别是在实验上。

稀罕作者
Mengzhao Wang WeChat Pay

WeChat Pay

Mengzhao Wang Alipay

Alipay

# 论文阅读 # ANNS # 近邻图
高维向量相似性搜索新趋势:AI驱动、算法优化、分布式、现代硬件
CVPR2018-Link and code:Fast indexing with graphs and compact regression codes (图结构提升向量编码精度)
  • Table of Contents
  • Overview
Mengzhao Wang

Mengzhao Wang

Try? All the way !
122 posts
6 categories
21 tags
  1. 1. 论文信息
  2. 2. 背景
  3. 3. 理论模型
  4. 4. 实践优化
  5. 5. 冲突结点
© 2021 Mengzhao Wang