论文信息
题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search
作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。
背景
理论分析基于图的ANNS算法。
为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?
冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).
理论模型
单调图能够确保精度100%。寻找一个搜索更高效的单调图?边最少的单调图,减少任意一条边,图就不是单调的了。
在NSG的论文中MRNG并没有很好的定义,我们只知道满足那样约束条件后图是单调的,但是,我们并不知道它是不是边最少的单调图,或者是不是在给定数据集上唯一的一个单调图。本文在MRNG定义的基础上给出了以下引理,并给出了证明。
引理1. 在给定数据集上,MRNG是唯一的。
引理2. MRNG是边最少的单调图,也就是任意去掉其中一条边得到的图便不再单调。
根据上面的内容,MRNG似乎是我们想要的理想的用于ANNS的图,但是我们要构建一个这样的图结构要花费高昂的时间开销。
实践优化
考虑到构建MRNG高昂的时间成本,本文从两个角度优化:(1)出度上界;(2)候选池上界。
作者通过实验得到Generalized MRNG的以下特点:在MRNG中,一些过长的边并不会给搜索性能带来积极的影响。设置一个适当的出度上界在相同的精度下提升搜索效率(MRNG虽然可确保精度,但是效率不一定有Generalized MRNG好)。作者在规模为5000维度分别为25和100的数据集上实验测试表明:Generalized MRNG的最优平均出度仅为MRNG出度的一半。作者还用了相变的概念来解释度上界对Generalized MRNG的影响。比如,随着当度较小时,随着度的增加,连通性逐渐提升,搜索性能提升;当度达到一个特定值,连通性也达到一个特定的水平(比如刚好达到一个全局联通的水平),继续增加度,搜索性能基本不会再受连通性影响。
冲突结点
作者给出局部最优结点和冲突结点的定义。其中,冲突结点是非常重要的一个概念,作者在文中已经给出了非常重要的理论证明,我认为这非常值得进一步的实践研究。作者也给出了一些主要的挑战:每一条边都会产生一个冲突结点集合,因此,可能存在大量冗余的冲突结点,这对保存冲突结点和搜索检查冲突结点都是不利的;某一个冲突结点安排给哪一条边是最优的,这不好评判。
未来,如何用好冲突结点,需要进一步探索,特别是在实验上。