基于近邻图的向量检索算法：单调相对邻域图MRNG的一些重要理论性质

论文信息

题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search

作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。

背景

理论分析基于图的ANNS算法。

为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能？

冲突结点，conflicting nodes (提升搜索性能，非常重要的一个概念！).

理论模型

单调图能够确保精度100%。寻找一个搜索更高效的单调图？边最少的单调图，减少任意一条边，图就不是单调的了。

在NSG的论文中MRNG并没有很好的定义，我们只知道满足那样约束条件后图是单调的，但是，我们并不知道它是不是边最少的单调图，或者是不是在给定数据集上唯一的一个单调图。本文在MRNG定义的基础上给出了以下引理，并给出了证明。

引理1. 在给定数据集上，MRNG是唯一的。

引理2. MRNG是边最少的单调图，也就是任意去掉其中一条边得到的图便不再单调。

根据上面的内容，MRNG似乎是我们想要的理想的用于ANNS的图，但是我们要构建一个这样的图结构要花费高昂的时间开销。

实践优化

考虑到构建MRNG高昂的时间成本，本文从两个角度优化：（1）出度上界；（2）候选池上界。

作者通过实验得到Generalized MRNG的以下特点：在MRNG中，一些过长的边并不会给搜索性能带来积极的影响。设置一个适当的出度上界在相同的精度下提升搜索效率（MRNG虽然可确保精度，但是效率不一定有Generalized MRNG好）。作者在规模为5000维度分别为25和100的数据集上实验测试表明：Generalized MRNG的最优平均出度仅为MRNG出度的一半。作者还用了相变的概念来解释度上界对Generalized MRNG的影响。比如，随着当度较小时，随着度的增加，连通性逐渐提升，搜索性能提升；当度达到一个特定值，连通性也达到一个特定的水平（比如刚好达到一个全局联通的水平），继续增加度，搜索性能基本不会再受连通性影响。

冲突结点

作者给出局部最优结点和冲突结点的定义。其中，冲突结点是非常重要的一个概念，作者在文中已经给出了非常重要的理论证明，我认为这非常值得进一步的实践研究。作者也给出了一些主要的挑战：每一条边都会产生一个冲突结点集合，因此，可能存在大量冗余的冲突结点，这对保存冲突结点和搜索检查冲突结点都是不利的；某一个冲突结点安排给哪一条边是最优的，这不好评判。

未来，如何用好冲突结点，需要进一步探索，特别是在实验上。