概览
本文是参考文献[1]的简介,这篇论文是一篇tutorial(ICDE2021),主要介绍一些高维相似性搜索的数据科学应用,调查了最近的一些方法,讨论了AI驱动的、渐进式的以及分布式的相似性搜索。
应用
自动实体解析、数据发现、电力需求分析、推荐系统、聚类、划分、异常检测、生物信息、计算机视觉、安防、金融、药物等。(注:各应用相关文献可参考论文原文,参考文献[1])
洞察
渐进搜索(progressive search)
这个概念我还是第一次看到,不过渐进搜索所表达的思想在之前的一些文献中已有体现。通俗地讲,对于一个查询,我们在索引上搜索它的最近目标时可能会早早的获取到该目标,但由于未达终止条件导致冗余搜索,我们是否可在固定的终止条件之前通过一些评估来提前获取到该目标呢?这便是渐进搜索(“渐进”这个词可以这样理解,如果我们实现了上述过程,那么整个搜索过程是逐渐趋近查询的,不存在渐远的过程,而到达查询目标后仍未达终止条件的后续搜索便是渐远的)。本文也举了一个例子,SIGMOD’2020 (参考文献[2])论文便是通过学习的方法能自适应的终止搜索。其实,ACM MM’2012 (参考文献[3])的一篇论文也有该思想的体现。
机器学习优化 (AI驱动)
机器学习可以从多个角度参与到相似性搜索的优化中,比如上面提到的SIGMOD‘2020就把学习的方法应用到搜索终止条件的优化中。其他方面,机器学习改进降维技术(参考文献[4]),机器学习优化索引构建(参考文献[5, 6]),根据查询早期的结果建立数据分布评估(参考文献[7]),学习自动调参。
系统级优化
现代硬件、分布式,这些是面向实际应用的主要研究方向。
参考文献
[1] Echihabi, Karima, Kostas Zoumpatianos, and Themis Palpanas. “New Trends in High-D Vector Similarity Search: AI-driven, Progressive, and Distributed.” 2021.
[2] C. Li, M. Zhang, D. G. Andersen, and Y. He. Improving approx- imate nearest neighbor search through learned adaptive early termination. In SIGMOD, page 2539–2554, 2020.
[3] Wang, Jingdong, and Shipeng Li. “Query-driven iterated neighborhood graph search for large scale indexing.” Proceedings of the 20th ACM international conference on Multimedia. 2012.
[4] Q. Wang and T. Palpanas. Deep Learning Embeddings for Data Series Similarity Search. In SIGKDD, 2021.
[5] S. Shekkizhar and A. Ortega. Graph construction from data by non-negative kernel regression. In ICASSP, 2020.
[6] A. Al-Mamun, H. Wu, and W. G. Aref. A tutorial on learned multi-dimensional indexes. SIGSPATIAL, page 1–4, 2020.
[7] S. Thirumuruganathan, S. Hasan, N. Koudas, and G. Das. Ap- proximate query processing for data exploration using deep gen- erative models. In ICDE, pages 1309–1320, 2020.