FANN问题概述

大家好，我是讯享网，很高兴认识大家。

Flexible Aggregate Nearest Neighbor Queries in Road Networks 论文概述

本文的讨论基于论文
Flexible Aggregate Nearest Neighbor Queries in Road Networks
Published in: 2018 IEEE 34th International Conference on Data Engineering (ICDE)
论文链接：https://ieeexplore.ieee.org/document/

本文解决了哪些问题

$\uad$ 集合最近邻查询 $（ A N N ）$ 问题在欧氏空间和道路网络等领域一直是一个热门的研究方向。灵活的集合最近邻查询 $（ F A N N ）$ 问题通过引入一个灵活性来扩展了 $A N N$ 问题。 $F A N N$ 问题简略定义为，给定一个数据点集合P，一个查询点集合Q，一个用户自定义的范围在(0，1]之间的灵活性参数 $\psi$ ， $F A N N$ 算法能返回P中到Q中任意 $\psi |Q|$ 个点总距离最小的那个点。在这篇文章中，作者专注于解决与道路网络相关的问题( $FANN_R$ )，并展示了一系列用于解决 $FANN_R$ 问题的算法；这些算法包括$Dijkstra-based $方法，$ queue-based $方法，组合$ IER $和$ kNN $两种思想的算法。同时作者也提出了一些针对$ max-FANN_R$ 问题特定的算法，以及对 $sum-FANN_R$ 问题的近似算法。这些特定的算法非常容易实现，并且在解决某些问题中性能十分优越。

基本算法的描述

$A.\quad Dijkstra-based\, Algorithom\\ Input:\,G(V,E,W),Q,\psi \\ Output:\,p^*,Q_\psi^*,d^* \uad\quad\\ 1:p^*\leftarrow null,Q_\psi^*\leftarrow\oslash,d^*\leftarrow \infty\\ 2:for\, each\,p\in V\quad do\uad\uad\\ 3:用Dijkstra算法找到Q中距离\quad\\ p最近的[\psi M]个点Q_\psi^P，同时求出它们\\ 到p的距离之和d\uad\uad\uad\uad\\ 4:\uad if\,d<d^*\quad then\uad\quad\\ 5:\uad\uad p^*\leftarrow p,Q_\psi^*\leftarrow Q_\psi^P, \\\uad d^*\leftarrow d\\ 6:\quad end\;if\uad\uad\uad\uad\\ 7:endfor\uad\uad\uad\uad$

$B.IER-kNN\,Framework\uad\uad\quad\\ \textbf{Input:}G,P,Q,\psi,g,R\uad\quad\uad\uad\\ \textbf{Output:}p^*,Q_\psi^*,d^*\uad\uad\quad\uad\uad\\ 1:d*\leftarrow \infty,H\leftarrow 新优先队列\uad\quad\uad\\ 2:H.enqueue(R.root,g_\psi^\epsilon(R.root,Q))\,\,\\ 3:\textbf{while}\,H\,is \,not\,empty\,\textbf{then}\uad\uad\\ 4:\quad e\leftarrow H.top()\uad\uad\uad\uad\quad\\ 5:\quad\textbf{if}\,g_\psi^\epsilon(e,Q)\ge d^* \textbf{then}\uad\uad \quad\,\,\\ 6:\uad\textbf{break}\uad\uad\uad\uad\uad\,\,\\ 7:\quad H.dequeue()\uad\uad\uad\uad\,\,\\ 8:\quad\textbf{if}\, e\,is\,an\, R-Tree\, node\, \textbf{then}\quad\,\,\\ 9:\quad\textbf{foreach}\,R-Tree\,entry\,\hat e of\,e\,\textbf{do}\\ 10:\uad H.enqueue(\hat e,g_\psi^\epsilon,Q)\uad\uad\\ 11:\quad\textbf{else}\uad\uad\uad\uad\uad\uad\\ 12:\uad(Q_\psi^e,d^e)\leftarrow g_\psi(e,Q)\uad\uad\\ 13:\uad\textbf{if}\quad d^e<d^*\,\textbf{then}\uad\uad\quad\\ 14:p^*\leftarrow e,d^*\leftarrow d^e,Q_\psi^*\leftarrow Q_\psi^e\uad\quad$

$C.\quad The \,Exact-max\,Algorithm\\ Input:G,P,Q,\psi,\delta,g \uad\uad\quad\\ Output:p^*,Q_\psi^*,d*\uad\uad\uad\\ 1:\textbf{for each}\,p^*\in P\,do\uad\uad\quad\\ 2:\quad count[p]\leftarrow 0\uad\uad\quad\quad\,\,\,\\ 3:\textbf{while}\, true \quad do\uad\uad\uad\,\,\\ 4:\quad L_{min}\leftarrow 头节点距离的最小队列\\ 5:\quad count[L_{min}.top()]\leftarrow \uad\quad\\ count[L_{min}.top()]+1\\ 6:\quad\textbf{if}\;count[L_{min}.top()]\ge \psi|Q|\\ \textbf {then}\quad\uad\uad\uad\quad\\ 7:\uad \uad p*\leftarrow L_{min}.top()\uad\\ (Q_\psi^*,d^*)\leftarrow g_\psi (L_{min}.top(),Q)\\ 8:\uad\uad \textbf{break}\uad\uad\uad\\ 9:\quad L_{min}.dequeue()\quad\uad\uad$

$D.\quad The\,APX-sum\,Algorithm\uad\quad\\ Input:G,P,Q,\psi,\delta,g\uad\uad\uad\uad\\ Output:p^\alpha,Q_\psi^\alpha,d^\alpha\uad\uad\uad\uad\quad\\ 1:candidate\leftarrow\oslash\uad\uad\uad\uad\quad\\ 2:\textbf{foreach}\quad q\in Q \,\textbf{do}\uad\uad\uad\quad\,\,\\ 3:\quad p\leftarrow the\,nearest\,neighbor\,of\, q\,in\,P\\ 4:\quad candidate.insert(p)\uad\uad\uad\\ 5:FANN_R(G,candidate,Q,\psi,sum)\quad$

举例说明

在这里插入图片描述
讯享网

在这里插入图片描述

$IER-kNN\quad Framework$ 算法
$\uad$ 我们首先看下这个算法是怎么找到 $sum-FANN_R$ .如图一所示,此时令 $\psi=50\%$ .我们在图2中说明这个算法的过程，为了更好地观察这个过程，图中去掉了一些无关的路段。在第一轮的循环中，我们让 $MBR_1,8),(MBR_2,1.5),(MBR_3,26)$ 进入队列H。在这之后， $MBR_2,1.5)$ 将会出队，然后我们检查下在 $MBR_2$ 中的 $p_3,p_6$ 。显然， $d^*$ 将会是4。我们总是能安全的使这个算法停止，这是因为 $d^*$ 小于队列H中头节点的值。
$E x a c t - m a x$ 算法
$\uad$ 我们看下这个算法怎么在图一中找到 $max-FANN_R$ ,此时 $\psi=50\%$ . ${q_1,q_2,q_3,q_4\}$ 的扩张路径可以用 $\{p_3,\dots\},\{p_3,\dots\},\{p_4,\dots\},\{p_5,\dots\}$ 象征性地表示。很明显 $p_3$ 的计数器首先到达 $\psi \times 4 = 2$ 。因此这个 $max-FANN_R$ 查询的结果是 $p^* = p_3,d^* = 2, Q_\psi^* = \{q_1,q_2\}$
$A P X - s u m$ 算法
$\uad$ 我们仍然通过图一的例子来说明这个算法，此时 $\psi=50\%$ 。首先，我们可以很容易获得参与的数据点的集合为 $A=\{p_3,p_4,p_5\}$ 。因为真正的优化解 $p^*$ 属于这个集合A，APX-sum将会返回最终结果$p^=p_3, d^ = 4，Q_\psi^*={q_1,q_2} $

采用什么思想解决这个问题

A. $The\quad Dijkstra-based\quad Algorithm$

$\uad$ 基于 $D i j k s t r a$ 的算法基于以下思想。关于 $D i j k s t r a$ 算法运行步骤：在其扩展的每一步，它选择一个未访问的源节点最近节点来访问并更新其邻居到源节点的距离。这种行为在运行 $g_{\psi}(p,Q)$ 时也有意义。首先，让 $p$ 为源节点，我们在其上调用 $D i j k s t r a$ 算法。然后我们保持路径扩展直到 $\psi | Q |$ 在 $Q$ 中的节点标记为已访问。因此，这些 $\psi | Q |$ 节点恰好是 $Q_\psi^p$ 。因此，我们可以枚举 $P$ 中的点并返回具有最小柔性聚合距离的点。

B. $IER-kNN\quad Framework$

$\uad$ 基于引理1，我们可以使用基于P构建的R树来解决 $FANN_R$ 查询。我们在算法 $IER-kNN\quad Framework$ 中展示了这个过程。假设 $h e a d$ 是一个从队列中获取 $h e a d$ 元素的函数。最初， $R$ 树的根被排入优先级队列，该优先级队列按照升序排序 $g_{\psi}^{\epsilon}(e,Q)$ （第2行）。对于每次迭代，我们首先检查 $g_{\psi}^{\epsilon}(e,Q)$ 是否大于或等于当前**候选结果（第5行）。如果是这样，我们终止算法（第6行）; 否则，我们检查出列项是否是R树节点（第8行）。如果是，将此节点下的所有条目推入优先级队列（第9-10行）;否则，我们在其上运行 $g_{\psi}^{\epsilon}(e,Q)$ 并在 $d^e<d^*$ 时更新结果（第12-14行）。另外，在第9行中，如果 $e$ 是叶节点，则条目 $e$ 是 $P$ 中的数据点，如果 $e$ 是非叶节点，则它是 $R$ 树节点。

C.$ The\quad Exact-max\quad Algorithm$

$\uad$ 算法2中提出了 $E x a c t - m a x$ 方法（精确 $m a x - F A N N R$ ），它与 $R - L i s t$ 具有相似的思想和数据结构。主要区别在于我们为P中的每个点添加一个计数器。最初，这些计数器设置为0（第2行）。在每次迭代期间，我们得到具有最小距离的头节点（第4行），然后将与头节点相关联的计数器增加1（第5行）。如果与头节点相关联的计数器达到$ \psi|Q | $，则头节点正好是$ p^* $，然后我们可以安全地终止算法（第 6 - 9 行）。因此，我们能运行一次并耗时$ g_\psi $（第 8 行）。这就是$ Exact-max $可以高效的原因。此外，这也表明$ g_\psi $的不同实现对$ Exact-max $几乎没有影响。换句话说，即使我们没有在整个$ G$上建立道路网络索引，我们也可获得良好的结果。

D. $The\quad APX-sum\quad Algorithm$

$\uad$ 对于道路网络中的 $s u m - F A N N R$ 问题，算法3中提出了近似方法 $A P X - s u m$ （近似 $sum-FANN_R$ ）。该算法非常简单，但它具有恒定的近似比。我们只检查 $Q$ 中那些查询节点的最近邻居的那些数据点而不是考虑整个 $P$ （第2-4行）。然后我们将候选集视为 $P$ ，并运行 $FANN_R$ 算法（其 $g$ 为 $s u m$ ）。因此，算法将候选数据点的数量减少到 $∣ Q ∣$ ，通常远小于 $∣ P ∣$ 。这就是它可以显着提高搜索效率的原因。实际上，候选集的大小甚至可能小于 $∣ Q ∣$ ，因为不同的查询点可能具有相同的最近数据点邻居。 $A P X - s u m$ 最吸引人的特性之一是改变 $P$ 时的稳定性，因为它通常只受 $Q$ 的影响。可以证明该算法的近似比 $d^\alpha / d^*$ 不大于3。

算法分析的结论

A.$ The \quad Dijkstra-based \quad Algorithm$

$\uad$ 由于 $g_\psi$ 与 $D i j k s t r a$ 具有相同的时间成本，即 $O （ ∣ E ∣ + ∣ V ∣ l o g ∣ V ∣ ）$ （假设 $m i n - p r i o r i t y$ 队列由 $F i b o n a c c i$ 堆实现），因此总的时间成本是 $O （（ ∣ E ∣ + ∣ V ∣ l o g ∣ V ∣ ） ∣ P ∣ ）$ 。在最坏的情况下，空间成本是 $+2\psi | Q |）= O（| V |）$ 。

B. $IER-kNN\quad Framework$

$\uad$ 在最坏的情况下，我们仍然需要访问P中的每个点。以 $I E R - G T r e e$ 为例， $k N N$ 搜索的最差时间成本是 $O （ ∣ V ∣ l o g ∣ V ∣ ）$ 。总时间成本为 $O （ ∣ P ∣ ∣ V ∣ l o g ∣ V ∣ ）$ 。如所述，复杂性比实际中最坏的情况复杂性要小得多。因为与 $G$ 树相比， $R$ 树或 $O c c$ 的空间成本可以忽略不计，所以空间成本主要由 $G$ 树的成本组成，即 $O （ ∣ V ∣ + ∣ V ∣ ∣ l o g ∣ V ∣ + ∣ E ∣ ）$ 。

C. $The\quad Exact-max \quad Algorithm$

$\uad$ 假设 $g_psi$ 由类似 $D i j k s t r a$ 的方法实现。对于 $R - L i s t$ 算法，在最坏的情况下将访问 $P$ 中的每个点。因此，时间成本是 $O （（ ∣ E ∣ + ∣ V ∣ l o g ∣ V ∣ ） ∣ P ∣ ）$ 。在实践中，由于下限，时间复杂度通常小于它。在最坏的情况下，空间成本是 $O （ ∣ Q ∣ ∣ V ∣ ）$ ，它主要由队列列表组成。同样， $E x a c t - m a x$ 的时间成本为 $O （ ∣ E ∣ + ∣ V ∣ l o g ∣ V ∣ ）$ ，其空间成本也包括计数器用量，即 $O （ ∣ Q ∣ ∣ V ∣ + ∣ P ∣ ）$ 在最坏的情况下 $= O （ ∣ Q ∣ ∣ V ∣ ）$ 。

D.$ The APX-sum Algorithm$

$\uad APX-sum$ 包括找到最近邻居和 $FANN_R$ 。如果 $g_\psi$ 实现为 $D i j k s t r a$ 或 $I N E$ ，则时间成本为 $O （（ ∣ E ∣ + ∣ V ∣ l o g ∣ V ∣ ） ∣ Q ∣ ）$ 。

在最坏的情况下，空间成本是 $O （ ∣ V ∣ ）$ 。