Beyond Link Prediction: Predicting Hyperlinks in Adjacency Space
概
在 hyperlink 问题上的一个早期尝试.
注: 说实话, 我对 hyperlink 的理解不是那么深刻, 虽然有如下的一个比较鲜明的例子: 一篇文章会有多个作者, 那么我们就可以把这篇文章看成是一个联系多个作者的 hyperlink.
好了问题来了:
问: 虽然我们没法用一个单独的边把在同一篇论文中的作者全部直接联系起来, 那为什么不把论文本身看成是一个结点, 然后构造异构图呢? Hyperlink 预测, 预测哪些作者会出现在同一篇文章中 ? 我感觉还是直接把这种 hyperlink 看成结点会更加高效啊.
注: 这里, 不会对本文的方法做出推导, 只是记录.
Hyperlink prediction
- 
定义 \(H = \langle V, E\rangle\) 为一 hypernetwork, 其中 \(V = \{v_1, \ldots, v_n\}\) 为 \(n\) 个结点, \(E = \{e_1, \ldots, e_m\}\) 为 \(m\) 个观测到的 hyperlinks, 每一条 hyperlink \(e_i\) 包含 \(V\) 中的部分结点, 意味着这些结点共属于该关系. 
- 
给定 \(D\) 为给定的候选的一些 hyperlinks, hyprelink prediction 的目标是从 \(D\) 中找到合适的正确的 hyperlinks. 
- 
让我们用 incidence matrix 来定义上面的行为. 令 \(S \in \{0, 1\}^{n \times m}\), 第 \(j\) 列表示 hyperlink \(e_j\). 自然地, \(S_{ij} = 1\) 表示 \(v_i \in e_j\). 
- 
假设 \(\Delta S\) 是我们没有观测到的那些 hyperlinks, \(U \in \{0, 1\}^{n \times m'}\) 是候选的 hyperlinks. Hyperlink prediction 实际上就是从 \(U\) 中找到 \(\Delta S\). 
Coordinated matrix minimization
- 
作者是将其转换为一个优化问题, 然后交替求解. 
- 
注意到: \[[S, \Delta S][S, \Delta]^T = SS^T + \Delta S \Delta S^T =: A + \Delta A, \]这里我们定义 \(A := SS^T, \Delta A = \Delta S \Delta S^T\). \(A_{ij}\) 表示了 \(v_i, v_j\) 同属 hyperlinks 的数目. 
- 
假设存在对角矩阵 \(\Lambda = \text{diag}([\lambda_1, \ldots, \lambda_{m'}])\) 使得 \[\Delta A = U\Lambda U^T. \]
- 
CMM 用 \(W \in \mathbb{R}_+^{n \times k}\) 来近似: \[\begin{array}{ll} \min_{\Lambda, W} & \|A + U\Lambda U^T - WW^T\|_F^2 \\ \text{subject to} & \lambda_i \in \{0, 1\}, \quad i=1,\ldots, m' \\ & W \ge 0. \end{array} \]
- 
接下来作者将其转化为 EM 优化问题交替求解, 这里不讲了. 

 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号