latex测试
Graph Convolutional Networks for Text Classification
这篇文章的将gcn引入了文本分类工作。 这篇文章基于词共现和文档中词的联系,构建了一个称为text gcn的图卷积网络。 网络中词和文档的表示通过one-hot编码初始化,并进行词和文档两者编码的联合学习。 实验结果表明,在减小训练数据的情况下,text gcn取得了sota效果。
这篇文章中构建的网络包含了词和文档两种类型的节点。其词与词之间的边 通过词共现信息构造,词与文档之间的边通过tf-idf特征进行构建,词嵌入的解释性强。
作者认为其贡献有以下两点:
- 这是第一个将图网络用于文本分类任务的工作。
- 在不使用预训练词向量或者引入外部知识的情况下在多个评测数据集上取得了sota的效果
Related Work
文本分类这块的工作大致可分为三点:
- 传统的文本分类
- 基于深度学习的方法
- 聚焦于词嵌入
- 通过神经网络
- 图网络的方法
Model
接下来进入正题
GCN
这部分的理论介绍看这几篇文章,后面补上自己的理解
从 CNN 到 GCN 的联系与区别——GCN 从入门到精(fang)通(qi) | 极市高质量视觉算法开发者社区
对于一个一层的GCN网络,其计算公式如下
\[L^{(1)}=\rho\left(\tilde{A} X W_{0}\right)
\]
- \(\tilde{A}=D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\) 拉普拉斯矩阵
- \(W_{0} \in \mathbb{R}^{m \times k}\) 权重矩阵
- \(X \in R^{n×m}\)
- \(\rho\) 激活函数
更高层的GCN网络可以通过堆叠形成
\(L^{(j+1)}=\rho\left(\tilde{A} L^{(j)} W_{j}\right)\)
text GCN
构造图的过程
文本网络中的 节点数 是文档数和词典中的词数的总和,整个网络的权重计算方式如下
\[A_{i j}=\left\{\begin{array}{ll}{\operatorname{PMI}(i, j)} & {i, j \text { are words, } \operatorname{PMI}(i, j)>0} \\ {\mathrm{TF}-\mathrm{IDF}_{i j}} & {i \text { is document, } j \text { is word }} \\ {1} & {i=j} \\ {0} & {\text { otherwise }}\end{array}\right.\]
- 文档节点和词节点的权重通过 TF-IDF构造
- 词共现特征通过固定大小的滑动窗口扫描文档获得,这里采用了PMI
这里认为PMI为正值的时候存在语义联系,负值代表几乎没有关系,所以两个词只用PMI为正时才添加边。
后续
将建号的图输入两层GCN网络。
\[Z=\operatorname{softmax}\left(\tilde{A} \operatorname{ReLU}\left(\tilde{A} X W_{0}\right) W_{1}\right)
\]
这里的损失函数定义为
\[\mathcal{L}=-\sum_{d \in \mathcal{Y}_{D}} \sum_{f=1}^{F} Y_{d f} \ln Z_{d f}
\]
两层的GCN可以允许信息在距离最大为两步的节点之间传递,即使途中不存在文档和文档之间的直接节点。作者发现两层效果由于1层,而增加更多层并不能带来性能上的提升。
Experiment
即使标签数据有限,我们的模型在文本分类方面能否取得令人满意的结果?
我们的模型能够学习预测性单词和文档嵌入吗?、
text GCN表现好的原因:
- 文本图可以同时捕捉文档和单词之间、全局的词与词之间的联系。
- GCN模型作为拉普拉斯平滑的一种特殊形式,将节点的新特征计算为其自身及其二阶邻域的加权平均(Li, Han, and Wu 2018)。文档节点的标签信息可以传递给相邻的词节点(文档中的词),然后转发给其他词节点和第一阶邻域词节点的邻域文档节点。词节点可以收集全面的文档标签信息,在图中充当桥梁或关键路径,将标签信息传播到整个图中。然而,我们也观察到文本GCN在MR上并没有优于CNN和基于LSTM的模型,这是因为GCN忽略了在情绪分类中非常有用的语序,而CNN和LSTM则明确地对连续的单词序列进行建模。另一个原因是MR文本图的边数比其他文本图的边数少,这限制了节点之间的消息传递。因为文档非常短,文档只有很少的文档和字的边。由于滑动窗口的数量较少,单词-单词边的数量也受到限制。然而,CNN和LSTM依赖于来自外部语料库的预先训练好的单词嵌入,而Text GCN只使用目标输入语料库中的信息。
从最后的结果分析来看,text GCN由于忽视了语序,在sentiment classification中的效果并不是特别好。 而对于文档级别的分类问题,text GCN的效果表现较好

浙公网安备 33010602011771号