论文阅读：End to End Chinese Lexical Fusion Recognition with Sememe Knowledge

模型

\[h_1 ... h_n = BERT(c_1,...,c_n) \]

提及识别：利用CRF解码器获取序列标记输出。这有助于识别所有提及的词汇，包括融合词和分离词。（\(L_{mention}\)训练目标是最小化 gold-standard tagging sequence 的交叉熵）
共指识别：在确定提及对是否为共指关系时，模型利用了BiAffine解码器。（\(L_{coref}\)采用平均交叉熵损失）
联合训练：将两个子任务的损失合并在一起进行联合训练。（\(L_{joint} = L_{mention} + \alpha L_{coref}\)）

从HowNet构建Sememe。字符表示的语义通过两个步骤获得：
1）首先，通过其sememe图和其源词的位置偏移得到sememe表示：

2）然后，通过全局注意力，聚合所有意义表示以达到字符级表示，从而产生 sememe 增强编码器。

BiAffine解码器的核心思想是利用双仿射（BiAffine）关系来对元素对之间的潜在关系进行建模和评分。BiAffine解码器通常接受来自神经网络（如LSTM或Transformer）的上下文化特征表示作为输入。

GAT是一种专门用于处理图结构数据的深度学习模型。它的核心是注意力机制，它允许模型聚焦于重要的节点，并动态地从邻近节点聚合信息：

节点表示：每个节点都有一个向量表示，这些表示可以是节点的特征或者是经过嵌入的低维向量。
注意力系数的计算：对于每一对节点，GAT通过一个可学习的函数（通常是一个小型的神经网络）来计算它们之间的注意力系数。这个系数决定了在聚合邻居节点信息时，每个邻居节点的重要性。
加权特征聚合：每个节点会根据计算出的注意力系数，从其邻居节点中聚合信息。这意味着每个节点的更新表示是其邻居节点表示的加权和，权重即为注意力系数。
多头注意力：为了增强模型的表达能力，GAT通常会采用多头注意力机制，类似于Transformer模型。通过多个独立的注意力机制并行处理信息，然后将结果聚合，可以提高学习的稳定性和性能。
非线性激活：聚合完邻居节点信息后，通常会应用非线性激活函数（如ReLU），以增加模型的非线性表达能力。

Liu Y, Zhang M, Ji D. End to end Chinese lexical fusion recognition with sememe knowledge[J]. arXiv preprint arXiv:2004.05456, 2020.

posted @ 2024-07-31 12:23 Barn 阅读(147) 评论(0) 收藏举报

刷新页面返回顶部