论文阅读：引入词集级注意力机制的中文命名实体识别方法

WSA-CNER方法

首先，将输入序列的每个字映射成一个字向量；
然后，将外部词汇信息整合到每个字的最终表示中；
最后，将字的最终表示输入到序列建模层和标签预测层中，得到最终的预测结果。

输入表示层

使用SoftLexicon方法将输入序列中每个字的词典匹配结果划分为4个词集（BMES）。

输入序列为"中国语言学"，\(c_3\)代表"语"，它对应的词集为：

B(\(c_3\)) = {"语言"、"语言学"} # 以\(c_3\)开头的词

M(\(c_3\)) = {"中国语言"} # 包含\(c_3\)，且不以\(c_3\)开头的词

E(\(c_3\)) = {"国语"、"中国语"} # 以\(c_3\)结束的词

S(\(c_3\)) = {"语"} # 单字词

当部分词集向量的取值非常相近或者完全相等时，这些取值就不能明显地区分 \(c_i\) 在词中所处的位置，导致后续步骤无法充分利用该位置信息。
为此，本文在BMES的词向量\(v_i^{ws}(B)\)，\(v_i^{ws}(M)\)，\(v_i^{ws}(E)\)，\(v_i^{ws}(S)\)中分别添加了不同的可训练参数，让神经网络能够更灵活地调整这 4 个词集向量的取值，以更好地区分 \(c_i\) 在词中所处的位置：
为了充分考虑各个词集重要程度的不同，引入词集级注意力机制，首先自动获取每个词集的重要程度，然后依照重要程度去增强有用的特征并抑制用处不大的特征。
最后，对这 4 个词集向量进行重要度加权，并将加权后的词集向量整合到每个字的最终表示中。

序列建模层

序列建模层使用单层Bi-LSTM，将输入表示层的最终表示序列作为输入，对字和字之间的关系进行特征提取。

标签预测层

使用CRF进行条件预测。

钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报 (工学版), 2022, 52(5): 1098-1105.

posted @ 2024-07-31 10:50 Barn 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部