论文阅读:引入词集级注意力机制的中文命名实体识别方法

WSA-CNER方法

  • 首先,将输入序列的每个字映射成一个字向量
  • 然后,将外部词汇信息整合到每个字的最终表示中;
  • 最后,将字的最终表示输入到序列建模层标签预测层中,得到最终的预测结果。

输入表示层

  • 使用SoftLexicon方法将输入序列中每个字的词典匹配结果划分为4个词集(BMES)。

输入序列为"中国语言学",\(c_3\)代表"语",它对应的词集为:

  • B(\(c_3\)) = {"语言"、"语言学"} # 以\(c_3\)开头的词
  • M(\(c_3\)) = {"中国语言"} # 包含\(c_3\),且不以\(c_3\)开头的词
  • E(\(c_3\)) = {"国语"、"中国语"} # 以\(c_3\)结束的词
  • S(\(c_3\)) = {"语"} # 单字词
  • 当部分词集向量的取值非常相近或者完全相等时,这些取值就不能明显地区分 \(c_i\) 在词中所处的位置,导致后续步骤无法充分利用该位置信息。
  • 为此,本文在BMES的词向量\(v_i^{ws}(B)\)\(v_i^{ws}(M)\)\(v_i^{ws}(E)\)\(v_i^{ws}(S)\)中分别添加了不同的可训练参数,让神经网络能够更灵活地调整这 4 个词集向量的取值,以更好地区分 \(c_i\) 在 词中所处的位置:
  • 为了充分考虑各个词集重要程度的不同,引入词集级注意力机制,首先自动获取每个词集的重要程度,然后依照重要程度去增强有用的特征并抑制用处不大的特征。
  • 最后,对这 4 个词集向量进行重要度加权,并将加权后的词集向量整合到每个字的最终表示中

序列建模层

序列建模层使用单层Bi-LSTM,将输入表示层的最终表示序列作为输入,对字和字之间的关系进行特征提取。

标签预测层

使用CRF进行条件预测。

钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报 (工学版), 2022, 52(5): 1098-1105.

posted @ 2024-07-31 10:50  Barn  阅读(97)  评论(0)    收藏  举报