A General Framework for Information Extraction using Dynamic Span Graphs
摘要
本文提出Dynamic Graph IE (DYGIE)框架,通过动态构建span图以获得共享span表示,实现一个通用框架解决多个信息抽取任务,不同于往常的联合抽取框架仅仅共享第一层LSTM
选择置信度最高的实体span作为节点,根据span之间的relation types和coreferences构建边,之后通过多次迭代传播获取span的最终表示
创新
使用span来表示所有可能的实体,可以解决实体嵌套问题
通过span之间的关系构图,实现全局信息的传递,多次迭代学习得到span的全局信息表示
一个框架解决多个信息抽取任务
模型
问题定义
输入:单词序列表示的文档
中间步骤:获取所有可能的span集合
输出:所有span的实体类型,所有span对的关系类型,所有span的指代关系
Model Architecture

Token Representation Layer
每一个token的输入表示为character reprensetation, GLoVe word embeddings,以及ELMo embeddings的连接
之后输入BiLSTM获取隐藏状态
Span Representation Layer
对于每个span,初始化向量表示为左右端点词的BiLSTM输出,基于软注意力的head-word,以及span长度特征嵌入的连接
Coreference Propagation Layer
利用指代构建图,迭代传播N次,通过更新向量来计算当前span表示
Relation Propagation Layer
利用关系构建图,迭代传播M次,通过更新向量来计算当前span表示
Final Prediction Layer
通过单个span的表示预测实体类别,通过两个span的连接表示预测关系类别
Dynamic Graph Construction and Span Refinemen
Coreference Propagation
span更新向量

指代分数权重

Relation Propagation
span更新向量

Updating Span Representations with Gating

实验


结论
本文提出使用span来解决信息抽取问题,但是并没有明确介绍span的获得过程以及选择机制
利用文本中span的关系构图是值得我们思考的,我们是否可以挖掘文本中更深层的关系,并且利用gcn解决此类问题

浙公网安备 33010602011771号