非结构化_关系抽取
1. 基于模板的关系抽取方法
模板1:【x】与妻子【y】..........
2. 基于监督学习的关系抽取方法
将关系抽取转化为分类问题
1. 预定义关系类型
2. 人工标注数据
3. 设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得
轻量级:实体和词的特征
中量级:句子中语块序列的特征
重量级:实体间的依存关系路径,实体间依存树结构的距离以及其他特定的结构信息
4. 选择分类模型(支持向量机,神经网络,朴素贝叶斯)
5. 基于标注数据训练模型
6. 对训练模型进行评估
基于深度学习的关系抽取:
不需要人工构建各种特征,输入一般只包括句子中词的位置及其位置的向量表示
流水线方法:实体识别和关系抽取作为两个独立的过程
联合抽取:将实体识别和关系抽取联合,在统一模型中共同优化
(1)流水线关系抽取
CR-CNN: 将句子中的词向量映射到低维向量,包含词向量和位置向量
固定大小窗口对词向量卷积操作,生产特征向量
对所有特征向量求最大值,得到整个句子的向量表示
计算句子向量和每个关系类型向量的点积,得到实体对于每种关系的分值
Attention CNNs:
对反应实体关系更重要的词语赋予更大的权重
在输入层引入 词与实体相关的注意力
在池化层和混合层引入 对目标关系类别的注意力
Attention BLSTM:
包含两个LSTM网络,从正反两个方向处理输入的句子,从而得到左右两边序列背景的状态向量
两个状态向量--元素级求和--词向量--注意力层组合词--句子向量--分类
(2)联合关系抽取
词嵌入层(嵌入层)
基于单词序列的LSTM-RNN层(序列层)
基于依赖性子树的LSTM-RNN层(依存关系层)
3. 基于弱监督学习的关系抽取方法
(1)远程监督方法:
含义:将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据
基本假设:如果两个实体在知识图谱中存在某种关系,则包含两个实体的句子均包含这种关系
步骤:从知识图谱中抽取存在目标关系的实体对
从非结构化文本中抽取含有实体对的句子作为训练样本
训练监督学习模型进行关系抽取
问题:大量噪声数据引入训练数据中,发生语义漂移现象
解决1:APCNNs(Attention Piecewise Convolutional Neural Networks)
PCNNs: 输入--句子的词向量和位置向量--得到--句子的向量表示
Attention: 输入--同一关系的所有样例句子向量--得到--所有句子的包特征--softmax分类器
解决2:(1)CNN-RL
样例选择器:基于随机策略,考虑当前句子的选择状态,从样例包中选择高质量的句子
关系分类器: 利用卷积神经网络对句子的实体关系进行分类,并向样例选择器反馈,帮助其改进样例选择策略
(2)Bootstrapping
用少量的实例作为初始种子集合--学习关系抽取的模板--抽取更多的实例加入种子集合--迭代
posted on 2019-11-29 10:35 happygril3 阅读(885) 评论(0) 收藏 举报
浙公网安备 33010602011771号