远程监督是一种基于外部知识的监督方法,旨在用已知的知识(知识图谱)来自动标注文本数据,从而用于训练关系抽取模型。在关系抽取中,样本呈现长尾趋势,即少数关系有着大量样本,剩下的不常见的关系的带标签样本数很少。这时就可以用远程监督学习方法来自动生成带标签的样本。 远程监督其核心思想是:如果两个实体在外部的知识图谱中存在关系,那么就默认存在这两个实体的句子是该关系的正样例