Harukaze

 

【数据集】Kyoto University Web Document Leads Corpus

京都大学工作组主页:https://nlp.ist.i.kyoto-u.ac.jp/index.php?KWDLC

数据集地址:https://github.com/ku-nlp/KWDLC

Overview

这是一个日文文本语料库,由带各种语言注释的web文档的前三句话组成。通过收集web文档的三句引语,该语料库包含了各种类型和风格的文档,如新闻文章、百科文章、博客和商业页面等。它包括约5 000份文件,相当于15 000句话。

语言标注包括词法标注、命名实体标注、依赖标注、谓词-参数结构标注(包括零回指标注、共指标注和语篇标注)。annotations of morphology, named entities, dependencies, predicate-argument structures including zero anaphora, coreferences, and discourse.除语篇注释外,其他所有注释都是通过人工修改词法分析器 JUMAN 和依赖、格结构case structure和回指分析器 KNP 的自动分析来给出的。话语注释采用众包方法。The discourse annotations were given using crowdsourcing.【Crowdsourcing(众包)是指,从一广泛群体,特别是在线社区,获取所需想法,服务或内容贡献的实践。】

Notes on annotation guidelines

这个语料库的注释指南写在“doc”目录中的手册中。形态学和依赖morphology and dependencies的指导原则在syn_guide .pdf中描述,谓词-参数结构和共引用的 predicate-argument structures and coreferences指导原则在rel_guide .pdf中描述,语篇关系discourse relations的指导原则在disc_guide .pdf中描述。关于命名实体的指导方针可在IREX网站(http://nlp.cs.nyu.edu/irex/)上获得。

Distributed files

  • knp/ : the corpus annotated with morphology, named entities, dependencies, predicate-argument structures, and coreferences
  • disc/ : the corpus annotated with discourse relations
  • org/ : the raw corpus
  • doc/ : annotation guidelines
  • id/ : document id files providing train/test split

Note that the encoding of the corpus data is UTF-8.

Org:
# S-ID:w201106-0000060050-1
コイントスを3回行う。
# S-ID:w201106-0000060050-2
表が出た数だけ、フィールド上のモンスターを破壊する。
# S-ID:w201106-0000060050-3 MEMO:
この効果は1ターンに1度だけ自分のメインフェイズに使用する事ができる。

Format of the corpus annotated with annotations of morphology, named entities, dependencies, predicate-argument structures, and coreferences

用形态学、命名实体、依赖关系、谓词-参数结构和共引用标注的语料库格式

Annotations of this corpus are given in the following format.(knp)

# S-ID:w201106-0000010001-1
* 2D
+ 3D
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
* 2D
+ 2D
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
+ 3D <NE:ORGANIZATION:京都大学>
大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
* -1D
+ -1D <rel type="" target="太郎" sid="w201106-0000010001-1" id="0"/><rel type="" target="大学" sid="w201106-0000010001-1" id="2"/>
行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10
EOS

The first line represents the ID of this sentence.

In the subsequent lines, the lines starting with "*" denote "bunsetsu文節",

the lines starting with "+" denote basic phrases基本短语, and the other lines denote morphemes.语素

The line of morphemes is the same as the output of the morphological analyzers, JUMAN and Juman++.语素行与形态分析器JUMAN和JUMAN++的输出相同。This information includes surface string, reading, lemma, part of speech (POS), fine-grained POS, conjugate type, and conjugate form.这些信息包括表面字符串、读取、引理、词性(POS)、细粒度POS、共轭类型和共轭形式。"*" means that its field is not available.“*”表示其字段不可用。Note that this format is slightly different from KWDLC 1.0, which adopted the same format as Kyoto University Text Corpus 4.0.注意,此格式与KWDLC 1.0略有不同,KWDLC 1.0采用与京都大学文本语料库4.0相同的格式。

以“*”开头的一行代表“bunsetsu”,这是日语中表示依赖的传统单位。“语词”由一个或多个实词和零个或多个虚词组成。在这一行中,第一个数字表示其依赖头部的ID。后面的字母表示依赖关系的类型,即“D”(正常依赖)、“P”(协调依赖)、“I”(不完全协调依赖)、“A”(同正依赖)。

以“+”开头的行表示一个基本短语,它是一个对各种关系进行注解的单元。一个基本短语由一个实词和零个或多个虚词组成。因此,它相当于一个bunsetsu或bunsetsu的一部分。在这一行中,第一个数字表示其依赖头部的ID。随后的字母表的定义与bunsetsu相同。这一行的其余部分包括命名实体和各种关系的注释。

Annotations of named entity are given in <NE> tags. <NE> has the following four attributes: type, target, possibility, and optional_type, which mean the class of a named entity, the string of a named entity, possible classes for an OPTIONAL named entity, and a type for an OPTIONAL named entity, respectively. The details of these attributes are described in the IREX annotation guidelines.命名实体的注释在标签中给出。有以下四个属性:type、target、possibility和optional_type,分别表示命名实体的类、命名实体的字符串、可选命名实体的可能类和可选命名实体的类型。IREX注释准则中描述了这些属性的细节。

Annotations of various relations are given in <rel> tags. <rel> has the following four attributes: type, target, sid, and id, which mean the name of a relation, the string of the counterpart, the sentence ID of the counterpart, and the basic phrase ID of the counterpart, respectively. If a basic phrase has multiple tags of the same type, a "mode" attribute is also assigned, which has one of "AND," "OR," and "?." The details of these attributes are described in the annotation guidelines (rel_guideline.pdf).各种关系的注释在标签中给出。有type、target、sid、id四个属性,分别表示关系的名称、对应对象的字符串、对应对象的句子id(sid)、对应对象的基本短语id。如果一个基本短语有多个相同类型的标签,那么还会分配一个“mode”属性,该属性包含一个“AND”、“OR”和“?”。这些属性的细节在注释指南(rel_guide .pdf)中描述。

Format of the corpus annotated with discourse relations 用语篇关系标注的语料格式

In this corpus, a clause pair is given a discourse type and its probability as follows.(disc)

# A-ID:w201106-0001998536
1 今日とある企業のトップの話を聞くことが出来た。
2 経営者として何事も全てビジネスチャンスに変えるマインドが大切だと感じた。
3 生きていく上で追い風もあれば、
4 逆風もある。
1-2 関係なしまたは弱い関係:0.999915 対比:3.6e-05 根拠:1.5e-05 原因・理由:8e-06 目的:7e-06
3-4 対比:0.999986 その他根拠:3e-06

第一行表示文档的ID,后面的块表示子句ID和子句,最后一个块表示子句对的话语关系及其概率。这些话语关系和概率是众包第二阶段的结果。These discourse relations and probabilities are the results of the second stage of crowdsourcing.每一行都是一个话语关系及其概率的列表。对于概率最大的话语关系,对话语方向进行标注;如果顺序相反(逆方向)" 添加到话语关系中。这些概率和话语关系的细节在[Kawahara et al,2014]和注释指南(disc)中进行了描述_guideline.pdf).

References

Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi. Building a Diverse Document Leads Corpus Annotated with Semantic Relations, 构建一个语义关系标注的多元文档引导语料库In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012.https://www.aclweb.org/anthology/Y12-1058.pdf

萩行正嗣, 河原大輔, 黒橋禎夫. 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析, 自然言語処理, Vol.21, No.2, pp.213-248, 2014.https://www.jstage.jst.go.jp/article/jnlp/21/2/21_213/_article/-char/ja/

Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano. Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing,基于两阶段众包的话语注释语料库的快速发展 In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014.https://www.aclweb.org/anthology/C14-1027.pdf

Acknowledgment

该语料库的创建得到了JSPS KAKENHI授权号24300053和JST CREST“大数据集成的先进核心技术”的支持。话语注释是在Yahoo!的支持下通过众包获得的!

posted on 2021-04-22 18:13  Harukaze  阅读(470)  评论(0)    收藏  举报

导航