语言及语音--数据库

自然语言

Text Classification Datasets

标签：实用学术基准

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准，它是最常用的。样本大小为 120K 到 3.6M，包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的数据集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

标签：实用学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

标签：实用

Quora 发布的第一个数据集，包含副本/语义近似值标记。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

标签：实用学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

标签：无

人工创建的仿真陈述问题/回答组合，还有维基百科文章的难度评分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

标签：实用

为 NLP 研究人工创建的复杂数据集。

地址：https://datasets.maluuba.com/

Billion Words

标签：实用学术基准

大型、通用型建模数据集。时常用来训练散布音（distributed）的词语表达，比如 word2vec 或 GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

标签：实用学术基准

PB（拍字节）级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集，是一个比较有用的网络数据集。

地址：http://commoncrawl.org/the-data/

bAbi

标签：学术基准经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

标签：学术基准

Project Gutenberg（一项正版数字图书免费分享工程）儿童图书里提取的成对数据（问题加情境，回答）基准。对问答、阅读理解、仿真陈述（factoid）查询比较有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

标签：学术基准经典较旧

标准的情绪数据集，对每一句话每一个节点的语法树，都有细致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

标签：经典较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准，在这方面比较有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

标签：经典较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

标签：经典较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠，让位于更大的数据集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

标签：经典较旧

较老的、经典垃圾邮件数据集，源自于 UCI Machine Learning Repository。由于数据集的管理细节，在学习私人订制垃圾信息过滤方面，这会是一个有趣的基准。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

语音

大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签：学术基准较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

标签：学术基准

有声图书数据集，包含文字和语音。接近 500 个小时的清楚语音，来自于多名朗读者和多个有声读物，根据图书章节来组织。

地址：http://www.openslr.org/12/

VoxForge

标签：实用学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力，会比较有用。

地址：http://www.voxforge.org/

TIMIT

标签：学术基准经典

只含英语的语音识别数据集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME

标签：实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音：真实，是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音；模拟，是通过把多个环境与语音结合来生成；清晰，是指没有噪音的清楚录音。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

标签：无

TED 演讲的音频转录。包含 1495 场 TED 演讲，以及它们的完整字幕文本。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

posted @ 2017-04-21 11:25 鹤顶一支草阅读(2020) 评论(1) 收藏举报

刷新页面返回顶部

鹤顶草

语言及语音--数据库

自然语言

Text Classification Datasets

WikiText

Question Pairs

CMU Q/A Dataset

Billion Words

Common Crawl

bAbi

20 Newsgroups

Reuters

语音

LibriSpeech

CHIME

TED-LIUM

公告