英文词向量:使用fastText预训练的词向量
http://fasttext.cc/docs/en/english-vectors.html
上面的页面收集了几个使用fastText训练过的词向量。
通过不同来源学习的预训练的词向量有以下几个:
- wiki-news-300d-1M.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集中(16B tokens)训练的100万个词向量。
- wiki-news-300d-1M-subword.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集(16B tokens)中包含子单词信息训练的100万个词向量。
- crawl-300d-2M.vec.zip: 在Common Crawl训练的200万个词向量 (600B tokens)。
Format
文件的第一行包含词汇表中的单词数量和向量的大小。每一行都包含一个单词及其向量,如默认的fastText格式。每个值都是分开的。单词是按词频降序排列的。这些文本模型可以使用以下代码在Python中加载:
import io def load_vectors(fname): fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore') n, d = map(int, fin.readline().split()) data = {} for line in fin: tokens = line.rstrip().split(' ') data[tokens[0]] = map(float, tokens[1:]) return data
浙公网安备 33010602011771号