英文词向量:使用fastText预训练的词向量

http://fasttext.cc/docs/en/english-vectors.html

上面的页面收集了几个使用fastText训练过的词向量。

通过不同来源学习的预训练的词向量有以下几个:

  1. wiki-news-300d-1M.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集中(16B tokens)训练的100万个词向量。
  2. wiki-news-300d-1M-subword.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集(16B tokens)中包含子单词信息训练的100万个词向量。
  3. crawl-300d-2M.vec.zip: 在Common Crawl训练的200万个词向量 (600B tokens)。

Format

文件的第一行包含词汇表中的单词数量和向量的大小。每一行都包含一个单词及其向量,如默认的fastText格式。每个值都是分开的。单词是按词频降序排列的。这些文本模型可以使用以下代码在Python中加载:

import io

def load_vectors(fname):
    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
    n, d = map(int, fin.readline().split())
    data = {}
    for line in fin:
        tokens = line.rstrip().split(' ')
        data[tokens[0]] = map(float, tokens[1:])
    return data

 

posted @ 2018-07-24 02:55  LifeExp  阅读(7131)  评论(0)    收藏  举报