摘要:
预处理和新建词表: export CUDA_VISIBLE_DEVICES=0 data_dir=./zhen_mt/ # subword-nmt learn-bpe -s 32000 < $data_dir/train.src > $data_dir/codes.src # subword-nmt 阅读全文
posted @ 2021-11-16 18:09
BonjourParis
阅读(213)
评论(0)
推荐(0)
摘要:
用训练好的模型解码: export CUDA_VISIBLE_DEVICES=3 fairseq-preprocess \ --source-lang ru \ --target-lang zh \ --trainpref ru2zh_data/data-bin/train \ --validpre 阅读全文
posted @ 2021-11-16 18:06
BonjourParis
阅读(381)
评论(0)
推荐(0)
摘要:
需要先下载glove词向量。注意这里我还对glove词向量的格式进行了转换。 from fse.models import uSIF from gensim.models.keyedvectors import KeyedVectors from gensim.models import Word2 阅读全文
posted @ 2021-11-16 18:04
BonjourParis
阅读(78)
评论(0)
推荐(0)
摘要:
主要难点在于,如何按照长度对语句进行分段。 python其实也能实现,但是感觉pandas的实现简单一些。 import sys import pdb import pandas as pd with open(sys.argv[1], 'r', encoding='utf-8') as fin: 阅读全文
posted @ 2021-11-16 18:02
BonjourParis
阅读(366)
评论(0)
推荐(0)
摘要:
话不多说直接上脚本(摩西解码器自己从github里扒) #! /bin/bash SCRIPTS=../../../tools/mosesdecoder/scripts TOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl # moses_tokenizer per 阅读全文
posted @ 2021-11-16 17:58
BonjourParis
阅读(313)
评论(0)
推荐(0)
摘要:
安装 N-gram语言模型打分,我使用的是kenlm,kenlm是基于cmake编译的C++程序,非root权限下需要指定几个参数,还有一些依赖包需要手动装。 1.boost #去boost官网下载最新版的boost:http://www.boost.org ./bootstrap.sh --p 阅读全文
posted @ 2021-11-16 17:56
BonjourParis
阅读(505)
评论(0)
推荐(0)
摘要:
如何沿着某一维取出所有元素: torch.gather(input, dim, index) # 可以沿着某一维将需要的元素都取出来 # 一般input和index的维度除了要操作的那一维,其他维都是相同的 # 举例: input = torch.LongTensor([[[1,2],[3,4],[ 阅读全文
posted @ 2021-11-16 17:48
BonjourParis
阅读(2513)
评论(0)
推荐(0)

浙公网安备 33010602011771号