BonjourParis

2021年11月16日

摘要：预处理和新建词表： export CUDA_VISIBLE_DEVICES=0 data_dir=./zhen_mt/ # subword-nmt learn-bpe -s 32000 < $data_dir/train.src > $data_dir/codes.src # subword-nmt 阅读全文

posted @ 2021-11-16 18:09 BonjourParis 阅读(213) 评论(0) 推荐(0)

fairseq机器翻译解码脚本

摘要：用训练好的模型解码： export CUDA_VISIBLE_DEVICES=3 fairseq-preprocess \ --source-lang ru \ --target-lang zh \ --trainpref ru2zh_data/data-bin/train \ --validpre 阅读全文

posted @ 2021-11-16 18:06 BonjourParis 阅读(381) 评论(0) 推荐(0)

轻轻松松用fse完成领域筛选

摘要：需要先下载glove词向量。注意这里我还对glove词向量的格式进行了转换。 from fse.models import uSIF from gensim.models.keyedvectors import KeyedVectors from gensim.models import Word2 阅读全文

posted @ 2021-11-16 18:04 BonjourParis 阅读(78) 评论(0) 推荐(0)

轻轻松松用panda完成长度筛选

摘要：主要难点在于，如何按照长度对语句进行分段。 python其实也能实现，但是感觉pandas的实现简单一些。 import sys import pdb import pandas as pd with open(sys.argv[1], 'r', encoding='utf-8') as fin: 阅读全文

posted @ 2021-11-16 18:02 BonjourParis 阅读(366) 评论(0) 推荐(0)

轻轻松松用mosesdecoder完成语料筛选

摘要：话不多说直接上脚本（摩西解码器自己从github里扒） #! /bin/bash SCRIPTS=../../../tools/mosesdecoder/scripts TOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl # moses_tokenizer per 阅读全文

posted @ 2021-11-16 17:58 BonjourParis 阅读(313) 评论(0) 推荐(0)

kenlm用于语料筛选和领域筛选

摘要：安装 N-gram语言模型打分，我使用的是kenlm，kenlm是基于cmake编译的C++程序，非root权限下需要指定几个参数，还有一些依赖包需要手动装。 1.boost #去boost官网下载最新版的boost：http://www.boost.org ./bootstrap.sh --p 阅读全文

posted @ 2021-11-16 17:56 BonjourParis 阅读(505) 评论(0) 推荐(0)

Pytorch如何取出特定维的元素

摘要：如何沿着某一维取出所有元素： torch.gather(input, dim, index) # 可以沿着某一维将需要的元素都取出来 # 一般input和index的维度除了要操作的那一维，其他维都是相同的 # 举例： input = torch.LongTensor([[[1,2],[3,4],[ 阅读全文

posted @ 2021-11-16 17:48 BonjourParis 阅读(2513) 评论(0) 推荐(0)

公告