随笔分类 - 海豚实习
摘要:需要将每行变成只含数字,比如0.324724108 错误代码 正确代码
阅读全文
摘要:这是id.txt文件,一共有4927行,保持原有行数字不变,现在我需要将其扩展到14457行,并且新出现的每行的数字逐渐增大,为了方便,我就设定每行增加1。 错误代码1 错误代码2 错误代码3 错误代码4 正确代码
阅读全文
摘要:mode给出模型计算出的test数据的similarity值,target是test数据本身给出的标准值,需要计算mode和target中00,01,10,11的个数 这个的zip还要清理一下 >>>a = [1,2,3] >>>b = [9,6,1] >>>for (i,j) in zip(a,b
阅读全文
摘要:需要将模型中对test数据的prediction值进行分类,分类标准是大于0.5的为1类,即相似,小于0.5的为0类,即不相似,并写入文件。 字符到底是什么 文件读入写出都是字符? 字符大小比较,比较那个0.5错没有,accsi表中没有0.5,只有0到9,那怎么比较124和125的字符串呢? 错误1
阅读全文
摘要:1.在出现错误的行之前print一些变量,发现错误 2.在print某个东西的前后可以print ‘==’这种符号,让显示更加明显,便于调试 3.在terminal中,用print调试,有时候显示出来的数据量太大,比如4500行,一页的terminal显示不完,terminal是无法向前翻页找到之前
阅读全文
摘要:1) 文件内全部替换: :%s#abc#123#g (如文件内有#,可用/替换,:%s/abc/123/g) --注:把abc替换成123 (或者: %s/str1/str2/g 用str2替换文件中所有的str1) 2) 文件内局部替换: :20,30s#abc#123(如文件内有#,可用/替换,
阅读全文
摘要:这是训练中文vocab做的句子相似度的程序: /home/xbwang/torch/install/bin/luajit: /home/xbwang/newtextsimilarity/util/Vocab.lua:75: Token not in vocabulary and no UNK tok
阅读全文
摘要:测试数据格式如下,第一个基准句子,第二个为一个相似句子,后面9个为不相似句子。要构成想要的测试格式,把基准句子切分出来写在一个文件并重复10排与后面的10个句子对应 错误的代码 这个代码基准句子只在文件写了一次,修改那部分为 刚开始我还犯了一些错误,将代码改成这样 写成没有+号连接符只有空白输出
阅读全文
摘要:切分的数据的格式如下: python代码 如果没有if len(a) >= 3,就会报错,因为有些行可能分割出来不够b,c,d三个。 中间调试过程中不断添加print语句,这样能看见到底哪里出错,注意这种调试的方法。 上面是测试集的数据,也需要分割,可以看到出有的一组数据是一行,有的占两行。对于有两
阅读全文
摘要:vocab的格式如下所示,每个词和对应100维的向量: 有bug的代码 >>> line=f.readline() >>> a=line[:1] >>> a ‘<' >>> a '<' >>> a=line[4] >>> a ' ' >>> a=line[5] >>> a '0' 这是读文件第二行的
阅读全文
摘要:bash是linux操作系统的shell。以下是Multi-Perspective Sentence Similarity Modeling论文实现时碰到的一个bash: 1.bash中: 变量赋值 变量读取 所以在bash中$就表示对变量的引用 2. if [ ! -f $glove_dir/$g
阅读全文
摘要:由于下载glove时,下载脚本并未自己执行txt文件转.th文件,在执行th trainSIC.lua时报错 需要根据fetch_and_preprocess.sh中的代码利用scripts中的convert-wordvecs.lua手动将txt文件转换成th文件:th scripts/conver
阅读全文
浙公网安备 33010602011771号