Loading

摘要: c++版本 下载 https://github.com/usnistgov/trec_eval/tree/master 的zip包 Installation: 在文件夹下执行 make 而后可以在文件下得到一个trec_eval文件 执行方式 ./trec_eval -m all_trec dev_ 阅读全文
posted @ 2022-11-07 16:07 戴墨镜的长颈鹿 阅读(1259) 评论(0) 推荐(0)
摘要: 文件格式,一行一个json,每行代表corpus中的一个文件。 from multiprocessing import Manager from datasets import load_dataset manager = Manager() corpus_dataset = load_datase 阅读全文
posted @ 2022-11-05 15:56 戴墨镜的长颈鹿 阅读(52) 评论(0) 推荐(0)
摘要: 错误方式 希望在进行softmax之前,如果对被mask掉的位置加上一个特别小的数字,那么softmax之后就会变成0。 pad_mask = (1 - doc_token_mask) * (-1999999) # 把原本0的位置变成一个特别小的数字 qk = qk + pad_mask # 加到原 阅读全文
posted @ 2022-10-19 20:55 戴墨镜的长颈鹿 阅读(685) 评论(0) 推荐(0)
摘要: 背景 pytorch 训练tricks 对比学习,使用dropout构造正样本,出现对比学习loss越来越大最终nan。但是如果事先对向量进行l2正则化,loss正常下降。 解决过程 考虑有如下原因,一一排除并最终锁定: batch_size太大,导致分母过大,负样本过多,log里面的项无限接近于0 阅读全文
posted @ 2022-10-11 21:10 戴墨镜的长颈鹿 阅读(566) 评论(0) 推荐(0)
摘要: recall50 openqa $$ recall50=\frac{在模型top50中能找到一个正确答案的query数量}{所有的query数量} $$ 宏平均:marco $$ recall50=\frac{1}{|qids|}\sum_{i=1}^{|qids|}(\frac{模型预测的top5 阅读全文
posted @ 2022-10-08 11:41 戴墨镜的长颈鹿 阅读(64) 评论(0) 推荐(0)
摘要: 现有的文本语义匹配模型 a. Cross-encoder类模型(例如 BERT)将两段文本concat,通过BERT直接输出相似度;优点是简单,可以实现文本深交互,缺点是由于计算量太大,无法在召回阶段使用; b. Bi-encoder类模型(例如 DPR)将两段文本分别通过模型获得文本表征,最后再通 阅读全文
posted @ 2022-08-17 15:10 戴墨镜的长颈鹿 阅读(614) 评论(0) 推荐(0)
摘要: 在超球面上通过对齐和一致实现理解对比表示学习 —— 论文阅读笔记 两个对比损失最关键的要素: 正例对特征的对齐(就是找最接近的正例对)。 超球面特征分布的均匀分布(可以保存最多的信息 torch 版本代码: # bsz : batch size (number of positive pairs) 阅读全文
posted @ 2022-06-28 15:54 戴墨镜的长颈鹿 阅读(124) 评论(0) 推荐(0)
摘要: 读透Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations 谷歌最新双塔DNN召回模型——应用于YouTube大规模视频推荐场景 当视频素材库的视频数量巨大时(M非常大),计算softmax函数是十分 阅读全文
posted @ 2022-06-28 15:47 戴墨镜的长颈鹿 阅读(1809) 评论(0) 推荐(0)
摘要: 【推荐系统】召回离线评估指标Hit Ratio 简单点说,就是这个batch里面的top k里面有没有target item def compute_hit_ratio_cos_sim(label, pred, k): """ label: bs*bs pred: bs*bs """ print(" 阅读全文
posted @ 2022-05-20 11:09 戴墨镜的长颈鹿 阅读(435) 评论(0) 推荐(0)
摘要: 胶囊和神经元 首先总结下胶囊和神经元的不同: 人工神经元的计算包括三步: (1) 输入标量加权 (2) 加权后的标量相加 (3) 求和得到的标量到输出标量的非线性变换 胶囊可以理解为这三个步骤的向量版本,同时增加了对输入的仿射变换 (1) 输入向量的矩阵乘法:胶囊接受的输入向量编码了低层胶囊检测出的 阅读全文
posted @ 2022-05-15 20:53 戴墨镜的长颈鹿 阅读(300) 评论(0) 推荐(0)