随笔分类 - 论文文章阅读
记录每周论文文章的阅读
摘要:DeepWalk: Online Learning of Social Representations 对于具有图结构的数据,通过随机游走算法可以得到一些序列片段,再将这些序列片段当作文本片段用w2v相同的方法,可以得到图结构中各个节点的embedding。 LINE: Large-scale In
阅读全文
摘要:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 这篇文章研究nlp 的pretrain模型用任务相关的数据进一步预训练效果会更好。结论比较符合直觉,甚至感觉不用研究都能得出这个结论。方法上作者用robert做实验,
阅读全文
摘要:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 13年的DSSM模型,学习query到doc的相关性,用两个DNN模型将query和doc编码到相同维度的语义层,然后用cosine度量相关
阅读全文
摘要:Byte Pair Encoding is Suboptimal for Language Model Pretraining 主要比较bpe算法和unigram LM tonkenize算法的优劣,主要结论是LM tonkenize算法更优 Author2Vec: A Framework for
阅读全文

浙公网安备 33010602011771号