随笔分类 -  论文文章阅读

记录每周论文文章的阅读
摘要:DeepWalk: Online Learning of Social Representations 对于具有图结构的数据,通过随机游走算法可以得到一些序列片段,再将这些序列片段当作文本片段用w2v相同的方法,可以得到图结构中各个节点的embedding。 LINE: Large-scale In 阅读全文
posted @ 2020-06-30 20:35 kangheng 阅读(171) 评论(0) 推荐(0)
摘要:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 这篇文章研究nlp 的pretrain模型用任务相关的数据进一步预训练效果会更好。结论比较符合直觉,甚至感觉不用研究都能得出这个结论。方法上作者用robert做实验, 阅读全文
posted @ 2020-06-14 22:45 kangheng 阅读(248) 评论(0) 推荐(0)
摘要:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 13年的DSSM模型,学习query到doc的相关性,用两个DNN模型将query和doc编码到相同维度的语义层,然后用cosine度量相关 阅读全文
posted @ 2020-05-10 22:30 kangheng 阅读(129) 评论(0) 推荐(0)
摘要:Byte Pair Encoding is Suboptimal for Language Model Pretraining 主要比较bpe算法和unigram LM tonkenize算法的优劣,主要结论是LM tonkenize算法更优 Author2Vec: A Framework for 阅读全文
posted @ 2020-04-19 22:37 kangheng 阅读(188) 评论(0) 推荐(0)