摘要:
DeepWalk: Online Learning of Social Representations 对于具有图结构的数据,通过随机游走算法可以得到一些序列片段,再将这些序列片段当作文本片段用w2v相同的方法,可以得到图结构中各个节点的embedding。 LINE: Large-scale In 阅读全文
摘要:
Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 这篇文章研究nlp 的pretrain模型用任务相关的数据进一步预训练效果会更好。结论比较符合直觉,甚至感觉不用研究都能得出这个结论。方法上作者用robert做实验, 阅读全文
摘要:
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 13年的DSSM模型,学习query到doc的相关性,用两个DNN模型将query和doc编码到相同维度的语义层,然后用cosine度量相关 阅读全文
摘要:
FaceNet: A Unified Embedding for Face Recognition and Clustering 在相关性中遇到了triple loss ,所以看下这篇论文。这是人脸识别领域的重要论文。该论文的方法是将人脸的图片经过cnn编码成向量,每次训练有三个向量Anchor、P 阅读全文
摘要:
Byte Pair Encoding is Suboptimal for Language Model Pretraining 主要比较bpe算法和unigram LM tonkenize算法的优劣,主要结论是LM tonkenize算法更优 Author2Vec: A Framework for 阅读全文