kangheng

2020年6月30日

一周论文阅读20200629

摘要： DeepWalk: Online Learning of Social Representations 对于具有图结构的数据，通过随机游走算法可以得到一些序列片段，再将这些序列片段当作文本片段用w2v相同的方法，可以得到图结构中各个节点的embedding。 LINE: Large-scale In 阅读全文

posted @ 2020-06-30 20:35 kangheng 阅读(172) 评论(0) 推荐(0)

2020年6月14日

一周论文阅读20200614

摘要： Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 这篇文章研究nlp 的pretrain模型用任务相关的数据进一步预训练效果会更好。结论比较符合直觉，甚至感觉不用研究都能得出这个结论。方法上作者用robert做实验，阅读全文

posted @ 2020-06-14 22:45 kangheng 阅读(251) 评论(0) 推荐(0)

2020年5月19日

一周论文阅读20200519

摘要： LEARNING TO RANK WITH BERT IN TF RANKING rank 任务将query和doc一起送进bert得到cls的表征，以此为特征用TF RANKING 框架进行rank TF Ranking: Scalable TensorFlow Library for Lear 阅读全文

posted @ 2020-05-19 20:51 kangheng 阅读(143) 评论(0) 推荐(0)

2020年5月10日

一周论文阅读20200510

摘要： Learning Deep Structured Semantic Models for Web Search using Clickthrough Data 13年的DSSM模型，学习query到doc的相关性，用两个DNN模型将query和doc编码到相同维度的语义层，然后用cosine度量相关阅读全文

posted @ 2020-05-10 22:30 kangheng 阅读(130) 评论(0) 推荐(0)

2020年4月26日

一周论文阅读20200424

摘要： FaceNet: A Unified Embedding for Face Recognition and Clustering 在相关性中遇到了triple loss ，所以看下这篇论文。这是人脸识别领域的重要论文。该论文的方法是将人脸的图片经过cnn编码成向量，每次训练有三个向量Anchor、P 阅读全文

posted @ 2020-04-26 22:28 kangheng 阅读(267) 评论(0) 推荐(0)

2020年4月19日

一周论文阅读20200419

摘要： Byte Pair Encoding is Suboptimal for Language Model Pretraining 主要比较bpe算法和unigram LM tonkenize算法的优劣，主要结论是LM tonkenize算法更优 Author2Vec: A Framework for 阅读全文

posted @ 2020-04-19 22:37 kangheng 阅读(190) 评论(0) 推荐(0)

2019年9月16日

归并排序、jensen不等式、非线性、深度学习

摘要：前言在此记录一些不太成熟的思考，希望对各位看官有所启发。从题目可以看出来这篇文章的主题很杂，这篇文章中我主要讨论的是深度学习为什么要“深”这个问题。先给出结论吧：“深”的层次结构是为了应对现实非线性问题中的复杂度，这种“深”的分层结构能够更好地表征图像语音等数据。好了，如果各位看官感兴趣，那就阅读全文

posted @ 2019-09-16 13:26 kangheng 阅读(621) 评论(0) 推荐(2)

2019年5月8日

链接的思考

摘要：引言最近做一些工程，经常遇到链接错误，为此翻阅了相关的资料，梳理了一下编译链接的流程和原理。编程语言分为编译型和解释型，编译型语言是用编译器将高级语言翻译成计算机可执行的低级语言；而解释型语言是使用解释器是将低级语言“提升”成高级语言。解释型语言一次执行一句，缺少程序的全局信息，解释器中包含大量的阅读全文

posted @ 2019-05-08 19:25 kangheng 阅读(463) 评论(0) 推荐(2)

2019年2月1日

反向传播算法为什么要“反向”

摘要：反向传播算法是深度学习的最重要的基础，这篇博客不会详细介绍这个算法的原理和细节。，如果想学习反向传播算法的原理和细节请移步到这本不错的 "资料" 。这里主要讨论反向传播算法中的一个小细节：反向传播算法为什么要“反向”？背景在机器学习中,很多算法最后都会转化为求一个目标损失函数（loss func 阅读全文

posted @ 2019-02-01 15:27 kangheng 阅读(10692) 评论(1) 推荐(6)

2018年12月22日

浅说机器学习理论

摘要：机器学习是现在在风口上。其包括一系列的具体算法，学习这些算法需要一定的数学基础（线性代数、概率论），网上有大量的资料可以参考学习；对于工程来说门槛就更低了，有许多优秀的现成框架可以使用。虽然我们调用一些api、调调参数就能完成很多工作，但是理解这背后的“为什么”还需要下一番功夫。机器学习理论是该领域阅读全文

posted @ 2018-12-22 14:27 kangheng 阅读(738) 评论(3) 推荐(0)

公告