摘要: 上一篇文章主要介绍了查询与文档内容相似性的打分以及基于概率模型的BM25模型和如何修改lucene的排序源代码。这篇文章将重点讲述机器学习排序,其中的重头戏是关于ListNet算法的英文原版学术论文的解读以及RankLib源码包的学习。 机器学习排序:从 Pairwise方法到Listwise方法 阅读全文
posted @ 2017-03-30 18:59 佟学强 阅读(5285) 评论(0) 推荐(1) 编辑
摘要: 在知乎上看到这个讲解,感觉很深刻。 首先,讲到矩阵的秩,几乎必然要引入矩阵的SVD分解:X=USV',U,V正交阵,S是对角阵。如果是完全SVD分解的话,那S对角线上非零元的个数就是这个矩阵的秩了(这些对角线元素叫做奇异值),还有些零元,这些零元对秩没有贡献。 有了这个前提,我们就可以用各种姿势来看 阅读全文
posted @ 2017-03-24 11:48 佟学强 阅读(628) 评论(0) 推荐(0) 编辑
摘要: ?凸优化在数学优化中有着重要且特殊的身份。数学优化是一个广泛的话题,理解凸优化之前,请先理解线性优化。在机器学习算法中,已知的比如LogisticRegression,SVM,都与数学优化有关,在数学中,不存在无约束优化问题。比较常见的构建损失函数方法,从最简单的两个向量的二阶范数的平方(KNN,K 阅读全文
posted @ 2017-03-19 11:03 佟学强 阅读(5640) 评论(0) 推荐(0) 编辑
摘要: logistic regression是分类算法中非常重要的算法,也是非常基础的算法。logistic regression从整体上考虑样本预测的精度,用判别学习模型的条件似然进行参数估计,假设样本遵循iid,参数估计时保证每个样本的预测值接近真实值的概率最大化。这样的结果,只能是牺牲一部分的精度来 阅读全文
posted @ 2017-03-17 10:10 佟学强 阅读(3292) 评论(0) 推荐(0) 编辑
摘要: 关于机器学习理论方面的研究,最好阅读英文原版的学术论文。PCA主要作用是数据降维,而ICA主要作用是盲信号分离。在讲述理论依据之前,先思考以下几个问题:真实的数据训练总是存在以下几个问题: ①特征冗余情况,比如建立文档-词频矩阵过程中,"learn"和"study"两个特征,从VSM(计算文档向量间 阅读全文
posted @ 2017-03-10 23:18 佟学强 阅读(3837) 评论(0) 推荐(1) 编辑
摘要: 前几天写了一篇关于"史上对BM25模型最全面最深刻解读以及lucene排序深入解读"的博客,lucene最后排序用到的思想是"从海量数据中寻找topK"的时间空间最优算法(这是一个博士的学术论文)。在特定的场合,比如solr自带的搜索智能提示公能,当构建完三叉树,前缀匹配查找出所有的节点之后,也要用 阅读全文
posted @ 2017-02-22 21:42 佟学强 阅读(1773) 评论(0) 推荐(0) 编辑
摘要: 在多线程编程中,最经典的莫过于生产者和消费者线程了。比如,写一个简易的spider爬虫系统,生产者负责抓取网页,消费者查询网页内容。从内部深入理解运行机制,将会产生质的提升。最多线程开发时,基本流程是先设计公共类,然后设计任务类,包括生产者和消费者,再设计任务调度类,线程同步工具主要从任务调度类传入 阅读全文
posted @ 2017-02-22 12:36 佟学强 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 垂直搜索结果的优化包括对搜索结果的控制和排序优化两方面,其中排序又是重中之重。本文将全面深入探讨垂直搜索的排序模型的演化过程,最后推导出BM25模型的排序。然后将演示如何修改lucene的排序源代码,下一篇将深入解读目前比较火热的机器学习排序在垂直搜索中的应用。本文的结构如下: 一、VSM模型简单介 阅读全文
posted @ 2017-02-22 00:32 佟学强 阅读(9037) 评论(1) 推荐(1) 编辑
摘要: 搜索中资深排序算法工程师,要求掌握深度学习中的机器学习排序算法,比如ListNet算法等等。其实,排序算法有很多,比较著名的应用,比如从海量数据中寻找出topk(k值很小)的算法,实现逻辑很简单,要求是最优算法,这里不详细说。在搜索中,返回的文档,在考虑很多因素情况下的机器学习排序……截至到2014 阅读全文
posted @ 2017-02-14 17:11 佟学强 阅读(775) 评论(0) 推荐(0) 编辑
摘要: 以下文字,全部转载自业内大牛的博客,不代表本人观点,仅供参考!本人认为,提出一个算法就已经足够让你成为业内领军人物了。本着对学术严谨的态度,对于算法的研究还远没有达到精通的级别,所以暂时不发表意见,等在学术上有一定见解的时候,再发表原创技术博客,这篇拾人牙慧的转载的博客,权当激励自己和学习的素材了! 阅读全文
posted @ 2017-02-14 16:52 佟学强 阅读(789) 评论(0) 推荐(0) 编辑