摘要:
前几天写了一篇关于"史上对BM25模型最全面最深刻解读以及lucene排序深入解读"的博客,lucene最后排序用到的思想是"从海量数据中寻找topK"的时间空间最优算法(这是一个博士的学术论文)。在特定的场合,比如solr自带的搜索智能提示公能,当构建完三叉树,前缀匹配查找出所有的节点之后,也要用 阅读全文
posted @ 2017-02-22 21:42
佟学强
阅读(1815)
评论(0)
推荐(0)
摘要:
在多线程编程中,最经典的莫过于生产者和消费者线程了。比如,写一个简易的spider爬虫系统,生产者负责抓取网页,消费者查询网页内容。从内部深入理解运行机制,将会产生质的提升。最多线程开发时,基本流程是先设计公共类,然后设计任务类,包括生产者和消费者,再设计任务调度类,线程同步工具主要从任务调度类传入 阅读全文
posted @ 2017-02-22 12:36
佟学强
阅读(605)
评论(0)
推荐(0)
摘要:
垂直搜索结果的优化包括对搜索结果的控制和排序优化两方面,其中排序又是重中之重。本文将全面深入探讨垂直搜索的排序模型的演化过程,最后推导出BM25模型的排序。然后将演示如何修改lucene的排序源代码,下一篇将深入解读目前比较火热的机器学习排序在垂直搜索中的应用。本文的结构如下: 一、VSM模型简单介 阅读全文
posted @ 2017-02-22 00:32
佟学强
阅读(9682)
评论(1)
推荐(1)

浙公网安备 33010602011771号