随笔分类 -  搜索

【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking
摘要:7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量; 对于这类query,用户不仅要相关的还需要最新的信息; 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分 阅读全文

posted @ 2018-02-08 10:20 tanfy 阅读(368) 评论(0) 推荐(0)

【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting
摘要:5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve t 阅读全文

posted @ 2018-01-31 16:43 tanfy 阅读(372) 评论(0) 推荐(0)

【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking
摘要:3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面; 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient boosting trees(GBDT) with logistic loss,该方法可以用来减少 阅读全文

posted @ 2018-01-29 10:06 tanfy 阅读(427) 评论(0) 推荐(0)

【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background
摘要:ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting; 此文内容基于拥有百亿url索引的yahoo搜素引擎; Keywords: learning to rank; quer 阅读全文

posted @ 2018-01-18 17:31 tanfy 阅读(944) 评论(0) 推荐(0)

Xapian实战(四):搜索
摘要:参考资料: 学习Xapian(1)-基础的建索引和搜索 1. Xapian中用于搜索的类 Enquire - 提供了检索的接口;(Enquire API) QueryParser(QueryParser API) - 解析待查找的字符串,返回Query(Query API); MSet - 用于搜索 阅读全文

posted @ 2016-08-26 16:57 tanfy 阅读(1158) 评论(0) 推荐(0)

企业内搜索引擎项目(四):搜索功能的实现
摘要:1. 思路 在进行网页搜索的过程中,需要考虑索引更好的问题=》 单独使用另一条线程控制磁盘索引的更新,该线程同时更新server.conf配置文件,表明当前正在使用的是哪一个磁盘数据库; 网页搜索的时候根据server.conf中的index信息打开对应的数据库; 2. 实战 利用Xapian开源库 阅读全文

posted @ 2016-08-19 20:05 tanfy 阅读(484) 评论(0) 推荐(0)

Xapian实战(三):索引
摘要:参考资料: Xapian:Document, Value和Term Xapian:Database Xapian机制简要介绍 1. Xapian中各类要点总结 @ Database Database API参考 WritableDatabase API参考 Xapian的Database是所有用于检 阅读全文

posted @ 2016-08-19 20:04 tanfy 阅读(842) 评论(0) 推荐(0)

企业内搜索引擎项目(三):搜索服务器框架的搭建
摘要:1. 设计 Muduo网络库实战(二)中的"1. 方案的确定" 2. 实战 采用Muduo网络库进行服务器的搭建工作; 思路: 一旦客户端连接服务器成功,调用OnConnection()函数; 当客户端发送数据给服务器,调用OnMessage()函数,处理数据并利用线程池进行搜索返回结果; 其中服务 阅读全文

posted @ 2016-08-19 20:04 tanfy 阅读(786) 评论(0) 推荐(0)

企业内搜索引擎项目(二):索引的设计和创建
摘要:1. 设计 @ 索引创建 采用【动态索引】的策略,可以实现实时搜索的功能; 动态索引的实现需要“倒排索引”,“临时索引”和“已删除文档列表”,其中“倒排索引”存储在磁盘文件中,“临时索引”存储在内存中; 思路: 当系统发现有新文档进入时,立即将其加入临时索引中;有文档被删除时,则将其加入删除文档队列 阅读全文

posted @ 2016-08-19 20:03 tanfy 阅读(437) 评论(0) 推荐(0)

Xapian实战(二):core concepts
摘要:参考资料 core concepts 正文 1. 并发性 xapian不包含任何全局变量,所以多线程编程中,在没有共享资源的情况下可以安全使用xapian。在实际操作中,由于每个线程都可以创建自己的xapian.Database对象,所以这个限制条件完全没有问题。当然如果真的需要在多线程中使用同一个 阅读全文

posted @ 2016-08-19 20:03 tanfy 阅读(1017) 评论(0) 推荐(0)

企业内搜索引擎项目(一):架构
摘要:一 整体架构 整个搜索引擎网站为一个Web应用平台,采用LAMP架构(Linux + Apache + MySQL + PHP); (链接:LAMP架构的搭建) 其中PHP负责网站的前端,后端使用C++编写; 服务器后台包括倒排索引模块和搜索模块; 类似于: 二 开源工具的确定 1. Muduo网络 阅读全文

posted @ 2016-08-19 20:02 tanfy 阅读(831) 评论(0) 推荐(0)

Xapian实战(一):环境搭建 + 简介
摘要:1. 参考资料 http://xapian.org/docs/install.html Xapian的存储系统、性能以及检索模型等 2. 安装 1) xapian # ./configure --prefix = /opt/xapian (指定安装目录) # make # make install 阅读全文

posted @ 2016-07-28 18:25 tanfy 阅读(474) 评论(0) 推荐(0)

导航