随笔分类 - 搜索相关
摘要:原地址http://timyang.net/data/key-list-pagination/Thursday, Dec 4th, 2014 by Tim | Tags:mysql,nosql今天讨论了一个传统的问题,问题本身比较简单,就是针对key-list类型的数据,如何优化方案做到性能与成本的...
阅读全文
摘要:原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道...
阅读全文
摘要:elasticsearch是一个基于lucene所编写的分布式的搜索引擎,能够达到实时搜索,稳定高效。我所了解的elasticsearch有下面这些特点1 配置简单,对于初学者来说几乎是下载后零配置启动,易用性很高,即下即用。2 协议通用,通过http协议以json格式交互数据,而且还可以以加载外部...
阅读全文
摘要:30定律:出现频率最高的30个词占全文本总词数的30%如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2...
阅读全文
摘要:指的是多种成分均匀分布的情况,如果成分分布越均匀,则熵越高,相反则熵越低物理学比如某个物体由多个事物组成,如果各事物所占质量比重均匀,则质量熵就高概率学比如掷色子有6种结果,如果各结果的概率是一样的,则概率熵就高自然语言比如一个term和多个term都有搭配在一起出现的记录,如果各term出现的次数...
阅读全文
摘要:BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。公式如下:R(qi,d)是每个词和文档的相关度值,其中qi代表每个词,d代表相关的文档,Wi是这个词的权重,然后...
阅读全文
浙公网安备 33010602011771号