随笔分类 - 技术文章
摘要:Indri中的动态文档索引技术戴维 译摘要: Indri 动态文档索引的实现技术,支持在更新索引的同时处理用户在线查询请求。 文本搜索引擎曾被设计为针对固定的文档集合进行查询,对不少应用来说,这种机制工作得很好,然而对于诸于新闻,财经和桌面搜索而言,需要的是高效、经常性的更新索引。 以往支持动态文档集合的研究主要围绕增量索引方法,增量系统通过往已有的索引中追加大的文档集合来优化索引性能,但是不允许在增量索引的同时处理用户查询。 与以往的增量系统不同,Indri搜索引擎的最新版本支持动态文档集合,不需要通过加大文档集合大小来获取索引性能,同时Indri支持索引和查询的并发,允许用户在增量索引的同
阅读全文
摘要:查询参数indexIndri索引库路径。在参数文件中像/path/to/repository这样指定,在命令行中像-index=/path/to/repository这样指定。该参数可以设置多次来组合多个索引库。server运行Indri的服务器主机名(IndriDaemon)。在参数文件中如hostname方式指定,在命令行中像-server=hostname这样来指定。主机名可以指定一个可选的商品号用来连接,用hostname:portnum这种形式。该参数可以指定多次来组合多个服务器。count整数值,设置给定查询返回的最大结果数。在参数文件中如number设置,在命令行中如-count
阅读全文
摘要:Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。 1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概...
阅读全文
摘要:测试结果总结如下:1.按主键读:SQL形式:SELECT*FROMtableWHEREid=?。1.1.主键为数字。如果所有ID均不存在,纯比较SQL解析能力。MySQL解析SQL的速度约是Oracle的2倍。原因在于MySQL优化器代码简单,动态规划的深度限制为64层,能较好的控制解析SQL的时间。1.2.主键为数字。如果所有ID均存在,且完全随机分布。低并发(=32),落后Oracle一半左右。1.3.主键为数字。如果所有ID均存在,ID随机范围控制在一定范围。(ID在[minID,maxID]范围内)随着ID范围的缩小,实际访问的数据就越小,重复读到一条数据的概率增高,多次测试后,MyS
阅读全文

浙公网安备 33010602011771号