摘要:Zookeeper之基础学习 阅读全文
杂谈之SolrCloud这个坑货
2014-11-04 23:16 by 追风的蓝宝, 2402 阅读, 0 推荐, 收藏,
摘要:杂谈之SolrCloud这个坑货 看《Solr In Action》时候看到对Solr不足的介绍有这么一段话:“One final limitation of Solr worth mentioning is its elastic scalability: the ability to aut... 阅读全文
Solr In Action 笔记(2) 之 评分机制(相似性计算)
2014-11-01 22:43 by 追风的蓝宝, 6319 阅读, 0 推荐, 收藏,
摘要:Solr In Action 笔记(2) 之评分机制(相似性计算)1 简述 我们对搜索引擎进行查询时候,很少会有人进行翻页操作。这就要求我们对索引的内容提取具有高度的匹配性,这就搜索引擎文档的相似性计算,如何准确的选出最符合查询条件的文档。 《这就是搜索引擎》里面对相似性计算进行了简单的介绍。 ... 阅读全文
自然语言处理(5)之Levenshtein最小编辑距离算法
2014-11-01 21:52 by 追风的蓝宝, 2035 阅读, 0 推荐, 收藏,
摘要:自然语言处理(5)之Levenshtein最小编辑距离算法题记:之前在公司使用Levenshtein最小编辑距离算法来实现相似车牌的计算的特性开发,正好本节来总结下Levenshtein最小编辑距离算法。算法简介: Levenshtein距离,是俄罗斯科学家Vladimir Levenshtei... 阅读全文
Solr In Action 笔记(1) 之 Key Solr Concepts
2014-10-31 00:04 by 追风的蓝宝, 1919 阅读, 0 推荐, 收藏,
摘要:Solr In Action 笔记(1) 之 Key Solr Concepts题记:看了下《Solr In Action》还是收益良多的,只是奈何没有中文版,只能查看英语原版有点类,第一次看整本的英语书,就当复习下英语并顺便做下笔记吧。1. Solr的框架从这张图上看Solr的组件还是很齐全以及清... 阅读全文
杂谈之不同行业的Solr
2014-10-30 22:36 by 追风的蓝宝, 695 阅读, 0 推荐, 收藏,
摘要:杂谈之不同行业的Solr 前几天去一家互联网创业公司面试搜索引擎开发工程师,结果被pass了,仍不住想来吐槽下。尽管当时面试没啥准备,也没表现好,但是也学到了不少东西。现在就随便吐槽一下吧。 本人是在安防公司做大数据搜索引擎,搞Solr也一年多点了,自认为对Solr了解的也不少了,但是为什么... 阅读全文
Solr4.8.0源码分析(13)之LuceneCore的索引修复
2014-10-23 00:16 by 追风的蓝宝, 1723 阅读, 0 推荐, 收藏,
摘要:Solr4.8.0源码分析(13)之LuceneCore的索引修复题记:今天在公司研究elasticsearch,突然看到一篇博客说elasticsearch具有索引修复功能,顿感好奇,于是点进去看了下,发现原来是Lucene Core自带的功能。说实话之前学习Lucene文件格式的时候就想做一个索... 阅读全文
Solr4.8.0源码分析(12)之Lucene的索引文件(5)
2014-10-20 21:21 by 追风的蓝宝, 1148 阅读, 0 推荐, 收藏,
摘要:Solr4.8.0源码分析(12)之Lucene的索引文件(5)1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的。为了提升压缩比,StoredFieldsFormat以16KB为单位对文档进行压缩,使用的压缩算法是LZ4,由于它... 阅读全文
JAVA基础(1)之hashCode()
2014-10-17 00:16 by 追风的蓝宝, 459 阅读, 0 推荐, 收藏,
摘要:JAVA基础(1)之hashCode()看到一篇关于hashCode的文章(),写的很详细明白,瞬间有种恍然大悟的感觉,所以特地转过来。原文:http://blog.csdn.net/fenglibing/article/details/8905007 参考:http://www.importnew... 阅读全文
Solr4.8.0源码分析(11)之Lucene的索引文件(4)
2014-09-24 00:12 by 追风的蓝宝, 1132 阅读, 0 推荐, 收藏,
摘要:Solr4.8.0源码分析(11)之Lucene的索引文件(4)1. .dvd和.dvm文件 .dvm是存放了DocValue域的元数据,比如DocValue偏移量。 .dvd则存放了DocValue的数据。 在Solr4.8.0中,dvd以及dvm用到的Lucene编码格式是Lucene45... 阅读全文