2015年12月8日

lucene 编辑距离

摘要: lucene 编辑距离实际上表明良好个不同的字符串需要经过多少次编辑和变换才能转换成对方。通常的编辑行为包括了增加一个检索项目,删除一个检索项,修改一个检索项 阅读全文

posted @ 2015-12-08 15:03 1130136248 阅读(427) 评论(0) 推荐(0) 编辑

2015年12月3日

lucene 中关于Store.YES 关于Store.NO的解释

摘要: 总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储。这样的解释有点郁闷:字面意思一看就明白,但是不解。之前我的理解是:如果字段可以不存储,那要怎么搜索这个不存储的字段呢?原来Lucen... 阅读全文

posted @ 2015-12-03 17:17 1130136248 阅读(810) 评论(0) 推荐(0) 编辑

Lucene入门教程

摘要: Lucene教程1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。2 lucene的工作方式 lucene提供的服务实际包含两... 阅读全文

posted @ 2015-12-03 11:26 1130136248 阅读(166) 评论(0) 推荐(0) 编辑

2015年12月2日

java.lang.ClassNotFoundException: org.apache.lucene.store.Directory

摘要: 看下你的lucene-core.jar有没有在WEB-INF\lib下。 阅读全文

posted @ 2015-12-02 15:36 1130136248 阅读(409) 评论(0) 推荐(0) 编辑

2015年12月1日

mapreduce 依赖组合

摘要: mport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa... 阅读全文

posted @ 2015-12-01 19:57 1130136248 阅读(299) 评论(0) 推荐(0) 编辑

mapreduce 顺序组合

摘要: import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap... 阅读全文

posted @ 2015-12-01 19:56 1130136248 阅读(150) 评论(0) 推荐(0) 编辑

Hadoop: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable

摘要: 写MR Job的时候遇到一个坑爹的异常:LongWritable cannot be cast to org.apache.hadoop.io.IntWritable当写Map的时候,key的默认输入就是LongWritable。因为LongWritable指代Block中的数据偏移量。所以把它强行... 阅读全文

posted @ 2015-12-01 16:30 1130136248 阅读(1855) 评论(0) 推荐(0) 编辑

hadoop中联结不同来源数据

摘要: 装载自http://www.cnblogs.com/dandingyy/archive/2013/03/01/2938462.html有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Custo... 阅读全文

posted @ 2015-12-01 10:44 1130136248 阅读(414) 评论(0) 推荐(0) 编辑

2015年11月27日

A SPI class of type org.apache.lucene.codecs.PostingsFormat with name 'Lucene40' does not exist.

摘要: 简单的建立索引和查询索引并不难,关键在于他的二次开发,让他适合你自己的需求既然要二次开发就必须查看源码首先看看索引过程中的核心类吧:IndexWriter 这个是核心组件, 建立和打开索引,以及向文档中添加、删除或更新被索引文档的信息。Directory 描述了Lucene索引的存放位置,他是一个... 阅读全文

posted @ 2015-11-27 10:55 1130136248 阅读(905) 评论(0) 推荐(0) 编辑

2015年11月26日

HBase性能优化方法总结(一):表的设计

摘要: 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会... 阅读全文

posted @ 2015-11-26 21:16 1130136248 阅读(282) 评论(0) 推荐(0) 编辑

导航