摘要:
语言分析器(Analyzer) 这部分包含了分词器(tokenizer)和过滤器(filter)关于字符转换和使用指定语言的相关信息.对于欧洲语言来说,tokenizer是相当直接的,Tokens被空格或者是一个简单的连接字符设置分隔的.在其他语言中,分词规则就不是那么简单了,一些欧洲语言也可能指... 阅读全文
posted @ 2015-02-27 10:23
勿妄
阅读(634)
评论(0)
推荐(0)
摘要:
CharFilterFactories 字符过滤器是一个预处理输入字符的组件,字符过滤器可以链接如token过滤器,并放置在Tokenizer(分词器)的前面,字符过滤器可以添加,更改或删除字符,同时保留原有的字符偏移量,以支持如高亮的功能.solr.MappingCharFilterFactor... 阅读全文
posted @ 2015-02-27 10:22
勿妄
阅读(257)
评论(0)
推荐(0)
摘要:
Filters 过滤器filter应该跟在tokenizer或者另一个filter之后.因为它们将TokenStream作为输入源. ... class属性命名了一个工厂类用来实例化一个filter对象.Filter工厂类必须实现org... 阅读全文
posted @ 2015-02-27 10:21
勿妄
阅读(393)
评论(0)
推荐(0)
摘要:
Tokenizers Tokenizer的工厂类实现了org.apache.solr.analysis.TokenizerFactory.一个TokenizerFactory的create()方法接受一个Reader返回一个TokenStream.在... 阅读全文
posted @ 2015-02-27 09:06
勿妄
阅读(771)
评论(0)
推荐(0)
摘要:
什么是Filter--过滤器 像分词器(tokenizer)一样,过滤器(filter)消耗输入,产生token流.过滤器同样从org.apache.lucene.analysis.TokenStream中产生.和tokenizer不同的是,filter的输入是一个Tokenizer.filter... 阅读全文
posted @ 2015-02-27 09:04
勿妄
阅读(473)
评论(0)
推荐(0)
摘要:
什么是Tokenizer-分词 分词器的工作就是分解文本流成词(tokens).在这个文本中,每一个token都是这些字符的一个子序列.一个分析器(analyzer)必须知道它所配置的字段,但是tokenizer不需要,分词器(tokenizer)从一个字符流(reader)读取数据,生成一个To... 阅读全文
posted @ 2015-02-27 09:03
勿妄
阅读(9293)
评论(0)
推荐(0)
摘要:
分析器检查字段的文本,然后生成一个token流.在schema.xml中,分析器作为的一个子元素.在普通的使用当中,只有字段类型solr.TextField使用分析器.配置分析器最简单的方式就是使用一个元素,它的class属性是一个java的类名. 在这个例子中,类Whitespa... 阅读全文
posted @ 2015-02-27 07:38
勿妄
阅读(686)
评论(0)
推荐(0)