2015 年 2月 27 日随笔档案 - 勿妄

2015年2月27日

摘要：语言分析器(Analyzer) 这部分包含了分词器(tokenizer)和过滤器(filter)关于字符转换和使用指定语言的相关信息.对于欧洲语言来说,tokenizer是相当直接的,Tokens被空格或者是一个简单的连接字符设置分隔的.在其他语言中,分词规则就不是那么简单了,一些欧洲语言也可能指... 阅读全文

posted @ 2015-02-27 10:23 勿妄阅读(647) 评论(0) 推荐(0)

1.5.7 CharFilterFactories

摘要： CharFilterFactories 字符过滤器是一个预处理输入字符的组件,字符过滤器可以链接如token过滤器,并放置在Tokenizer(分词器)的前面,字符过滤器可以添加，更改或删除字符，同时保留原有的字符偏移量，以支持如高亮的功能.solr.MappingCharFilterFactor... 阅读全文

posted @ 2015-02-27 10:22 勿妄阅读(270) 评论(0) 推荐(0)

1.5.6 Filters

摘要： Filters 过滤器filter应该跟在tokenizer或者另一个filter之后.因为它们将TokenStream作为输入源. ... class属性命名了一个工厂类用来实例化一个filter对象.Filter工厂类必须实现org... 阅读全文

posted @ 2015-02-27 10:21 勿妄阅读(405) 评论(0) 推荐(0)

1.5.5 Tokenizers

摘要： Tokenizers Tokenizer的工厂类实现了org.apache.solr.analysis.TokenizerFactory.一个TokenizerFactory的create()方法接受一个Reader返回一个TokenStream.在... 阅读全文

posted @ 2015-02-27 09:06 勿妄阅读(783) 评论(0) 推荐(0)

1.5.4 什么是Filter--过滤器

摘要：什么是Filter--过滤器像分词器(tokenizer)一样,过滤器(filter)消耗输入,产生token流.过滤器同样从org.apache.lucene.analysis.TokenStream中产生.和tokenizer不同的是,filter的输入是一个Tokenizer.filter... 阅读全文

posted @ 2015-02-27 09:04 勿妄阅读(484) 评论(0) 推荐(0)

1.5.3 什么是Tokenizer-分词

摘要：什么是Tokenizer-分词分词器的工作就是分解文本流成词(tokens).在这个文本中,每一个token都是这些字符的一个子序列.一个分析器(analyzer)必须知道它所配置的字段,但是tokenizer不需要,分词器(tokenizer)从一个字符流(reader)读取数据,生成一个To... 阅读全文

posted @ 2015-02-27 09:03 勿妄阅读(9340) 评论(0) 推荐(0)

1.5.2 什么是Analyzer--分析器

摘要：分析器检查字段的文本,然后生成一个token流.在schema.xml中,分析器作为的一个子元素.在普通的使用当中,只有字段类型solr.TextField使用分析器.配置分析器最简单的方式就是使用一个元素,它的class属性是一个java的类名. 在这个例子中,类Whitespa... 阅读全文

posted @ 2015-02-27 07:38 勿妄阅读(700) 评论(0) 推荐(0)

勿忘

公告