随笔分类 -  solr-guide

摘要:这部分描述了建立索引的过程:添加内容到solr索引中,如果有需要,修改内容或者删除它.通过添加内容到索引里边,我们使其内容可以搜索. solr索引能够接收不同来源的数据,xml文件,逗号分隔值的(CVS)文件,数据库,普通格式文件如Word或者PDF. 这里有三种不同的方式来加载数据到索引中... 阅读全文
posted @ 2015-03-02 09:46 勿妄 阅读(288) 评论(0) 推荐(0)
摘要:语言分析器(Analyzer) 这部分包含了分词器(tokenizer)和过滤器(filter)关于字符转换和使用指定语言的相关信息.对于欧洲语言来说,tokenizer是相当直接的,Tokens被空格或者是一个简单的连接字符设置分隔的.在其他语言中,分词规则就不是那么简单了,一些欧洲语言也可能指... 阅读全文
posted @ 2015-02-27 10:23 勿妄 阅读(639) 评论(0) 推荐(0)
摘要:CharFilterFactories 字符过滤器是一个预处理输入字符的组件,字符过滤器可以链接如token过滤器,并放置在Tokenizer(分词器)的前面,字符过滤器可以添加,更改或删除字符,同时保留原有的字符偏移量,以支持如高亮的功能.solr.MappingCharFilterFactor... 阅读全文
posted @ 2015-02-27 10:22 勿妄 阅读(266) 评论(0) 推荐(0)
摘要:Filters 过滤器filter应该跟在tokenizer或者另一个filter之后.因为它们将TokenStream作为输入源. ... class属性命名了一个工厂类用来实例化一个filter对象.Filter工厂类必须实现org... 阅读全文
posted @ 2015-02-27 10:21 勿妄 阅读(401) 评论(0) 推荐(0)
摘要:Tokenizers Tokenizer的工厂类实现了org.apache.solr.analysis.TokenizerFactory.一个TokenizerFactory的create()方法接受一个Reader返回一个TokenStream.在... 阅读全文
posted @ 2015-02-27 09:06 勿妄 阅读(779) 评论(0) 推荐(0)
摘要:什么是Filter--过滤器 像分词器(tokenizer)一样,过滤器(filter)消耗输入,产生token流.过滤器同样从org.apache.lucene.analysis.TokenStream中产生.和tokenizer不同的是,filter的输入是一个Tokenizer.filter... 阅读全文
posted @ 2015-02-27 09:04 勿妄 阅读(478) 评论(0) 推荐(0)
摘要:什么是Tokenizer-分词 分词器的工作就是分解文本流成词(tokens).在这个文本中,每一个token都是这些字符的一个子序列.一个分析器(analyzer)必须知道它所配置的字段,但是tokenizer不需要,分词器(tokenizer)从一个字符流(reader)读取数据,生成一个To... 阅读全文
posted @ 2015-02-27 09:03 勿妄 阅读(9335) 评论(0) 推荐(0)
摘要:分析器检查字段的文本,然后生成一个token流.在schema.xml中,分析器作为的一个子元素.在普通的使用当中,只有字段类型solr.TextField使用分析器.配置分析器最简单的方式就是使用一个元素,它的class属性是一个java的类名. 在这个例子中,类Whitespa... 阅读全文
posted @ 2015-02-27 07:38 勿妄 阅读(695) 评论(0) 推荐(0)
摘要:字段分析器(Analyzers)即用于文档索引也用于查询.一个分析器检查字段的文本,并生成一个token流.分析器可能是一个单独的类,也可能是一系列的tokenizer和filter的组合. 分词器把字段数据分解成词汇单元或者tokens,过滤器(filters)检查tokens流,并且保持它... 阅读全文
posted @ 2015-02-25 21:06 勿妄 阅读(496) 评论(0) 推荐(0)
摘要:这部分介绍了solr如何分解和处理文本数据的,它包含一下主题: 1.5.1 Analyzers,Tokenizers,Filters概述:主要介绍Analyzers,Tokenizers,Filters的概念. 1.5.2 什么是Analyzer(分析器):solr Analyzer的细节信... 阅读全文
posted @ 2015-02-25 20:09 勿妄 阅读(1019) 评论(0) 推荐(0)
摘要:Documents,Fields和Schema概述 solr的基本前提是非常简单,你可以给它很多信息,然后可以向它提出问题,获取你想要的问题的信息.所有信息输入的地方就叫做索引或者更新.当你提出问题时,叫做查询. 一种理解solr工作原理的方式就是考虑一本食谱的活页本.每次添加一个新的食谱,就会... 阅读全文
posted @ 2015-02-19 21:16 勿妄 阅读(360) 评论(0) 推荐(0)
摘要:1.4.1.Documents,Fields和Schema概述1.4.2 solr字段类型1.4.2 solr字段类型--(1.4.2.1)字段类型定义和字段类型属性1.4.2 solr字段类型--(1.4.2.2)solr附带的字段类型1.4.2 solr字段类型--(1.4.2.3)使用货币和汇... 阅读全文
posted @ 2015-02-19 21:09 勿妄 阅读(226) 评论(0) 推荐(0)
摘要:Schemaless模式 schemaless模式是一组solr功能的集合,允许用户通过简单的索引例子数据快速构建一个有效的schema,而不需要手动的编辑schema.这些solr功能都是在solrconfig.xml中指定的.主要是: schema管理:schema修改是通过Solr API... 阅读全文
posted @ 2015-02-11 23:15 勿妄 阅读(4057) 评论(0) 推荐(0)
摘要:DocValues 在solr4.2以后,引入了一个令人兴奋的功能,这个功能在lucene存在已经一段时间了,但是还没有在solr中使用. 在某些方面,DocValue 是一种非常有效的索引方式.为什么用DocValues? 标准的建立索引方式是一中倒排序索引方式,这种方式就是对索引中的所有文... 阅读全文
posted @ 2015-02-11 23:14 勿妄 阅读(1224) 评论(0) 推荐(0)
摘要:putting the pieces together 在最高的级别,schema.xml结构如下, 明显的,这最重要的内容是在types和fields中,也就是字段类型和实际字段定义存在的地方.这些字段也可以通过copyFields补充,夹在字段... 阅读全文
posted @ 2015-02-11 23:13 勿妄 阅读(293) 评论(0) 推荐(0)
摘要:Schema API Schema API允许使用REST API每个集合(collection)(或者单机solr的核(core)).包含了定义字段类型,字段,动态字段,复制字段等.在solr4.2或4.3中,仅仅允许Get(只读)访问,在solr4.4上,新的字段和复制字段可以直接加入到sch... 阅读全文
posted @ 2015-02-11 23:10 勿妄 阅读(1314) 评论(0) 推荐(0)
摘要:这里描述了schema.xml中的其他几个重要的元素.唯一主键-Unique Key uniqueKey元素一篇文档的唯一标记,它几乎总是保证您的应用程序设计,例如,如果你更新索引中的文档,需要用到唯一主键uniqueKey来操作.id 从solr 4开始,schema默认值和copyFie... 阅读全文
posted @ 2015-02-11 18:15 勿妄 阅读(471) 评论(0) 推荐(0)
摘要:动态字段允许solr索引没有在schema.xml中明确定义的字段,通过提供一个灵活的添加文档的机制,可以使你的应用不会那么脆弱.相关主题 SchemaXML-Dynamic Field 阅读全文
posted @ 2015-02-11 18:03 勿妄 阅读(173) 评论(0) 推荐(0)
摘要:有时候,可能会采用多种方式来解释文档中的字段,solr具有一个复制字段的机制,所以你可以对单个的字段输入信息应用几个不同的字段类型. schema.xml中例子: maxChars参数,int类型参数,建立一个复制字符数量的上限,这个限制在你想要空值索引文件大小的时候是很有用的. sour... 阅读全文
posted @ 2015-02-11 17:44 勿妄 阅读(154) 评论(0) 推荐(0)
摘要:一旦定义好字段类型,字段的定义就很简单了.你所需要做的就是提供一个名称和字段类型,只要你想,你也可以提供一些选项来覆盖字段类型的选项.字段定义在schema.xml文件中:字段具有和字段类型相同的选项.属性描述值indexedtrue:字段值可以用于查询检索true or falsestored... 阅读全文
posted @ 2015-02-11 17:28 勿妄 阅读(436) 评论(0) 推荐(0)