2017 年 4月 22 日随笔档案 - 大数据和AI躺过的坑

2017年4月22日

摘要： Solr 读数据流程： 1、用户提供搜索关键词，也就是搜索语句，需要经过分词器处理以及语言处理。 2、对处理之后的关键词，搜索索引找出对应Document 即记录。 3、用户根据需要从找到的Document中提取需要的Field字段。阅读全文

posted @ 2017-04-22 18:12 大数据和AI躺过的坑阅读(668) 评论(0) 推荐(0)

Solr 写数据流程

摘要： Solr 写数据流程： 1、源字符串首先经过分词器处理，包括：拆分词以及去除stopword。 2、然后经过语言处理，包括大小写转换以及单词转换。 3、将源数据中需要的信息加入到Document中的各个Field字段中，并把需要索引的Field字段索引起来，同时把需要存储的Field字段存储起来。然阅读全文

posted @ 2017-04-22 14:55 大数据和AI躺过的坑阅读(834) 评论(0) 推荐(0)

solr索引创建流程

摘要： solr索引创建流程：分词组件Tokenizer 分词组件(Tokenizer)会做以下几件事情(这个过程称为：Tokenize)，处理得到的结果是词汇单元（Token）。 1、将文档分成一个一个单独的单词。 2、去除标点符号。 3、去除停词（stop word）。语言处理组件语言处理组件(l 阅读全文

posted @ 2017-04-22 14:54 大数据和AI躺过的坑阅读(1251) 评论(0) 推荐(0)

Solr 倒排索引

摘要：正排索引（正向索引）：正排表是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。正排表结构如图1所示，这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护;因为索引是基于文档建立的，若是有新的文档加入，直接为该文档建阅读全文

posted @ 2017-04-22 14:50 大数据和AI躺过的坑阅读(3108) 评论(0) 推荐(0)

Solr 核心组成

摘要： Solr 核心组成就是：SolrHome 和 SolrCore。 SolrHome：SolrHome是Solr运行的主目录，该目录可以包含多个solrcore目录。 SolrCore：每个solrcore相互独立，可以单独对外提供搜索和索引服务；Solr实例就是一个solrcore目录，包含运行so 阅读全文

posted @ 2017-04-22 14:49 大数据和AI躺过的坑阅读(619) 评论(0) 推荐(0)

Solr的关键特性

摘要： 1.基于标准的开放接口：Solr搜索服务器支持通过XML、JSON和HTTP查询和获取结果。 2.易管理：Solr可以通过HTML页面管理，Solr配置通过XML完成。 3.可伸缩性：能够有效地复制到另外一个Solr搜索服务器。 4.灵活的插件体系：新功能能够以插件的形式方便的添加到Solr服务器上阅读全文

posted @ 2017-04-22 14:45 大数据和AI躺过的坑阅读(517) 评论(0) 推荐(0)

为什么选择Solr？

摘要：在大型的SQL数据库上很难执行高速的查询有Solr是Apache 下的一个开源项目，使用Java基于Lucene开发的全文检索服务；它是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；阅读全文

posted @ 2017-04-22 14:44 大数据和AI躺过的坑阅读(1177) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告