2018年10月17日

非通用内容搜索引擎(基于Elasticsearch 5.5.1)

摘要: 最近做了一个基于Elasticsearch的非通用性的搜索引擎项目,工程量不大,但有意思的点却有好几个,这里做下记录把踩过的坑记录下来。 一、构建自己的查询分析模块 其实这不是本人第一次遇到要支持较丰富的语义(精确讲是语法)搜索,为了达到各种搜索条件,打造一个通用的搜索语法解析模块来支持功能强大、方 阅读全文

posted @ 2018-10-17 20:47 第七个甲虫 阅读(176) 评论(0) 推荐(0)

2016年1月18日

基于Lucene的近实时搜索引擎优化总结

摘要: 一、搜索优化: 在工程领域,越是看起来“简单、确定”的问题,越是难以解决。近实时搜索引擎需要解决的问题只有一个:性能!它包含快速索引,快速搜索,以及索引到搜索的快速生效。 以下为百万条数据级(适用于千万级)快速滚动数据近实时搜索引擎实践经验总结: 1. 针对技术优化 1.1 数值搜索优化: 将数值的 阅读全文

posted @ 2016-01-18 12:36 第七个甲虫 阅读(1624) 评论(0) 推荐(0)

2015年12月30日

Lucene的数值索引以及范围查询

摘要: 对文本搜索引擎的倒排索引(数据结构和算法)、评分系统、分词系统都清楚掌握之后,本人对数值索引和搜索一直有很大的兴趣,最近对Lucene对数值索引和范围搜索做了些学习,并将主要内容整理如下:1. Lucene不直接支持数值(以及范围)的搜索,数值必须转换为字符(串);2. Lucene搜索数值的初步... 阅读全文

posted @ 2015-12-30 11:42 第七个甲虫 阅读(2461) 评论(0) 推荐(0)

2015年11月26日

中文分词:全切分分词学习

摘要: 全切分分词示例:以一个实例来说明,比如句子:中华人民共和国。假设词典中包含如下词:12345678中华人民共和国中华人民中华华人人民共和国人民共和国共和1.从头到尾依次遍历句子中的每一个字,找出以该字起始的所有的词,并保留单字供下一步使用,结果如下: 1、[中华人民共和国,中华人民,中华,中] 2、... 阅读全文

posted @ 2015-11-26 14:20 第七个甲虫 阅读(1454) 评论(0) 推荐(0)

分词器进阶

摘要: 在实现了.Net版分词器之后,一直想进一步提升搜索速度和体验。最近又学习全切分分词以及IK分词原理,在理解其理念再加上结合本公司业务需求,决定改进分词器算法,宗旨为提升性能,提高体验。对比原有分词:基于词典的最长匹配:基于词典分词的一种方法是将词典构建成一个Trie搜索树,每个节点放一个字,同时将... 阅读全文

posted @ 2015-11-26 14:08 第七个甲虫 阅读(236) 评论(0) 推荐(0)

垂直搜索引擎中的分词系统

摘要: 分词系统的框架与实现介绍 本文适合对搜索引擎有良好概念的读者(原创) 关键字:搜索引擎,分词,Lucene 国内垂直领域的电商或者信息分享类应用都处于高速发展期,其对内容快速搜索的需求越来越强烈,对于能适应自己业务应用的搜索引擎解决方案也越来越重视。同时,通用的可选开源搜索引擎框架或解决方案也越来越 阅读全文

posted @ 2015-11-26 13:50 第七个甲虫 阅读(688) 评论(0) 推荐(0)

导航