摘要:笔者在实际生产环境中经常遇到一些大文件的检索,例如一些书籍内容,PDF文件等。今天这篇博客主要来探讨下如何提升ES在检索大文件的一些性能,经验有限,算是一个小小的总结吧! 1、大文件是多大? ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。 项目中,有时候需要将一些扫描件 阅读全文
posted @ 2018-04-13 07:34 哀乐之巅写年华 阅读(826) 评论(0) 推荐(0) 编辑
摘要:1、前言 Elasticsearch有没有类似mysql的distinct的去重功能呢? 1)如何去重计数? 类似mysql: select distinct(count(1)) from my_table; 2)如何获取去重结果。 类似mysql:SELECT DISTINCT name,age 阅读全文
posted @ 2018-04-13 07:31 哀乐之巅写年华 阅读(9830) 评论(0) 推荐(0) 编辑
摘要:0、引言 在关系型数据库如Mysql中,设计库表需要注意的是: 1)需要几个表; 2)每个表有哪些字段; 3)表的主键及外键的设定——便于有效关联。 表的设计遵守范式约束,考虑表的可扩展性,避免开发后期对表做大的改动。 Mysql或者Oracle中,修改数据类型相对比较简单,通过命令行或者navic 阅读全文
posted @ 2018-04-13 07:30 哀乐之巅写年华 阅读(1814) 评论(0) 推荐(0) 编辑
摘要:本篇博客是对前期工作中遇到ES坑的一些小结,顺手记录下,方便日后查阅。 0、前言 为了讲解不同类型ES检索,我们将要对包含以下类型的文档集合进行检索: 首先,让我们借助 bulk API批量创建新的索引并提交数据。 1、基本匹配检索( Basic Match Query) 1.1 全文检索 有两种方 阅读全文
posted @ 2018-04-13 07:20 哀乐之巅写年华 阅读(453) 评论(0) 推荐(0) 编辑
摘要:1、问题抛出 某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例: 输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治 阅读全文
posted @ 2018-04-13 07:19 哀乐之巅写年华 阅读(2134) 评论(2) 推荐(0) 编辑
摘要:前言 Elasticsearch中当我们设置Mapping(分词器、字段类型)完毕后,就可以按照设定的方式导入数据。 有了数据后,我们就需要对数据进行检索操作。根据实际开发需要,往往我们需要支持包含但不限于以下类型的检索: 1)精确匹配,类似mysql中的 “=”操作; 2)模糊匹配,类似mysql 阅读全文
posted @ 2018-04-13 07:16 哀乐之巅写年华 阅读(1125) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/laoyang360/article/details/77412668 阅读全文
posted @ 2018-04-13 07:14 哀乐之巅写年华 阅读(356) 评论(0) 推荐(0) 编辑
摘要:众所周知,在设计爬虫时,最麻烦的一步就是对网页元素进行分析,目前流行的网页元素获取的工具有BeautifulSoup,lxml等,而据我使用的体验而言,Scrapy的元素选择器Xpath(结合正则表达式)是其中较为出色的一种,功能相对较全、使用较为方便,正因为它的丰富性,有时很多功能会忘记,所以在这 阅读全文
posted @ 2018-04-13 07:08 哀乐之巅写年华 阅读(910) 评论(0) 推荐(0) 编辑
摘要:引言 本文主要讲解Mongodb的类型转换。包括:string转double, string转int, string转Date。 0. 出现类型不一致的原因 ES导入数据到Mongo后,会出现类型统一改为String的问题。 传统关系型数据库,在设计表处,右键就可以完成修改表类型。 但是非关系型数据 阅读全文
posted @ 2018-04-13 07:04 哀乐之巅写年华 阅读(7396) 评论(0) 推荐(0) 编辑
摘要:最近大Boss反馈Celery经常出现问题,几经实践终于把问题解决了!于是乎有了这篇博客的诞生,算是一个实践经验的分享吧! 软件版本如下: 介绍 简单来说Celery是一个异步的任务队列,当我们需要将一些任务(比如一些需要长时间操作的任务)异步操作的时候,这时候Celery就可以帮到我们,另外Cel 阅读全文
posted @ 2018-04-07 15:17 哀乐之巅写年华 阅读(1507) 评论(1) 推荐(0) 编辑