博客园 - 哀乐之巅写年华
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=143232
2018-06-19T03:52:26Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
feed.cnblogs.com
https://www.cnblogs.com/pyspark/p/8817717.html
Elasticsearch中提升大文件检索性能的一些总结 - 哀乐之巅写年华
笔者在实际生产环境中经常遇到一些大文件的检索,例如一些书籍内容,PDF文件等。今天这篇博客主要来探讨下如何提升ES在检索大文件的一些性能,经验有限,算是一个小小的总结吧! 1、大文件是多大? ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。 项目中,有时候需要将一些扫描件
2018-04-12T23:34:00Z
2018-04-12T23:34:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】笔者在实际生产环境中经常遇到一些大文件的检索,例如一些书籍内容,PDF文件等。今天这篇博客主要来探讨下如何提升ES在检索大文件的一些性能,经验有限,算是一个小小的总结吧! 1、大文件是多大? ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。 项目中,有时候需要将一些扫描件 <a href="https://www.cnblogs.com/pyspark/p/8817717.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817716.html
在Elasticsearch6.X中如何实现去重 - 哀乐之巅写年华
1、前言 Elasticsearch有没有类似mysql的distinct的去重功能呢? 1)如何去重计数? 类似mysql: select distinct(count(1)) from my_table; 2)如何获取去重结果。 类似mysql:SELECT DISTINCT name,age
2018-04-12T23:31:00Z
2018-04-12T23:31:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】1、前言 Elasticsearch有没有类似mysql的distinct的去重功能呢? 1)如何去重计数? 类似mysql: select distinct(count(1)) from my_table; 2)如何获取去重结果。 类似mysql:SELECT DISTINCT name,age <a href="https://www.cnblogs.com/pyspark/p/8817716.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817714.html
Elasticsearch5.X Mapping详解 - 哀乐之巅写年华
0、引言 在关系型数据库如Mysql中,设计库表需要注意的是: 1)需要几个表; 2)每个表有哪些字段; 3)表的主键及外键的设定——便于有效关联。 表的设计遵守范式约束,考虑表的可扩展性,避免开发后期对表做大的改动。 Mysql或者Oracle中,修改数据类型相对比较简单,通过命令行或者navic
2018-04-12T23:30:00Z
2018-04-12T23:30:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】0、引言 在关系型数据库如Mysql中,设计库表需要注意的是: 1)需要几个表; 2)每个表有哪些字段; 3)表的主键及外键的设定——便于有效关联。 表的设计遵守范式约束,考虑表的可扩展性,避免开发后期对表做大的改动。 Mysql或者Oracle中,修改数据类型相对比较简单,通过命令行或者navic <a href="https://www.cnblogs.com/pyspark/p/8817714.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817707.html
常用的Elasticseaerch检索技巧汇总 - 哀乐之巅写年华
本篇博客是对前期工作中遇到ES坑的一些小结,顺手记录下,方便日后查阅。 0、前言 为了讲解不同类型ES检索,我们将要对包含以下类型的文档集合进行检索: 首先,让我们借助 bulk API批量创建新的索引并提交数据。 1、基本匹配检索( Basic Match Query) 1.1 全文检索 有两种方
2018-04-12T23:20:00Z
2018-04-12T23:20:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】本篇博客是对前期工作中遇到ES坑的一些小结,顺手记录下,方便日后查阅。 0、前言 为了讲解不同类型ES检索,我们将要对包含以下类型的文档集合进行检索: 首先,让我们借助 bulk API批量创建新的索引并提交数据。 1、基本匹配检索( Basic Match Query) 1.1 全文检索 有两种方 <a href="https://www.cnblogs.com/pyspark/p/8817707.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817706.html
Elasticsearch之match_phrase小坑记录 - 哀乐之巅写年华
1、问题抛出 某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例: 输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治
2018-04-12T23:19:00Z
2018-04-12T23:19:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】1、问题抛出 某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例: 输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治 <a href="https://www.cnblogs.com/pyspark/p/8817706.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817704.html
Elasticsearch检索分类详解 - 哀乐之巅写年华
前言 Elasticsearch中当我们设置Mapping(分词器、字段类型)完毕后,就可以按照设定的方式导入数据。 有了数据后,我们就需要对数据进行检索操作。根据实际开发需要,往往我们需要支持包含但不限于以下类型的检索: 1)精确匹配,类似mysql中的 “=”操作; 2)模糊匹配,类似mysql
2018-04-12T23:16:00Z
2018-04-12T23:16:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】前言 Elasticsearch中当我们设置Mapping(分词器、字段类型)完毕后,就可以按照设定的方式导入数据。 有了数据后,我们就需要对数据进行检索操作。根据实际开发需要,往往我们需要支持包含但不限于以下类型的检索: 1)精确匹配,类似mysql中的 “=”操作; 2)模糊匹配,类似mysql <a href="https://www.cnblogs.com/pyspark/p/8817704.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817699.html
ES5.X相关API和技巧汇总 - 哀乐之巅写年华
https://blog.csdn.net/laoyang360/article/details/77412668
2018-04-12T23:14:00Z
2018-04-12T23:14:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】https://blog.csdn.net/laoyang360/article/details/77412668 <a href="https://www.cnblogs.com/pyspark/p/8817699.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817695.html
网络爬虫之Xpath用法汇总 - 哀乐之巅写年华
众所周知,在设计爬虫时,最麻烦的一步就是对网页元素进行分析,目前流行的网页元素获取的工具有BeautifulSoup,lxml等,而据我使用的体验而言,Scrapy的元素选择器Xpath(结合正则表达式)是其中较为出色的一种,功能相对较全、使用较为方便,正因为它的丰富性,有时很多功能会忘记,所以在这
2018-04-12T23:08:00Z
2018-04-12T23:08:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】众所周知,在设计爬虫时,最麻烦的一步就是对网页元素进行分析,目前流行的网页元素获取的工具有BeautifulSoup,lxml等,而据我使用的体验而言,Scrapy的元素选择器Xpath(结合正则表达式)是其中较为出色的一种,功能相对较全、使用较为方便,正因为它的丰富性,有时很多功能会忘记,所以在这 <a href="https://www.cnblogs.com/pyspark/p/8817695.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8817692.html
在MongoDB中修改数据类型 - 哀乐之巅写年华
引言 本文主要讲解Mongodb的类型转换。包括:string转double, string转int, string转Date。 0. 出现类型不一致的原因 ES导入数据到Mongo后,会出现类型统一改为String的问题。 传统关系型数据库,在设计表处,右键就可以完成修改表类型。 但是非关系型数据
2018-04-12T23:04:00Z
2018-04-12T23:04:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】引言 本文主要讲解Mongodb的类型转换。包括:string转double, string转int, string转Date。 0. 出现类型不一致的原因 ES导入数据到Mongo后,会出现类型统一改为String的问题。 传统关系型数据库,在设计表处,右键就可以完成修改表类型。 但是非关系型数据 <a href="https://www.cnblogs.com/pyspark/p/8817692.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8733398.html
关于Flask使用Celery的实践经验分享 - 哀乐之巅写年华
最近大Boss反馈Celery经常出现问题,几经实践终于把问题解决了!于是乎有了这篇博客的诞生,算是一个实践经验的分享吧! 软件版本如下: 介绍 简单来说Celery是一个异步的任务队列,当我们需要将一些任务(比如一些需要长时间操作的任务)异步操作的时候,这时候Celery就可以帮到我们,另外Cel
2018-04-07T07:17:00Z
2018-04-07T07:17:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】最近大Boss反馈Celery经常出现问题,几经实践终于把问题解决了!于是乎有了这篇博客的诞生,算是一个实践经验的分享吧! 软件版本如下: 介绍 简单来说Celery是一个异步的任务队列,当我们需要将一些任务(比如一些需要长时间操作的任务)异步操作的时候,这时候Celery就可以帮到我们,另外Cel <a href="https://www.cnblogs.com/pyspark/p/8733398.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8717798.html
ElasticSearch基础之查询功能 - 哀乐之巅写年华
【01】查询类型: 【02】基本查询和组合查询是参与打分的 1.创建映射: 注意事项:基于上面映射的创建: 对于中文分词器,推荐去Github上搜索: 去github上去寻找这个插件:https://github.com/medcl/elasticsearch-analysis-ik 【02】在上面
2018-04-04T08:05:00Z
2018-04-04T08:05:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】【01】查询类型: 【02】基本查询和组合查询是参与打分的 1.创建映射: 注意事项:基于上面映射的创建: 对于中文分词器,推荐去Github上搜索: 去github上去寻找这个插件:https://github.com/medcl/elasticsearch-analysis-ik 【02】在上面 <a href="https://www.cnblogs.com/pyspark/p/8717798.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8717408.html
ElasticSearch基础之映射mapping - 哀乐之巅写年华
【01】什么是mapping? 首先去看看官方文档,非常重要:https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html 【02】映射分为动态映射和静态映射 【03】ES中的nested和object类型;
2018-04-04T07:20:00Z
2018-04-04T07:20:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】【01】什么是mapping? 首先去看看官方文档,非常重要:https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html 【02】映射分为动态映射和静态映射 【03】ES中的nested和object类型; <a href="https://www.cnblogs.com/pyspark/p/8717408.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8717300.html
ElasticSearch基础之批量操作(mget+mbulk) - 哀乐之巅写年华
在前面的演示中,我们都是基于一次http查询,每次查询都要建立http的三次握手请求,这样比较耗费性能!因此ES给我们提供了基本的批量查询功能,例如如下的查询,注意里面的index是可以任意指明的,不需要都一致 【01】批量查询之_mget操作,如下查询表示指定同时查询索引testdb下的两个typ
2018-04-04T07:01:00Z
2018-04-04T07:01:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】在前面的演示中,我们都是基于一次http查询,每次查询都要建立http的三次握手请求,这样比较耗费性能!因此ES给我们提供了基本的批量查询功能,例如如下的查询,注意里面的index是可以任意指明的,不需要都一致 【01】批量查询之_mget操作,如下查询表示指定同时查询索引testdb下的两个typ <a href="https://www.cnblogs.com/pyspark/p/8717300.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8717171.html
ElasticSearch基础+文档CRUD操作 - 哀乐之巅写年华
本篇博客是上一篇的延续,主要用来将年前学习ES的知识点做一个回顾,方便日后进行复习和汇总!因为近期项目中使用ES出现了点小问题,因此在这里做一个详细的汇总! 【01】全文检索和Lucene (1)全文检索,倒排索引 (2)lucene,就是一个jar包,里面包含了封装好的各种建立倒排索引,以及进行搜
2018-04-04T06:43:00Z
2018-04-04T06:43:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】本篇博客是上一篇的延续,主要用来将年前学习ES的知识点做一个回顾,方便日后进行复习和汇总!因为近期项目中使用ES出现了点小问题,因此在这里做一个详细的汇总! 【01】全文检索和Lucene (1)全文检索,倒排索引 (2)lucene,就是一个jar包,里面包含了封装好的各种建立倒排索引,以及进行搜 <a href="https://www.cnblogs.com/pyspark/p/8717171.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8677750.html
Flask_restful 插件实战笔记——基本概念与使用 - 哀乐之巅写年华
最近在Resetful接口设计上想法还是挺多的,也实现了一些需求!想着整理下Flask_restful插件的基本知识,方便日后的复习! 官方地址:https://flask-restful.readthedocs.io/en/latest/ 【01】介绍: Flask-Restful是一个专门用来写
2018-03-30T09:58:00Z
2018-03-30T09:58:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】最近在Resetful接口设计上想法还是挺多的,也实现了一些需求!想着整理下Flask_restful插件的基本知识,方便日后的复习! 官方地址:https://flask-restful.readthedocs.io/en/latest/ 【01】介绍: Flask-Restful是一个专门用来写 <a href="https://www.cnblogs.com/pyspark/p/8677750.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8607801.html
Django rest framework之序列化小结 - 哀乐之巅写年华
最近在DRF的序列化上踩过了不少坑,特此结合官方文档记录下,方便日后查阅。 【01】前言 serializers是什么?官网是这样的”Serializers allow complex data such as querysets and model instances to be converte
2018-03-20T02:38:00Z
2018-03-20T02:38:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】最近在DRF的序列化上踩过了不少坑,特此结合官方文档记录下,方便日后查阅。 【01】前言 serializers是什么?官网是这样的”Serializers allow complex data such as querysets and model instances to be converte <a href="https://www.cnblogs.com/pyspark/p/8607801.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8605869.html
Django完整生命周期详解 - 哀乐之巅写年华
该文被密码保护。
2018-03-19T15:29:00Z
2018-03-19T15:29:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
该文被密码保护。
https://www.cnblogs.com/pyspark/p/8599210.html
我所理解的Restful API最佳实践 - 哀乐之巅写年华
一直在公司负责API数据接口的开发,期间也遇到了不小的坑,本篇博客算是做一个小小的记录。 1. 不要纠结于无意义的规范 在开始本文之前,我想先说这么一句:RESTful 真的很好,但它只是一种软件架构风格,过度纠结如何遵守规范只是徒增烦恼,也违背了使用它的初衷。就像 Elasticsearch 的
2018-03-19T01:07:00Z
2018-03-19T01:07:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】一直在公司负责API数据接口的开发,期间也遇到了不小的坑,本篇博客算是做一个小小的记录。 1. 不要纠结于无意义的规范 在开始本文之前,我想先说这么一句:RESTful 真的很好,但它只是一种软件架构风格,过度纠结如何遵守规范只是徒增烦恼,也违背了使用它的初衷。就像 Elasticsearch 的 <a href="https://www.cnblogs.com/pyspark/p/8599210.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8588269.html
ElasticSearch入门及核心概念介绍 - 哀乐之巅写年华
Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识和原理以初学者的角度记录下来,如有不当,烦请指正! 0. 带着问题上路——ES是如何产生的? (1)思考:大规模数据如何检索? 如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度
2018-03-17T03:06:00Z
2018-03-17T03:06:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识和原理以初学者的角度记录下来,如有不当,烦请指正! 0. 带着问题上路——ES是如何产生的? (1)思考:大规模数据如何检索? 如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度 <a href="https://www.cnblogs.com/pyspark/p/8588269.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/pyspark/p/8531921.html
生产环境下Flask项目目录构建 - 哀乐之巅写年华
接触Flask已经有大半年了,本篇博客主要来探讨如何规范化生产环境下Flask的项目目录结构。虽然目录结构见仁见智,个人有个人的看法和习惯,但总的来说,经过很多人的实践和总结,还是有很多共同的意见和想法的,而我在查看他人的目录结构结合自身在工作中的使用经验,总结了一个个人认为比较恰当的目录结构供参考
2018-03-09T00:19:00Z
2018-03-09T00:19:00Z
哀乐之巅写年华
https://www.cnblogs.com/pyspark/
【摘要】接触Flask已经有大半年了,本篇博客主要来探讨如何规范化生产环境下Flask的项目目录结构。虽然目录结构见仁见智,个人有个人的看法和习惯,但总的来说,经过很多人的实践和总结,还是有很多共同的意见和想法的,而我在查看他人的目录结构结合自身在工作中的使用经验,总结了一个个人认为比较恰当的目录结构供参考 <a href="https://www.cnblogs.com/pyspark/p/8531921.html" target="_blank">阅读全文</a>