06 2019 档案
摘要:一、命令的方式做分页 1、常见的分页方式:from+size elasticsearch默认采用的分页方式是from+size的形式,但是在深度分页的情况下,这种使用方式的效率是非常低的,比如from=5000,size=10,es需要在各个分片上匹配排序并得到5000*10条有效数据,然后在结果集
阅读全文
摘要:一、Hue 简介 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,
阅读全文
摘要:一、组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7hadoop-2.7.7 scala-2.12.8 hadooponwindows-master Python3.7 注意事项: Spark运行在Java 8 +,Python 2.7 + /
阅读全文
摘要:一、Checkpoint相关源码分为四个部分 1、Checkpoint的基本使用:spark_core & spark_streaming 2、初始化的源码 3、Checkpoint的job生成及执行的过程 4、读Checkpoint的过程 二、Checkpoint的基本使用 Checkpoint可
阅读全文

浙公网安备 33010602011771号