duanxz - 博客园

2017年3月10日

摘要： 1.Kibana介绍Kibana是一个基于浏览器页面的Elasticsearch前端展示工具。Kibana全部使用HTML语言和Javascript编写的。 2.安装配置Kibana下载地址：https://www.elastic.co/downloads/kibana的下载页面，找到对应的kiba 阅读全文

posted @ 2017-03-10 18:02 duanxz 阅读(599) 评论(0) 推荐(0)

ES之二：ES规范 index 原则

摘要：一、index说明相信有不少读者用elasticsearch的时候第一个难题就是如何创建好一个index。下面给出具体的样例和原则，帮助大家创建一个相对适合自己业务场景的index，有助于开展后续的开发工作。先上创建index的模板: curl -XPUT 'http://127.0.0.1:9 阅读全文

posted @ 2017-03-10 11:32 duanxz 阅读(11600) 评论(0) 推荐(2)

ES之七：配置文件详解

摘要：安装流程 http://www.elasticsearch.org/overview/elkdownloads/下载对应系统的安装包（我下载的是tar的），下载解压以后运行es根目录下bin目录的elasticsearch命令（无需配置直接启动），启动后如果能看到类似于下面情况的大量的“INFO”信阅读全文

posted @ 2017-03-10 09:32 duanxz 阅读(6284) 评论(0) 推荐(0)

2017年3月9日

ES之六：ElasticSearch中Filter和Query的异同

摘要：如下例子，查找性别是女，所在的州是PA，过滤条件是年龄是39岁，balance大于等于10000的文档：返回结果：查询虽然包含这两种，但是查询在不同的执行环境下，操作还是不一样的。 Query与Filter 查询在Query查询上下文和Filter过滤器上下文中，执行的操作是不一样的： Quer 阅读全文

posted @ 2017-03-09 22:06 duanxz 阅读(5969) 评论(0) 推荐(1)

ES之五：ElasticSearch聚合

摘要：前言说完了ES的索引与检索，接着再介绍一个ES高级功能API – 聚合(Aggregations)，聚合功能为ES注入了统计分析的血统，使用户在面对大数据提取统计指标时变得游刃有余。同样的工作，你在Hadoop中可能需要写mapreduce或Hive，在mongo中你必须得用大段的mapreduc 阅读全文

posted @ 2017-03-09 22:05 duanxz 阅读(128295) 评论(2) 推荐(8)

Logstash之四：配置说明

摘要： logstash配置文件包含三个配置部分: 分别为：input{}、filter{}、output{}。{} 定义区域，区域内可以定义一个或多个插件，通过插件对数据进行收集，加工处理，输出。在{}配置中可以使用表达式完成要采集数据的逻辑，表达式中的数据类型和运算符如下： 1、数据类型：布尔值类型阅读全文

posted @ 2017-03-09 19:51 duanxz 阅读(2746) 评论(0) 推荐(0)

Logstash之三：命令行中常用的命令

摘要： -f：通过这个命令可以指定Logstash的配置文件，根据配置文件配置logstash -e：后面跟着字符串，该字符串可以被当做logstash的配置（如果是“” 则默认使用stdin作为输入，stdout作为输出） -l：日志输出的地址（默认就是stdout直接在控制台中输出） -t：测试配置文件阅读全文

posted @ 2017-03-09 19:50 duanxz 阅读(1066) 评论(0) 推荐(0)

Logstash之二：原理

摘要：一、Logstash 介绍 Logstash 是一款强大的数据处理工具，它可以实现数据传输，格式处理，格式化输出，还有强大的插件功能，常用于日志处理。二、工作流程 Logstash 工作的三个阶段： input 数据输入端，可以接收来自任何地方的源数据。 file：从文件中读取 syslog：监听阅读全文

posted @ 2017-03-09 19:45 duanxz 阅读(2084) 评论(0) 推荐(1)

Logstash之一：入门介绍

摘要：简介 Logstash是一个接收，处理，转发日志的工具。支持系统日志，webserver日志，错误日志，应用日志，总之包括所有可以抛出来的日志类型。怎么样听起来挺厉害的吧？在一个典型的使用场景下(ELK)：用Elasticsearch作为后台数据的存储，kibana用来前端的报表展示。Logstas 阅读全文

posted @ 2017-03-09 15:16 duanxz 阅读(1351) 评论(0) 推荐(0)

2017年3月8日

mysql分区表之三：MySQL分区建索引,唯一索引

摘要：介绍 mysql分区后每个分区成了独立的文件，虽然从逻辑上还是一张表其实已经分成了多张独立的表，从“information_schema.INNODB_SYS_TABLES”系统表可以看到每个分区都存在独立的TABLE_ID,由于Innodb数据和索引都是保存在".ibd"文件当中（从INNODB_ 阅读全文

posted @ 2017-03-08 14:06 duanxz 阅读(15686) 评论(0) 推荐(0)

mysql分区表之一：分区原理和优缺点【转】

摘要： 1.分区表的原理分区表是由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们也可以直接访问各个分区，存储引擎管理分区的各个底层表和管理普通表一样（所有的底层表都必须使用相同的存储引擎），分区表的索引只是在各个底层表上各自加上一个相同的索引，从存储引擎的角度来看，底层表和一个普通表没有任何阅读全文

posted @ 2017-03-08 12:31 duanxz 阅读(18309) 评论(0) 推荐(0)

2017年3月6日

spring boot下使用logback或log4j生成符合Logstash标准的JSON格式

摘要：一、依赖由于配置中使用了json格式的日志输出，所以需要引入如下依赖 1 二、配置说明 1.日志的输出路径 1 2.读取spring容器中的属性，这里是获取项目名称和运行的服务器IP 1 2 3.设置日志的格式 1 2 4.添加一个输出器，并滚动输出 1 5.指定输出的文件位置 1 6.指定滚动输阅读全文

posted @ 2017-03-06 10:50 duanxz 阅读(3440) 评论(0) 推荐(0)

2017年2月9日

chkconfig命令详解

摘要： chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。使用语法：chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level <等级代号阅读全文

posted @ 2017-02-09 20:19 duanxz 阅读(802) 评论(0) 推荐(0)

2017年2月4日

Spark1.6 Idea下远程调试

摘要：使用的开发工具：scala2.10.4、Idea16、JDK8 1.导入依赖的包和源码在下载Spark中到的导入spark的相关依赖了包和其源码.zip,相关源码的下载地址：https://github.com/apache/spark/tree/v1.6.0 地址最后面是对应的版本号，下载源码便阅读全文

posted @ 2017-02-04 16:46 duanxz 阅读(464) 评论(0) 推荐(0)

2017年1月22日

spark textFile 困惑与解释

摘要：在编写spark测试应用时，会用到sc.textFile(path, partition) 当配置为spark分布式集群时，当你读取本地文件作为输入时，需要将文件存放在每台work节点上。这时会有困惑，spark在读取文件时，是每台worker节点都把文件读入？然后在进行分配？会不会出现重阅读全文

posted @ 2017-01-22 10:20 duanxz 阅读(14100) 评论(0) 推荐(1)

JVM插码之六：jacoco插码及问题“$jacocodata 属性 Method not found: is$jacocoData”

摘要：在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具，可以嵌入到Ant 、Maven中，并提供了EclEmma Eclipse插件,也可以使用JavaAgent技术监控Java程序。很多第三方的工具提供了阅读全文

posted @ 2017-01-22 10:19 duanxz 阅读(4040) 评论(1) 推荐(0)

2017年1月21日

Parquet列式存储格式

摘要： Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢？当时Twitter的日增数据量达到压缩之后的100TB+，存储在HD 阅读全文

posted @ 2017-01-21 00:11 duanxz 阅读(2243) 评论(0) 推荐(0)

2017年1月20日

RDD之七：Spark容错机制

摘要：引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太阅读全文

posted @ 2017-01-20 23:54 duanxz 阅读(9172) 评论(1) 推荐(3)

RDD之六：Action算子

摘要：本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出 foreach 对RDD中的每个元素都应用f函数操作，不返回RDD 阅读全文

posted @ 2017-01-20 20:48 duanxz 阅读(1212) 评论(0) 推荐(0)

RDD之五：Key-Value型Transformation算子

摘要： spark 阅读全文

posted @ 2017-01-20 20:47 duanxz 阅读(1043) 评论(0) 推荐(0)

RDD之四：Value型Transformation算子

摘要：处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1）输入分区与输出分区一对一型 2）输入分区与输出分区多对一型 3）输入分区与输出分区多对多型 4）输出分区为输入分区子集型 5）还有一种特殊的输入与输出分区一对一的算子类型阅读全文

posted @ 2017-01-20 20:46 duanxz 阅读(936) 评论(0) 推荐(0)

RDD之三：RDD创建方式

摘要： RDD创建方式 1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。2）从父RDD转换得到新RDD。3）通过parallelize或makeRDD将单机数据创建为分布式RDD。 4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。从集合创建RDD 阅读全文

posted @ 2017-01-20 20:36 duanxz 阅读(2231) 评论(0) 推荐(0)

RDD之二：原理

摘要： RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已阅读全文

posted @ 2017-01-20 20:35 duanxz 阅读(786) 评论(0) 推荐(0)

服务中台

摘要：其实腾讯并不是最早弄中台的，但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴！说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell！芬兰游戏公司Supercell 2015年年中，马云带领阿里巴巴集团高管，拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce 阅读全文

posted @ 2017-01-20 18:18 duanxz 阅读(837) 评论(0) 推荐(0)

spark api之二：常用示例

摘要： 1、启动spark shell，在doc窗口上打开spark-shell（环境安装见：二、Spark在Windows下的环境搭建）并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1 阅读全文

posted @ 2017-01-20 18:17 duanxz 阅读(320) 评论(0) 推荐(0)