上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 91 下一页
  2017年3月10日
摘要: 1.Kibana介绍Kibana是一个基于浏览器页面的Elasticsearch前端展示工具。Kibana全部使用HTML语言和Javascript编写的。 2.安装配置Kibana下载地址:https://www.elastic.co/downloads/kibana的下载页面,找到对应的kiba 阅读全文
posted @ 2017-03-10 18:02 duanxz 阅读(599) 评论(0) 推荐(0)
摘要: 一、index说明 相信有不少读者用elasticsearch的时候第一个难题就是如何创建好一个index。下面给出具体的样例和原则,帮助大家创建一个相对适合自己业务场景的index,有助于开展后续的开发工作。 先上创建index的模板: curl -XPUT 'http://127.0.0.1:9 阅读全文
posted @ 2017-03-10 11:32 duanxz 阅读(11600) 评论(0) 推荐(2)
摘要: 安装流程 http://www.elasticsearch.org/overview/elkdownloads/下载对应系统的安装包(我下载的是tar的),下载解压以后运行es根目录下bin目录的elasticsearch命令(无需配置直接启动),启动后如果能看到类似于下面情况的大量的“INFO”信 阅读全文
posted @ 2017-03-10 09:32 duanxz 阅读(6284) 评论(0) 推荐(0)
  2017年3月9日
摘要: 如下例子,查找性别是女,所在的州是PA,过滤条件是年龄是39岁,balance大于等于10000的文档: 返回结果: 查询虽然包含这两种,但是查询在不同的执行环境下,操作还是不一样的。 Query与Filter 查询在Query查询上下文和Filter过滤器上下文中,执行的操作是不一样的: Quer 阅读全文
posted @ 2017-03-09 22:06 duanxz 阅读(5969) 评论(0) 推荐(1)
摘要: 前言 说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregations),聚合功能为ES注入了统计分析的血统,使用户在面对大数据提取统计指标时变得游刃有余。同样的工作,你在Hadoop中可能需要写mapreduce或Hive,在mongo中你必须得用大段的mapreduc 阅读全文
posted @ 2017-03-09 22:05 duanxz 阅读(128295) 评论(2) 推荐(8)
摘要: logstash配置文件包含三个配置部分: 分别为:input{}、filter{}、output{}。{} 定义区域,区域内可以定义一个或多个插件,通过插件对数据进行收集,加工处理,输出。 在{}配置中可以使用表达式完成要采集数据的逻辑,表达式中的数据类型和运算符如下: 1、数据类型: 布尔值类型 阅读全文
posted @ 2017-03-09 19:51 duanxz 阅读(2746) 评论(0) 推荐(0)
摘要: -f:通过这个命令可以指定Logstash的配置文件,根据配置文件配置logstash -e:后面跟着字符串,该字符串可以被当做logstash的配置(如果是“” 则默认使用stdin作为输入,stdout作为输出) -l:日志输出的地址(默认就是stdout直接在控制台中输出) -t:测试配置文件 阅读全文
posted @ 2017-03-09 19:50 duanxz 阅读(1066) 评论(0) 推荐(0)
摘要: 一、Logstash 介绍 Logstash 是一款强大的数据处理工具,它可以实现数据传输,格式处理,格式化输出,还有强大的插件功能,常用于日志处理。 二、工作流程 Logstash 工作的三个阶段: input 数据输入端,可以接收来自任何地方的源数据。 file:从文件中读取 syslog:监听 阅读全文
posted @ 2017-03-09 19:45 duanxz 阅读(2084) 评论(0) 推荐(1)
摘要: 简介 Logstash是一个接收,处理,转发日志的工具。支持系统日志,webserver日志,错误日志,应用日志,总之包括所有可以抛出来的日志类型。怎么样听起来挺厉害的吧?在一个典型的使用场景下(ELK):用Elasticsearch作为后台数据的存储,kibana用来前端的报表展示。Logstas 阅读全文
posted @ 2017-03-09 15:16 duanxz 阅读(1351) 评论(0) 推荐(0)
  2017年3月8日
摘要: 介绍 mysql分区后每个分区成了独立的文件,虽然从逻辑上还是一张表其实已经分成了多张独立的表,从“information_schema.INNODB_SYS_TABLES”系统表可以看到每个分区都存在独立的TABLE_ID,由于Innodb数据和索引都是保存在".ibd"文件当中(从INNODB_ 阅读全文
posted @ 2017-03-08 14:06 duanxz 阅读(15686) 评论(0) 推荐(0)
摘要: 1.分区表的原理 分区表是由多个相关的底层表实现,这些底层表也是由句柄对象表示,所以我们也可以直接访问各个分区,存储引擎管理分区的各个底层表和管理普通表一样(所有的底层表都必须使用相同的存储引擎),分区表的索引只是在各个底层表上各自加上一个相同的索引,从存储引擎的角度来看,底层表和一个普通表没有任何 阅读全文
posted @ 2017-03-08 12:31 duanxz 阅读(18309) 评论(0) 推荐(0)
  2017年3月6日
摘要: 一、依赖 由于配置中使用了json格式的日志输出,所以需要引入如下依赖 1 二、配置说明 1.日志的输出路径 1 2.读取spring容器中的属性,这里是获取项目名称和运行的服务器IP 1 2 3.设置日志的格式 1 2 4.添加一个输出器,并滚动输出 1 5.指定输出的文件位置 1 6.指定滚动输 阅读全文
posted @ 2017-03-06 10:50 duanxz 阅读(3440) 评论(0) 推荐(0)
  2017年2月9日
摘要: chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接。 使用语法:chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level <等级代号 阅读全文
posted @ 2017-02-09 20:19 duanxz 阅读(802) 评论(0) 推荐(0)
  2017年2月4日
摘要: 使用的开发工具:scala2.10.4、Idea16、JDK8 1.导入依赖的包和源码 在下载Spark中到的导入spark的相关依赖了包和其源码.zip,相关源码的下载地址:https://github.com/apache/spark/tree/v1.6.0 地址最后面是对应的版本号,下载源码便 阅读全文
posted @ 2017-02-04 16:46 duanxz 阅读(464) 评论(0) 推荐(0)
  2017年1月22日
摘要: 在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上。 这时会有困惑,spark在读取文件时,是每台worker节点都把文件读入? 然后在进行分配? 会不会出现重 阅读全文
posted @ 2017-01-22 10:20 duanxz 阅读(14100) 评论(0) 推荐(1)
摘要: 在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具,可以嵌入到Ant 、Maven中,并提供了EclEmma Eclipse插件,也可以使用JavaAgent技术监控Java程序。很多第三方的工具提供了 阅读全文
posted @ 2017-01-22 10:19 duanxz 阅读(4040) 评论(1) 推荐(0)
  2017年1月21日
摘要: Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时Twitter的日增数据量达到压缩之后的100TB+,存储在HD 阅读全文
posted @ 2017-01-21 00:11 duanxz 阅读(2243) 评论(0) 推荐(0)
  2017年1月20日
摘要: 引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 阅读全文
posted @ 2017-01-20 23:54 duanxz 阅读(9172) 评论(1) 推荐(3)
摘要: 本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每个元素都应用f函数操作,不返回RDD 阅读全文
posted @ 2017-01-20 20:48 duanxz 阅读(1212) 评论(0) 推荐(0)
摘要: spark 阅读全文
posted @ 2017-01-20 20:47 duanxz 阅读(1043) 评论(0) 推荐(0)
摘要: 处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型 阅读全文
posted @ 2017-01-20 20:46 duanxz 阅读(936) 评论(0) 推荐(0)
摘要: RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD 阅读全文
posted @ 2017-01-20 20:36 duanxz 阅读(2231) 评论(0) 推荐(0)
摘要: RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已 阅读全文
posted @ 2017-01-20 20:35 duanxz 阅读(786) 评论(0) 推荐(0)
摘要: 其实腾讯并不是最早弄中台的,但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴!说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell! 芬兰游戏公司Supercell 2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce 阅读全文
posted @ 2017-01-20 18:18 duanxz 阅读(837) 评论(0) 推荐(0)
摘要: 1、启动spark shell,在doc窗口上打开spark-shell(环境安装见:二、Spark在Windows下的环境搭建) 并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1 阅读全文
posted @ 2017-01-20 18:17 duanxz 阅读(320) 评论(0) 推荐(0)
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 91 下一页