shayzhang

[置顶] 03_Spark集群部署

摘要：【安装前的环境准备】 Hadoop：2.6.1Java：jdk-1.7.0Spark: spark-1.6.0-bin-hadoop2.6.tgzScala: scala-2.11.4.tgz虚拟机：host01,host02,host03; 其中host01是spark集群的主节点master, 阅读全文

posted @ 2017-12-20 23:52 shayzhang 阅读(305) 评论(0) 推荐(0)

[置顶] 02_Spark Application不同模式下的监控

摘要：监控Spark Application的运行官方文档： http://spark.apache.org/docs/latest/monitoring.html 1.1 监控方式 Driver Programme WEB UI (Port: 4040) * 每一个driver program (更具阅读全文

posted @ 2017-12-20 00:52 shayzhang 阅读(1559) 评论(0) 推荐(0)

[置顶] 01_Spark基础

摘要： 1.1、Spark Ecosystem BlinkDB: 允许用户定义一个错误范围，BlinkDB将在用户给定的错误范围内，尽可能快的提供查询结果 1.2、Spark愿景 1.3、Spark简介 1）加州大学伯克利分校AMP实验室(Algorithms, Machines, and People l 阅读全文

posted @ 2017-12-19 02:31 shayzhang 阅读(275) 评论(0) 推荐(0)

[置顶] 12_Python操作MySQL(basic)

摘要： """ Test connection to MySQL using mysql-client conn = MySQLdb.connect(host,port,user,passwd,db,charset) cursor = conn.cursor() cursor.execute(sql, (arg1,arg2,arg3...)) conn.commit() conn.rollback(... 阅读全文

posted @ 2017-12-15 00:50 shayzhang 阅读(255) 评论(0) 推荐(0)

[置顶] 05_Kafka Python_Consumer模拟

摘要： Python客户端: Kafka-python 安装： pip install kafka-python Consumer端模拟代码启动该Consumer，并多次运行Producer, 由于消息的key相同，会被存入同一个partition, 从Consumer端解析出的partition也可以确阅读全文

posted @ 2017-12-09 21:50 shayzhang 阅读(567) 评论(0) 推荐(0)

[置顶] 04_kafka python客户端_Producer模拟

摘要：使用的python库： kafka-python 安装方式： pip install kafka-python 简单的模拟Producer 在集群上任选1个节点，开启console-consumer, 运行该py文件 Consumer收到该数据阅读全文

posted @ 2017-12-09 18:20 shayzhang 阅读(1051) 评论(0) 推荐(0)

[置顶] 03_Kafka集群操作

摘要： 1、集群配置思路 1）每台节点上要启动一个broker进程，因此要配置每台的server.properties broker id, log.dirs, zookeeper.connect 2) 每台broker都要连接zookeeper将状态写入，因此要配置每台的zookeeper.propert 阅读全文

posted @ 2017-12-09 13:36 shayzhang 阅读(521) 评论(0) 推荐(0)

[置顶] 02_Kafka单节点实践

摘要： 1、实践场景开始前的准备条件： 1）确认各个节点的jdk版本，将jdk升级到和kafka配套的版本（解压既完成安装，修改/etc/profile下的JAVA_HOME，source /etc/profile，重启后jdk生效） 2、单节点kafka实践 1）启动zookeeper集群各个节点阅读全文

posted @ 2017-12-09 00:06 shayzhang 阅读(1426) 评论(0) 推荐(0)

[置顶] 01_Kafka概述

摘要： 1、Kafka背景 * LinkedIn开发，2011年成为Apache的一个开源项目* 2012年，成为Apache的一个顶级项目* 基于java和Scala编写，基于发布-订阅模型的消息系统（离线-在线消费都支持）* 分布式、高性能（o(1)的磁盘数据结构完成消息持久化，OS：预读后写；磁盘顺阅读全文

posted @ 2017-12-07 01:25 shayzhang 阅读(364) 评论(0) 推荐(0)

[置顶] 08_Flume_Selector实践

摘要：实践一：replicating selector 1、目标场景 selector将event复制，分发给所有下游节点 2、Flume Agent配置 Agent配置 Collector1配置 Collector2配置 3、验证Replicating selector Agent端通过curl -X 阅读全文

posted @ 2017-12-03 18:37 shayzhang 阅读(1901) 评论(0) 推荐(0)

[置顶] 07_Flume_regex interceptor实践

摘要：实践一：regex filter interceptor 1、目标场景 regex filter interceptor的作用： 1）将event body的内容和配置中指定的正则表达式进行匹配2）如果内容匹配，则将该event丢弃3）如果内容不匹配，则将该event放行 2、Flume Agent 阅读全文

posted @ 2017-12-03 16:50 shayzhang 阅读(1818) 评论(0) 推荐(0)

[置顶] 06_Flume_interceptor_时间戳+Host

摘要： 1、目标场景 2、flume agent配置文件 3、验证timestamp+host interceptor 验证思路： 1）先将interceptor作用后的event，通过logger sink打印到console，验证header是否正常添加2）修改sink为hdfs, 观察目录和文件的名称阅读全文

posted @ 2017-12-03 12:37 shayzhang 阅读(1278) 评论(0) 推荐(0)

[置顶] 05_Flume_timestamp interceptor实践

摘要： 1、目标场景 2、Flume Agent配置 3、curl命令，模拟发送HTTP请求(POST方法） # curl -X POST -d '[{"headers":{}, "body":"timestamp teset 001"}]' http://master:6666 说明： -X POST 表阅读全文

posted @ 2017-12-03 03:32 shayzhang 阅读(1390) 评论(0) 推荐(0)

[置顶] 04_Flume多节点load_balance实践

摘要： 1、负载均衡场景 1）初始：上游Agent通过round_robin selector, 将event轮流发送给下游Collecotor1, Collector2 2）故障：关闭Collector1进程来模拟故障，Agent1由于配置了backoff, 会将Collecotor1暂时从发送列表中移阅读全文

posted @ 2017-12-02 18:03 shayzhang 阅读(1273) 评论(0) 推荐(0)

[置顶] 03_Flume多节点Failover实践

摘要： 1、实践场景模拟上游Flume Agent在发送event时的故障切换（failover） 1）初始：上游Agent向active的下游节点Collector1传递event 2）Collector1故障： kill该进程的方式来模拟， event此时发送给Collector2，完成故障切换 3 阅读全文

posted @ 2017-12-02 01:48 shayzhang 阅读(851) 评论(0) 推荐(0)

[置顶] 02_Flume1.6.0安装及单节点Agent实践

摘要： Flume1.6.0的安装1、上传Flume-1.6.0-tar.gz到待部署的所有机器以我的为例： /usr/local/src/ 2、解压得到flume文件夹 # tar -xzvf flume-1.6.0-tar.gz 3、修改文件夹名称，属主，及权限 # mv flume-1.6.0 fl 阅读全文

posted @ 2017-12-01 02:10 shayzhang 阅读(849) 评论(0) 推荐(0)

[置顶] 01_Flume基本架构及原理

摘要： Flume消息收集系统，在整个系统架构中的位置 Flume概况1) Apache软件基金会的顶级项目2）存在两个大的版本：Flume 0.9.x(Flume-OG,original generation), Flume 1.x(Flume-NG,next generation)3) 信息采集系统（分阅读全文

posted @ 2017-11-30 02:28 shayzhang 阅读(1694) 评论(0) 推荐(0)

[置顶] 01_re正则表达式

摘要：正则表达式，是一个特殊的字符串，是对一类字符串的描述 ( 怎么描述一类字符：普通字符+元字符+重复）检测给定的字符串，是否和正则表达式描述的字符串相匹配举例：1）检查一串数字是否是电话号码2）检测一个字符串是否符合email的标准3）把一个文本中的指定单词替换为另一个单词 Python提阅读全文

posted @ 2017-11-17 01:06 shayzhang 阅读(195) 评论(0) 推荐(0)

[置顶] 02_HBase集群部署

摘要： HBase集群部署 HBase是分布式数据库，本身也需要借助zookeeper进行集群节点间的协调（Master, RegionServer）, 可以使用HBase自带的zookeeper，也可以使用外部独立部署的zookeeper, 从练习的角度讲，可以使用HBase内部自带的zookeeper 阅读全文

posted @ 2017-11-13 00:21 shayzhang 阅读(245) 评论(0) 推荐(0)

[置顶] 01_HBase概述

摘要： 1. HBase在Hadoop生态圈中的位置问题：HBase 是什么，用在哪里，解决什么样的问题？解答： 1）简单来说， HBase 是一种类似于面向列的分布式数据库（集群），底层利用HDFS 来作为其物理存储（但在特殊情况下也可以使用节点本机的文件系统）, 存储稀疏数据；同时借助zookee 阅读全文

posted @ 2017-11-11 02:25 shayzhang 阅读(308) 评论(0) 推荐(0)

2017年12月22日

04_Windows平台Spark开发环境构建

摘要： Spark的开发环境，可以基于IDEA+Scala插件，最终将打包得到的jar文件放入Linux服务器上的Spark上运行如果是Python的小伙伴，可以在Windows上部署spark+hadoop+pycharm开发环境进行本地开发和调测，最后将py文件放入Linux服务器上的Spark运行阅读全文

posted @ 2017-12-22 11:45 shayzhang 阅读(220) 评论(0) 推荐(0)

公告