随笔档案「2016年6月」 - yuerspring

nginx ---->flume ----->kafka ----> storm -----> hdfs

摘要：大数据架构简单流程图nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)航空电商大规模实时日志分析1）.数据采集负责从各节点上实时采集数据，... 阅读全文

posted @ 2016-06-30 11:16 yuerspring 阅读(154) 评论(0) 推荐(0)

使用java MapReduce job 批量导入大额数据到Hbase

摘要：经常用到的cmd 是 hbase shell，但是局限于cmd 能够实现的功能，从HDFS批量导入大额数据Hbase 时，需要更强大的工具，而且导入的时候可能会有ETL 操作可以参考示例 http://www.linuxidc.com/Linux/2014-03/... 阅读全文

posted @ 2016-06-29 09:19 yuerspring 阅读(224) 评论(0) 推荐(0)

nginx HA and 负载均衡示意图

摘要：service keepalived start service tengine startflume-ng agent --conf conf --conf-file /usr/apache-flume-1.6.0-bin/conf/getnginxlog --n... 阅读全文

posted @ 2016-06-27 22:51 yuerspring 阅读(231) 评论(0) 推荐(0)

一张图玩转大数据架构流程

摘要：阅读全文

posted @ 2016-06-27 12:03 yuerspring 阅读(221) 评论(0) 推荐(0)

nginx 错误, flume 集锦，太多bugs netstat -ntpl

摘要：netstat -ntpl[root@bigdatahadoop sbin]# ./nginx -t -c /usr/tengine-2.1.0/conf/nginx.confnginx: [emerg] "upstream" directive is not all... 阅读全文

posted @ 2016-06-26 13:28 yuerspring 阅读(574) 评论(0) 推荐(0)

透过面试题，洞察Hbase 核心知识点

摘要：LSM 算法HFile索引，二级索引 hbase的问题1.hbase怎么预分区？ 2.hbase怎么给web前台提供接口来访问？3.htable API有没有线程安全问题，在程序中是单例还是多例？4.我们的hbase大概在公司业务中（主要是网上商城）大概都几个表... 阅读全文

posted @ 2016-06-23 15:28 yuerspring 阅读(398) 评论(0) 推荐(0)

大数据，云计算核心体系

摘要：第一阶段：linux+搜索+hadoop体系Linux大纲这章是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,kvm,openstack等众多课程。因为企业中无一例... 阅读全文

posted @ 2016-06-22 13:29 yuerspring 阅读(342) 评论(0) 推荐(0)

Story share IBM 一同事职业发展履历

摘要：1. Your job scope?--- My Job role is P4 client architect. The responsibility of this role is listed as below:1). Support sales team to... 阅读全文

posted @ 2016-06-22 10:17 yuerspring 阅读(180) 评论(0) 推荐(0)

hbase的调优

摘要：1. 表的设计1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的... 阅读全文

posted @ 2016-06-21 19:02 yuerspring 阅读(171) 评论(0) 推荐(0)

SQuirrel 连不上 Phoenix Hbase ---> 可能是因为zookeeper 集群中的一个zookeeper 启动有问题

摘要：Unexpected Error occurred attempting to open an SQL connection.java.util.concurrent.TimeoutException at java.util.concurrent.Future... 阅读全文

posted @ 2016-06-20 19:19 yuerspring 阅读(625) 评论(0) 推荐(0)

How Hbase store data in HDFS 数据在Hbase上的存储形式，Hbase 知识点概述

摘要：列族的最佳个数应该是一个或两个，不应该超过3 个<---- from apache.com 标签个数没有限制数据是以二进制存储在Hbase （hbase 更像是一个数据管理系统，数据存储在HDFS中，这一点与DB2 和 oracle 类似，关系数据库数据存储在... 阅读全文

posted @ 2016-06-20 13:04 yuerspring 阅读(235) 评论(0) 推荐(0)

Java API 操作Hbase

摘要：package com.bi.net;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.... 阅读全文

posted @ 2016-06-19 23:21 yuerspring 阅读(157) 评论(0) 推荐(0)

Phoenix ,SQuirrel 与Hbase 搭建

摘要：搭建目的：用Hbase 用起来更像是关系型数据库，Hbase 本身没有select ，delete ，where 命令，键入phoenix 后可以实现该功能。Apache 官网地址： http://phoenix.apache.org/installat... 阅读全文

posted @ 2016-06-19 14:03 yuerspring 阅读(175) 评论(0) 推荐(0)

zkServer.sh start zkServer启动失败

摘要：[root@bigdatacloud zookeeper-3.4.6]# cat zookeeper.out2016-06-19 13:06:57,359 [myid:] - INFO [main:QuorumPeerConfig@103] - Reading co... 阅读全文

posted @ 2016-06-19 13:14 yuerspring 阅读(2443) 评论(0) 推荐(0)

MapReduce 运行原理---再聊MapReduce 的 Map ，Reduce 以及shuffle 过程

摘要：官网使用了三张图来描述shuffle 过程，Map 和 reduce 是我们自己写的程序，所以没有写进这三个图里面,今天主要围绕这三张图我们做一个简单的说明和复习：第一张图，从整体上把握流程上图提供的是整个流程的一部分，全部流程应该是有 4 个 Map ，3 ... 阅读全文

posted @ 2016-06-15 10:51 yuerspring 阅读(169) 评论(0) 推荐(0)

DB2 不常用SQL语句集合

摘要：DB2 不常用SQL语句集合 1. reanme table dwmd1.Hope_Fact to Hope_Fact_201001012. db2 catalog tcpip node DB2PODS remote hostname server 50020 ... 阅读全文

posted @ 2016-06-14 11:22 yuerspring 阅读(142) 评论(0) 推荐(0)

大数据世界要熟悉的5门语言

摘要：大数据世界要熟悉的5门语言课程Python OpenStackJava HadoopScala SparkShell LinuxSQL DB JS=================华丽分割线============... 阅读全文

posted @ 2016-06-14 10:03 yuerspring 阅读(135) 评论(0) 推荐(0)

Hive 优化（important）

摘要：Hive ive优化要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较... 阅读全文

posted @ 2016-06-13 00:17 yuerspring 阅读(166) 评论(0) 推荐(0)

Hive2 beeline 使用方法

摘要：Hive2 beeline–Beeline 要与HiveServer2配合使用，支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.1... 阅读全文

posted @ 2016-06-12 21:45 yuerspring 阅读(929) 评论(0) 推荐(0)

从join on和where执行顺序认识T-SQL查询处理执行顺序

摘要：原文： http://www.phpddt.com/db/join-on-where.htmlSQL语句中join连表时on和where后都可以跟条件，那么对查询结果集，执行顺序，效率是如何呢？通过查询资料发现：区别：on是对中间结果进行筛选，where是对最终结... 阅读全文

posted @ 2016-06-12 15:51 yuerspring 阅读(407) 评论(0) 推荐(0)

HiveServer2的高可用-HA配置

摘要：HiveServer2的高可用-HA配置：http://lxw1234.com/archives/2016/05/675.htm作者在配置环境中也遇到问题，更详细内容请点击上方链接，thanksset hive-site :hive.server2.suppor... 阅读全文

posted @ 2016-06-07 08:22 yuerspring 阅读(970) 评论(0) 推荐(0)

使用Docker在本地搭建Hadoop分布式集群

摘要：原文地址： http://www.hengtianyun.com/download-show-id-583.html提到虚拟化，　Docker　最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好... 阅读全文

posted @ 2016-06-06 16:10 yuerspring 阅读(189) 评论(0) 推荐(0)

微博推荐第三个map 源码

摘要：package com.laoxiao.mr.tf;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;i... 阅读全文

posted @ 2016-06-05 21:42 yuerspring 阅读(192) 评论(0) 推荐(0)

PageRank 理解

摘要：在用Mapreduce 重写PageRank 的时候,每个页面的初始值为 pr =1 ,每循环一次（map & reduce）后，每个页面会得到一个新的page rank 值，在进行一次新的迭代，直到收敛于一个值，不再变化。第一列代表链出，其他... 阅读全文

posted @ 2016-06-02 09:12 yuerspring 阅读(226) 评论(0) 推荐(0)

yuerspring

06 2016 档案

公告