06 2016 档案
摘要:大数据架构简单流程图nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)航空电商大规模实时日志分析1).数据采集负责从各节点上实时采集数据,...
阅读全文
摘要:经常用到的cmd 是 hbase shell,但是局限于cmd 能够实现的功能,从HDFS批量导入大额数据Hbase 时 ,需要更强大的工具 ,而且导入的时候可能会有ETL 操作可以参考示例 http://www.linuxidc.com/Linux/2014-03/...
阅读全文
摘要:service keepalived start service tengine startflume-ng agent --conf conf --conf-file /usr/apache-flume-1.6.0-bin/conf/getnginxlog --n...
阅读全文
摘要:netstat -ntpl[root@bigdatahadoop sbin]# ./nginx -t -c /usr/tengine-2.1.0/conf/nginx.confnginx: [emerg] "upstream" directive is not all...
阅读全文
摘要:LSM 算法HFile索引 ,二级索引 hbase的问题1.hbase怎么预分区? 2.hbase怎么给web前台提供接口来访问?3.htable API有没有线程安全问题,在程序中是单例还是多例?4.我们的hbase大概在公司业务中(主要是网上商城)大概都几个表...
阅读全文
摘要:第一阶段:linux+搜索+hadoop体系Linux大纲 这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例...
阅读全文
摘要:1. Your job scope?--- My Job role is P4 client architect. The responsibility of this role is listed as below:1). Support sales team to...
阅读全文
摘要:1. 表的设计1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的...
阅读全文
摘要:Unexpected Error occurred attempting to open an SQL connection.java.util.concurrent.TimeoutException at java.util.concurrent.Future...
阅读全文
摘要:列族的最佳个数应该是一个或两个 ,不应该超过3 个<---- from apache.com 标签个数没有限制数据是以二进制存储在Hbase (hbase 更像是一个数据管理系统,数据存储在HDFS中 ,这一点与DB2 和 oracle 类似 ,关系数据库 数据存储在...
阅读全文
摘要:package com.bi.net;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client....
阅读全文
摘要:搭建目的 : 用Hbase 用起来更像是关系型数据库 ,Hbase 本身没有select ,delete ,where 命令,键入phoenix 后可以实现该功能。Apache 官网 地址 : http://phoenix.apache.org/installat...
阅读全文
摘要:[root@bigdatacloud zookeeper-3.4.6]# cat zookeeper.out2016-06-19 13:06:57,359 [myid:] - INFO [main:QuorumPeerConfig@103] - Reading co...
阅读全文
摘要:官网使用了三张图来描述shuffle 过程 ,Map 和 reduce 是我们自己写的程序,所以没有写进这三个图里面,今天主要围绕这三张图我们做一个简单的说明和复习 :第一张图,从整体上把握流程上图提供的是整个流程的一部分,全部流程应该是有 4 个 Map ,3 ...
阅读全文
摘要:DB2 不常用SQL语句集合 1. reanme table dwmd1.Hope_Fact to Hope_Fact_201001012. db2 catalog tcpip node DB2PODS remote hostname server 50020 ...
阅读全文
摘要:大数据世界要熟悉的5门语言课程Python OpenStackJava HadoopScala SparkShell LinuxSQL DB JS=================华丽分割线============...
阅读全文
摘要:Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较...
阅读全文
摘要:Hive2 beeline–Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.1...
阅读全文
摘要:原文 : http://www.phpddt.com/db/join-on-where.htmlSQL语句中join连表时on和where后都可以跟条件,那么对查询结果集,执行顺序,效率是如何呢?通过查询资料发现:区别:on是对中间结果进行筛选,where是对最终结...
阅读全文
摘要:HiveServer2的高可用-HA配置 :http://lxw1234.com/archives/2016/05/675.htm作者在配置环境中也遇到问题,更详细内容请点击上方链接 ,thanksset hive-site :hive.server2.suppor...
阅读全文
摘要:原文地址 : http://www.hengtianyun.com/download-show-id-583.html提到虚拟化, Docker 最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境。虽然有点大材小用,但是学习学习,练练手也是极好...
阅读全文
摘要:package com.laoxiao.mr.tf;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;i...
阅读全文
摘要:在用Mapreduce 重写PageRank 的时候,每个页面的初始值 为 pr =1 ,每循环一次(map & reduce) 后 ,每个页面会得到一个新的page rank 值 ,在进行一次新的迭代,直到 收敛于一个值 ,不再变化 。第一列代表链出 ,其他...
阅读全文

浙公网安备 33010602011771号