摘要: 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(748) 评论(0) 推荐(0)
摘要: 1.先决条件配置了hadoop、hive等2.官网查看版本信息下载相应的安装包http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.10/RPMS/x86_64/3.安装一些依赖包:mysql-connector-java、bigtop-jsc... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(872) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(182) 评论(0) 推荐(0)
摘要: Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储系统,适用于实时读写、随机访问超大规模数据的集群。HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(556) 评论(0) 推荐(0)
摘要: 1.RowCounter工具可以查看某张表有多少行,效率非常高2.count命令在数据量大的时候效率非常差执行./hbase org.apache.hadoop.habse.mapreduce.RowCounter test3.WAL(Write Ahead Log)预写日志HLog,发生的更新操... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(189) 评论(0) 推荐(0)
摘要: 1.进入hbase shell 执行./bin/hbase shell2.进入后,help 帮助信息,如可以使用help 'create'3.创建表:create ‘test’,'cf' 表名-列族4.列出所有表:list 5.查看表的结构信息:describe ‘test’6.插入数据:pu... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(2891) 评论(0) 推荐(0)
摘要: 1.Hmaster的Web接口-端口参数:hbase.master.info.port 默认为16010http://hbase_master_server:16010可查看hbase的版本信息,hbase的基本配置信息,hbase在hdfs中的存储路径、zookeeper的节点、集群的负载信息、... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(3241) 评论(0) 推荐(0)
摘要: 1.自动化运维--cloudera manager2.手动运维a.启动./start.all.sh,停止./stop-all.shb.hdfs启动/停止:./start-dfs.sh ./stop-dfs.shc.启动单个:./hadoop-daemon.sh start/stop nameno... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(365) 评论(0) 推荐(0)
摘要: 1.Join优化a.map joinb.reduce join小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize(默认为25000000)来定... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(253) 评论(0) 推荐(0)
摘要: 1.HDFS调优a.设置合理的块大小(dfs.block.size)b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir)c.设置DataNode处理RPC的线程数(默认为3),大集群可适当加大点(dfs.datanode.handler.count)d.设置Nam... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1679) 评论(0) 推荐(0)