随笔分类 -  Hadoop

摘要:一、安装DbVisualizer 下载地址http://www.dbvis.com/ 也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1 具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以 二、配置DbVisualizer里的hive jdbc 1、在DbVis 阅读全文
posted @ 2018-04-05 14:44 扎心了,老铁 阅读(25018) 评论(6) 推荐(0) 编辑
摘要:一、CLI连接 进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/ 阅读全文
posted @ 2018-04-04 13:01 扎心了,老铁 阅读(85642) 评论(5) 推荐(1) 编辑
摘要:概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表 一、存储Hive版本的元数据表(VERSION) VERSION -- 查询版本信息 该表比较 阅读全文
posted @ 2018-04-03 19:58 扎心了,老铁 阅读(54421) 评论(2) 推荐(7) 编辑
摘要:Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 MySql安装过程ht 阅读全文
posted @ 2018-04-03 19:50 扎心了,老铁 阅读(48862) 评论(8) 推荐(13) 编辑
摘要:Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为 Ma 阅读全文
posted @ 2018-04-03 19:49 扎心了,老铁 阅读(192177) 评论(12) 推荐(46) 编辑
摘要:协处理器—Coprocessor 1、 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能 阅读全文
posted @ 2018-04-03 13:58 扎心了,老铁 阅读(6524) 评论(1) 推荐(4) 编辑
摘要:建表高级属性 下面几个 shell 命令在 hbase 操作中可以起到很大的作用,且主要体现在建表的过程中,看 下面几个 create 属性 1、 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用 HColumnDescriptor.setB 阅读全文
posted @ 2018-04-03 13:03 扎心了,老铁 阅读(11435) 评论(1) 推荐(4) 编辑
摘要:HBase phoenix的下载 下载地址http://mirror.bit.edu.cn/apache/phoenix/ 选择对应的hbase版本进行下载,测试使用的是hbase-1.2.6版本 阅读全文
posted @ 2018-04-03 12:56 扎心了,老铁 阅读(5477) 评论(0) 推荐(1) 编辑
摘要:主要是记录一下链接 http://hbasefly.com 阅读全文
posted @ 2018-04-02 20:55 扎心了,老铁 阅读(5566) 评论(0) 推荐(1) 编辑
摘要:系统架构 错误图解 这张图是有一个错误点:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog。 正确图解 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HReg 阅读全文
posted @ 2018-04-02 20:14 扎心了,老铁 阅读(12484) 评论(0) 推荐(10) 编辑
摘要:过滤器(Filter) 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务 阅读全文
posted @ 2018-04-02 18:42 扎心了,老铁 阅读(15118) 评论(0) 推荐(3) 编辑
摘要:MapReduce从HDFS读取数据存储到HBase中 现有HDFS中有一个student.txt文件,格式如下 将HDFS上的这个文件里面的数据写入到HBase数据块中 MapReduce实现代码如下 MapReduce从HBase读取数据计算平均年龄并存储到HDFS中 阅读全文
posted @ 2018-04-02 12:28 扎心了,老铁 阅读(17843) 评论(3) 推荐(1) 编辑
摘要:Eclipse环境搭建 具体的jar的引入方式可以参考http://www.cnblogs.com/qingyunzong/p/8623309.html HBase API操作表和数据 阅读全文
posted @ 2018-03-31 09:55 扎心了,老铁 阅读(9802) 评论(2) 推荐(0) 编辑
摘要:进入HBase命令行 在你安装的随意台服务器节点上,执行命令:hbase shell,会进入到你的 hbase shell 客 户端 说明,先看一下提示。其实是不是有一句很重要的话: 讲述了怎么获得帮助,怎么退出客户端 help 获取帮助 help:获取所有命令提示 help "dml" :获取一组 阅读全文
posted @ 2018-03-31 09:50 扎心了,老铁 阅读(11832) 评论(2) 推荐(7) 编辑
摘要:前提 1、HBase 依赖于 HDFS 做底层的数据存储 2、HBase 依赖于 MapReduce 做数据计算 3、HBase 依赖于 ZooKeeper 做服务协调 4、HBase源码是java编写的,安装需要依赖JDK 版本选择 打开官方的版本说明http://hbase.apache.org 阅读全文
posted @ 2018-03-29 17:16 扎心了,老铁 阅读(21636) 评论(4) 推荐(6) 编辑
摘要:产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式 的庞大 阅读全文
posted @ 2018-03-29 11:34 扎心了,老铁 阅读(23664) 评论(4) 推荐(12) 编辑
摘要:本文参考自https://blog.csdn.net/wo541075754/article/details/69138878?utm_source=gold_browser_extension https://www.cnblogs.com/java-zhao/p/7350945.html 简介 阅读全文
posted @ 2018-03-29 11:33 扎心了,老铁 阅读(42708) 评论(1) 推荐(5) 编辑
摘要:待添加 阅读全文
posted @ 2018-03-28 18:30 扎心了,老铁 阅读(1538) 评论(0) 推荐(0) 编辑
摘要:爬虫的四个主要步骤 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正 阅读全文
posted @ 2018-03-28 18:29 扎心了,老铁 阅读(1840) 评论(0) 推荐(1) 编辑
摘要:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-03-28 18:27 扎心了,老铁 阅读(9946) 评论(0) 推荐(1) 编辑