Hadoop - 随笔分类 - 峰峰仔

Kylin简介

摘要：Apache Kylin是一个开源的，分布式分析引擎，提供SQL接口和多维度分析，支持Hadoop的大数据，最早来自eBay的贡献。 Kylin需要你拥有Hadoop CLI的访问，在Hadoop CLI中，你可以对hdfs，hive，hbase和map-reduce的完全权限。为了使得事情简单，建阅读全文

posted @ 2019-05-10 16:37 峰峰仔阅读(303) 评论(0) 推荐(0)

Hive数据操作

摘要：首先我们介绍下Hive中的数据类型数值型类型字符串类型日期类型复杂类型数值型类型 TINY INT SMALL INT INT BIG INT FLOAT DOUBLE DECIMAL 字符串类型 CHAR VARCHAR STRING 日期类型 Timestamp Date 复杂类型 A 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(490) 评论(0) 推荐(0)

Hive教程(1)

摘要：1. 介绍 Apache Hive可以使用SQL来读，写，管理分布式存储的大数据集，结构可以投射到已经存储的数据上，命令行工具和JDBC驱动可以让用户连接到Hive。 2. 安装和配置你可以下载Hive的稳定版本或者下载源码，自己编译Hive 必要： Java1.7(Hive 1.2需要java1 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(1668) 评论(0) 推荐(0)

Hive查询

摘要：Hive提供Hive Query language(HQL)用来进行数据操作 Hive查询提供下面的特性数据模型，例如数据库和表的创建 ETL方法，例如提取，转变，加载数据到表里 join来合并不同的数据表用户自定义的脚本基于Hadoop快速查询工具首先创建表排序查询分组查询 Sort 阅读全文

posted @ 2019-05-10 16:36 峰峰仔阅读(574) 评论(0) 推荐(0)

Hive数据提取

摘要：Hive是基于Hadoop的ETL工具和数据仓库。结构化数据结构化数据就像RDBMS 半结构化的数据，例如：json，xml 什么时候使用Hive 当需要强大的统计方法的时候当要处理结构化或者半结构化数据当需要基于Hadoop的数据仓库可以于Hbase结合 Hive用在什么地方作为ETL 阅读全文

posted @ 2019-05-10 16:35 峰峰仔阅读(2416) 评论(0) 推荐(0)

Alluxio集成Hadoop

摘要：准备工作为了运行Alluxio集群在多个机器上，必须部署Alluxio服务到这些机器上。可以下载伴随特定Hadoop版本的二进制AlLxio包，也可以从Alluxio源码中编译。当从源码中编译时，Alluxio默认是伴随着Apache HDFS的2.2.0版本编译的。为了编译其他的Hadoop版阅读全文

posted @ 2019-04-18 14:46 峰峰仔阅读(2177) 评论(0) 推荐(0)

sqoop将mysql的tinyint类型转化为boolean类型

摘要：当mysql中的字段为tinyint类型时，通过sqoop导入数据到hdfs上，在hdfs上显示的是true，false值。为了显示0，1。解决方法： jdbc:mysql://<hostname>:<port>/<dbname>?tinyInt1isBit=false 阅读全文

posted @ 2019-01-22 15:52 峰峰仔阅读(933) 评论(0) 推荐(0)

Kafka常用命令

摘要：1. 查看consumer的偏移量阅读全文

posted @ 2017-03-16 13:22 峰峰仔阅读(199) 评论(0) 推荐(0)

Hive常用命令

摘要：quit和exit命令 reset命令重置配置参数到默认的值，在hive控制台中，使用set命令或者-hiveconf设置的配置参数将会恢复到默认值。 reset命令并不应用在set命令中使用hiveconf:作为前缀的key名称 set命令 Add命令 List命令 Delete命令 Shell 阅读全文

posted @ 2017-02-24 13:26 峰峰仔阅读(7165) 评论(0) 推荐(0)

Hive创建一个简单的UDF

摘要：创建一个类用Maven构建成jar包打开hive shell控制台阅读全文

posted @ 2017-02-24 09:38 峰峰仔阅读(1230) 评论(0) 推荐(0)

峰峰仔

随笔分类 - Hadoop

公告