Hadoop生态圈 - 随笔分类 - huan&ping

Hive之执行计划分析(explain)

摘要：Hive是通过把sql转换成对应mapreduce程序，然后提交到Hadoop上执行，查看具体的执行计划可以通过执行explain sql知晓一条sql会被转化成由多个阶段组成的步骤，每个步骤有执行顺序和依赖关系，可以称之为有向无环图（DAG:Directed Acyclic Graph）这些步阅读全文

posted @ 2018-10-18 11:40 huan&ping 阅读(3176) 评论(0) 推荐(0)

Hive之Order,Sort,Cluster and Distribute By

摘要：测试数据 Order By Job中只会启动一个reduce做全局排序，数据量大时，耗时会很久在strict模式(hive.mapred.mode=strict)下，必须添加limit语句限制返回条数 Sort By 排序前会根据排序字段分区，一个job启动多个reduce进行局部排序如果有li 阅读全文

posted @ 2018-10-18 10:17 huan&ping 阅读(275) 评论(0) 推荐(0)

Hive之侧视图(Lateral View)

摘要：Lateral View和UDTF类功能函数一起使用，表中的每一行和UDTF函数输出的每一行进行连接，生成一张新的虚拟表，可以对UDTF产生的记录设置字段名称，新加的字段可以使用在sort by,group by等语句中，不需要再套一层子查询。Lateral View的作用是可以扩展原来的表数据。阅读全文

posted @ 2018-10-17 19:57 huan&ping 阅读(1696) 评论(0) 推荐(0)

Hive之数据类型

摘要：数字类 | 类型 | 长度 | 备注 | | : | : | : | | TINYINT | 1字节 | 有符号整型 | | SMALLINT | 2字节 | 有符号整型 | | INT | 4字节 | 有符号整型 | | BIGINT | 8字节 | 有符号整型 | | FLOAT | 4字节 | 阅读全文

posted @ 2018-10-13 22:45 huan&ping 阅读(57868) 评论(0) 推荐(4)

Hive之内置函数

摘要：函数分类 UDF(User Defined Function)：数据一对一 UDAF(User Defined Aggreation Function)：数据多对一 UDTF(User Defined Table Generating Function)：数据一对多 group by / sort 阅读全文

posted @ 2018-10-13 22:39 huan&ping 阅读(7845) 评论(0) 推荐(0)

Hive之基本操作

摘要：beeline客户端 hive server、hive server2 的客户端，底层通过jdbc接口通讯 hive命令后面会取消，会使用beeline替代不需要单独启动hive server的使用方式，类似于hive命令需要单独启动hive server的使用方式本地模式默认任务会提交到h 阅读全文

posted @ 2018-10-13 00:03 huan&ping 阅读(510) 评论(0) 推荐(0)

Hive之单独部署机器

摘要：环境说明 CentOS7，hadoop 2.6.5，hive 1.2.2，MariaDB 5.5.60，jdk 1.8 假设hive机已经安装好了MariaDB(已启动且已创建好hive账号，对hive数据库有所有权限)和jdk copy一份hadoop2.6.5到hive机器只需要保留 bin, 阅读全文

posted @ 2018-10-09 00:20 huan&ping 阅读(1877) 评论(0) 推荐(0)

HDFS2.0之简单总结

摘要：新特性 NameNode支持HA 命名空间支持分区(Federation) 支持ViewFS 支持目录快照支持权限ACL 支持缓存指定的文件 QJM实现名字节点HA （图片来源互联网）命名空间分区(NameNode Federation) 文件系统命名空间进行分组，每组由一个NameNode集群阅读全文

posted @ 2018-10-08 23:27 huan&ping 阅读(552) 评论(0) 推荐(0)

Hadoop2.0之YARN

摘要：YARN(Yet Another Resource Negotiator)是Hadoop2.0集群中负责资源管理和调度以及监控运行在它上面的各种应用，是hadoop2.0中的核心，它类似于一个分布式操作系统，通过它的api编写的应用可以跑在它上面，支持临时和常驻的应用，集群的资源可以得到最大限度的共阅读全文

posted @ 2018-09-24 17:50 huan&ping 阅读(2749) 评论(0) 推荐(0)

Hadoop2.0之开启日志

摘要：配置修改 mapred site.xml 修改yarn site.xml 重启 yarn 启动 jobhistory server (配置在哪台，就在哪台机器启动) 停止 jobhistory server 参考资料【0】Hadoop failed redirect for container 阅读全文

posted @ 2018-09-24 17:45 huan&ping 阅读(590) 评论(0) 推荐(0)

Hadoop2.0安装之非HA版

摘要：主要步骤跟Hadoop1.0( "1.0安装地址" )一致，主要在配置这块有更改安装下载地址：http://archive.apache.org/dist/hadoop/core/hadoop 2.6.5/ hadoop安装目录创建./tmp目录，./dfs/name，./dfs/data 修改阅读全文

posted @ 2018-09-24 17:38 huan&ping 阅读(113) 评论(0) 推荐(0)

Spark之安装和使用

摘要：Scala安装 Spark使用Scala开发，安装的Scala版本必须和Spark使用的版本一致，否则使用Scala编写的Spark任务会有兼容性问题可以到Spark官网查看确定Scala版本，或者通过执行Spark的bin/spark shell查看依赖jdk，安装之前需要先安装好Scala依阅读全文

posted @ 2018-09-20 15:16 huan&ping 阅读(709) 评论(0) 推荐(0)

HDFS v1.0学习笔记

摘要：hdfs是一个用于存储大文件的分布式文件系统，是apache下的一个开源项目，使用java实现。它的设计目标是可以运行在廉价的设备上，运行在大多数的系统平台上，高可用，高容错，易于扩展。适合场景存储大文件：G级别或者以上离线数据分析非结构化数据一次写多次读不适合的场景存储小文件文件需阅读全文

posted @ 2018-09-12 10:01 huan&ping 阅读(163) 评论(0) 推荐(0)

mapreduce v1.0学习笔记

摘要：它是什么？一个用于处理大数据开源的分布式计算框架，它由java实现，原生提供java编程交互接口，其它语言通过hadoop streaming方式和mapreduce框架交互。可以做什么？利用框架提供的简单编程接口，对海量数据进行离线统计分析编程。程序员只需要实现map接口(数据分解)，red 阅读全文

posted @ 2018-09-11 00:12 huan&ping 阅读(240) 评论(0) 推荐(0)

Hadoop1.0之集群搭建

摘要：VirtualBox虚拟机下载地址下载择操作系统对应的基础安装包下载扩展包（不区分操作系统） http://www.oracle.com/technetwork/cn/server storage/virtualbox/downloads/index.html 安装基础包按照提示安装即可扩阅读全文

posted @ 2018-09-10 18:13 huan&ping 阅读(213) 评论(0) 推荐(0)

ZooKeeper之初识

摘要：它是什么俗称动物管理员，它使用java开发，开源，接口简单，高效，稳定的分布式系统，为其它分布式系统提供协调服务为什么会存在？开发分布式系统跟单机上做开发完全不同，碰到的问题完全不同，开发分布式系统会碰到很多棘手的问题，比如：多台机器间怎么保证数据一致性，需要分布式锁服务，操作数据如何保证按阅读全文

posted @ 2018-09-06 19:06 huan&ping 阅读(217) 评论(0) 推荐(0)

随笔分类 - Hadoop生态圈

公告