随笔分类 - Hadoop生态圈
Hadoop大数据
摘要:Hive是通过把sql转换成对应mapreduce程序,然后提交到Hadoop上执行,查看具体的执行计划可以通过执行explain sql知晓 一条sql会被转化成由多个阶段组成的步骤,每个步骤有执行顺序和依赖关系,可以称之为有向无环图(DAG:Directed Acyclic Graph) 这些步
阅读全文
摘要:测试数据 Order By Job中只会启动一个reduce做全局排序,数据量大时,耗时会很久 在strict模式(hive.mapred.mode=strict)下,必须添加limit语句限制返回条数 Sort By 排序前会根据排序字段分区,一个job启动多个reduce进行局部排序 如果有li
阅读全文
摘要:Lateral View和UDTF类功能函数一起使用,表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表,可以对UDTF产生的记录设置字段名称,新加的字段可以使用在sort by,group by等语句中,不需要再套一层子查询。Lateral View的作用是可以扩展原来的表数据。
阅读全文
摘要:数字类 | 类型 | 长度 | 备注 | | : | : | : | | TINYINT | 1字节 | 有符号整型 | | SMALLINT | 2字节 | 有符号整型 | | INT | 4字节 | 有符号整型 | | BIGINT | 8字节 | 有符号整型 | | FLOAT | 4字节 |
阅读全文
摘要:函数分类 UDF(User Defined Function):数据一对一 UDAF(User Defined Aggreation Function):数据多对一 UDTF(User Defined Table Generating Function):数据一对多 group by / sort
阅读全文
摘要:beeline客户端 hive server、hive server2 的客户端,底层通过jdbc接口通讯 hive命令后面会取消,会使用beeline替代 不需要单独启动hive server的使用方式,类似于hive命令 需要单独启动hive server的使用方式 本地模式 默认任务会提交到h
阅读全文
摘要:环境说明 CentOS7,hadoop 2.6.5,hive 1.2.2,MariaDB 5.5.60,jdk 1.8 假设hive机已经安装好了MariaDB(已启动且已创建好hive账号,对hive数据库有所有权限)和jdk copy一份hadoop2.6.5到hive机器 只需要保留 bin,
阅读全文
摘要:新特性 NameNode支持HA 命名空间支持分区(Federation) 支持ViewFS 支持目录快照 支持权限ACL 支持缓存指定的文件 QJM实现名字节点HA (图片来源互联网) 命名空间分区(NameNode Federation) 文件系统命名空间进行分组,每组由一个NameNode集群
阅读全文
摘要:YARN(Yet Another Resource Negotiator)是Hadoop2.0集群中负责资源管理和调度以及监控运行在它上面的各种应用,是hadoop2.0中的核心,它类似于一个分布式操作系统,通过它的api编写的应用可以跑在它上面,支持临时和常驻的应用,集群的资源可以得到最大限度的共
阅读全文
摘要:配置 修改 mapred site.xml 修改yarn site.xml 重启 yarn 启动 jobhistory server (配置在哪台,就在哪台机器启动) 停止 jobhistory server 参考资料 【0】Hadoop failed redirect for container
阅读全文
摘要:主要步骤跟Hadoop1.0( "1.0安装地址" )一致,主要在配置这块有更改 安装 下载地址:http://archive.apache.org/dist/hadoop/core/hadoop 2.6.5/ hadoop安装目录创建./tmp目录,./dfs/name,./dfs/data 修改
阅读全文
摘要:Scala安装 Spark使用Scala开发,安装的Scala版本必须和Spark使用的版本一致,否则使用Scala编写的Spark任务会有兼容性问题 可以到Spark官网查看确定Scala版本,或者通过执行Spark的bin/spark shell查看 依赖jdk,安装之前需要先安装好Scala依
阅读全文
摘要:hdfs是一个用于存储大文件的分布式文件系统,是apache下的一个开源项目,使用java实现。它的设计目标是可以运行在廉价的设备上,运行在大多数的系统平台上,高可用,高容错,易于扩展。 适合场景 存储大文件:G级别或者以上 离线数据分析 非结构化数据 一次写多次读 不适合的场景 存储小文件 文件需
阅读全文
摘要:它是什么? 一个用于处理大数据开源的分布式计算框架,它由java实现,原生提供java编程交互接口,其它语言通过hadoop streaming方式和mapreduce框架交互。 可以做什么? 利用框架提供的简单编程接口,对海量数据进行离线统计分析编程。程序员只需要实现map接口(数据分解),red
阅读全文
摘要:VirtualBox虚拟机 下载地址 下载择操作系统对应的基础安装包 下载扩展包(不区分操作系统) http://www.oracle.com/technetwork/cn/server storage/virtualbox/downloads/index.html 安装基础包 按照提示安装即可 扩
阅读全文
摘要:它是什么 俗称动物管理员,它使用java开发,开源,接口简单,高效,稳定的分布式系统,为其它分布式系统提供协调服务 为什么会存在? 开发分布式系统跟单机上做开发完全不同,碰到的问题完全不同,开发分布式系统会碰到很多棘手的问题, 比如:多台机器间怎么保证数据一致性,需要分布式锁服务,操作数据如何保证按
阅读全文

浙公网安备 33010602011771号