随笔档案「2017年6月」 - 吊车尾88

SQL转化为MapReduce的过程

摘要：转载：http://www.cnblogs.com/yaojingang/p/5446310.html 在了解了MapReduce实现SQL基本操作之后，我们来看看Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：下面分别对这六个阶段进行介绍 Phase1 - SQL 阅读全文

posted @ 2017-06-25 20:07 吊车尾88 阅读(2407) 评论(0) 推荐(0)

hive------ Group by、join、distinct等实现原理

摘要：1. Hive 的 distribute by Order by 能够预期产生完全排序的结果，但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下，并不需要全局排序，此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个阅读全文

posted @ 2017-06-25 18:44 吊车尾88 阅读(2768) 评论(0) 推荐(0)

Hive中Join的原理和机制

摘要：转自:http://lxw1234.com/archives/2015/06/313.htm 笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。 Hive Common J 阅读全文

posted @ 2017-06-25 18:34 吊车尾88 阅读(6922) 评论(0) 推荐(1)

MySQL技术内幕 InnoDB存储引擎(笔记)

摘要：1. InnoDB 体系架构其中，后台程序主要负责刷新内存池中的数据，保证缓冲池中的内存缓存的是最近的数据。此外将已经修改的数据刷新到磁盘文件，同时保证在数据库发生异常的时候Innodb能恢复正常运行状态。 1.1 后台线程 1.1.1 Master Thread 这是一个核心的后台程序，主要负阅读全文

posted @ 2017-06-15 23:38 吊车尾88 阅读(230) 评论(0) 推荐(0)

java.IO层次体系结构

摘要：在整个Java.io包中最重要的就是5个类和一个接口。 5个类指的是 File OutputStream InputStream Writer Reader 一个接口指的是 Serializable 掌握了这些IO的核心操作那么对于Java中的IO体系也就有了一个初步的认识了 Java I/O主要包阅读全文

posted @ 2017-06-13 21:46 吊车尾88 阅读(9578) 评论(0) 推荐(1)

flume安装及入门实例

摘要：1. 如何安装？　1)将下载的flume包，解压到/home/hadoop目录中 2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置 root@m1:/home/hadoop/flume-1.5.0-bin# cp conf/flume-env.sh.template c 阅读全文

posted @ 2017-06-07 14:22 吊车尾88 阅读(1061) 评论(0) 推荐(0)

flume原理

摘要：1. flume简介 flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核阅读全文

posted @ 2017-06-07 11:22 吊车尾88 阅读(858) 评论(0) 推荐(0)

mysql 存储引擎简介

摘要：几个常用存储引擎的特点下面我们重点介绍几种常用的存储引擎并对比各个存储引擎之间的区别和推荐使用方式。最常使用的2种存储引擎： Myisam是Mysql的默认存储引擎。当create创建新表时，未指定新表的存储引擎时，默认使用Myisam。每个MyISAM在磁盘上存储成三个文件。文件名都和表名相同阅读全文

posted @ 2017-06-06 14:16 吊车尾88 阅读(132) 评论(0) 推荐(0)

浅谈Java中的equals和==

摘要：先上代码：public class Main { 总结来说： 1）对于==，如果作用于基本数据类型的变量，则直接比较其存储的 “值”是否相等；如果作用于引用类型的变量，则比较的是所指向的对象的地址 2）对于equals方法，注意：equals方法不能作用于基本数据类型的变量如果没有对equals 阅读全文

posted @ 2017-06-06 10:57 吊车尾88 阅读(164) 评论(0) 推荐(0)

mysql 基本命令操作

摘要：1. 查看存储引擎 show engines; 2. 查看数据存储位置 show variables like 'datadir'； 3. 存储引擎 create table mytest engine=myisam as select * from salaries; alter table my 阅读全文

posted @ 2017-06-04 23:11 吊车尾88 阅读(139) 评论(0) 推荐(0)

hadoop HA 详解

摘要：NameNode 高可用整体架构概述在 Hadoop 1.0 时代，Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题，这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息，一旦 NameNod 阅读全文

posted @ 2017-06-04 21:10 吊车尾88 阅读(654) 评论(0) 推荐(0)

Hadoop-Yarn-框架原理及运作机制

摘要：一、YARN基本架构 YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的阅读全文

posted @ 2017-06-04 11:14 吊车尾88 阅读(357) 评论(0) 推荐(0)

mapreduce shuffle 和sort 详解

摘要：MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上去执行，每一个Map 任务处理输入数据中的一部分，当Map 任务完成后，它会生成一些中间文件，这些中间文件将会作阅读全文

posted @ 2017-06-03 15:15 吊车尾88 阅读(568) 评论(0) 推荐(0)

线程生命周期

摘要：1.线程的生命周期线程是一个动态执行的过程，它也有一个从产生到死亡的过程。 (1)生命周期的五种状态线程状态 NEW 状态是指线程刚创建, 尚未启动 RUNNABLE 状态是线程正在正常运行中, 当然可能会有某种耗时计算/IO等待的操作/CPU时间片切换等, 这个状态下发生的等待一般是其他系统资源阅读全文

posted @ 2017-06-01 23:23 吊车尾88 阅读(158) 评论(0) 推荐(0)

JVM 内存模型及垃圾回收

摘要：java内存模型根据 JVM 规范，JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。程序计数器：程序计数器是指CPU中的寄存器，它保存的是程序当前执行的指令的地址（也可以说保存下一条指令的所在存储单元的地址），当CPU需要执行指令时，需要从程序计数器中得到当前需要执行的指阅读全文

posted @ 2017-06-01 18:54 吊车尾88 阅读(216) 评论(0) 推荐(0)

吊车尾88

06 2017 档案

公告