随笔分类 - 大数据技术
大数据技术
摘要:二、 静态分区 1,创建静态分区格式: create table employees ( name string, salary float, subordinated array<string>, deductions map<string,float>, address struct<stree
阅读全文
摘要:一,UDF函数 1,注意点: 1、类需要继承org.apache.hadoop.hive.ql.UDF 2、方法名必须是evaluate,支持重载; 3、必须要有返回类型,可以返回null,但是返回类型不能为void; 2,代码: public class MYUDF extends UDF { p
阅读全文
摘要:基本架构 概念解析 1. ResourceManager ResourceManager是master上的进程,负责整个分布式系统的资源管理和调度。他会处理来自client端的请求(包括提交作业/杀死作业);启动/监控Application Master;监控NodeManager的情况,比如可能挂
阅读全文
摘要:1、概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namen
阅读全文
摘要:1、HDFS写流程 客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本 1)跟NN通信
阅读全文
摘要:为什么需要消息队列 周末无聊刷着手机,某宝网APP突然蹦出来一条消息“为了回馈老客户,女朋友买一送一,活动仅限今天!”。买一送一还有这种好事,那我可不能错过!忍不住立马点了去。于是选了两个最新款,下单、支付一气呵成!满足的躺在床上,想着马上有女朋友了,竟然幸福的失眠了…… 第二天正常上着班,突然接到
阅读全文
摘要:一,strom简介 1,Strom特点 进程常驻内存,数据不经过磁盘,在内存中处理,速度非常快,可以达到毫秒(秒)级别 Twitter开源的分布式实时大数据处理框架,最早开源于github 2013年,Storm进入Apache社区进行孵化2014年9月,晋级成为了Apache顶级项目 国内外各大网
阅读全文
摘要:一,存储模型 1,逻辑存储模型 RowKey:Hbase使用Rowkey来唯一的区分某一行的数据。如图中"rk001" 列族:Hbase通过列族划分数据的存储,列族下面可以包含任意多的列,实现灵活的数据存取。Hbase的列族不是越多越好,官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列
阅读全文
摘要:一,表 1,hive内部表(删除表时,元数据与数据都会被删除) CREATE TABLE [IF NOT EXISTS] table_name 2,Hive 外部表(删除外部表只删除metastore的元数据,不删除hdfs中的表数据) CREATE EXTERNAL TABLE [IF NOT E
阅读全文
摘要:1,简介 hive是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作,而不是必须掌 握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解析成
阅读全文
摘要:思想:分而治之 一,执行流程 由图我们可以看到, MapReduce存在以下4个独立的实体。 JobClient:运行于client node,负责将MapReduce程序打成Jar包存储到HDFS,并把Jar包的路径提交到Jobtracker,由Jobtracker进行任务的分配和监控。 JobT
阅读全文
摘要:一,HDFS特点 优点: (1)高容错性:数据自动保存多个副本;副本丢失后,自动恢复; (2)适合批处理:移动计算而非数据;数据位置暴露给计算框架(Block偏移量); (3)适合大数据处理:GB 、TB 、甚至PB 级数据;百万规模以上的文件数量;10K+ 节点; (4)可构建在廉价机器上:通过多
阅读全文

浙公网安备 33010602011771号