大数据技术 - 随笔分类 - bug开发工程师

hive分区表详细介绍

摘要：二、静态分区 1，创建静态分区格式: create table employees ( name string, salary float, subordinated array<string>, deductions map<string,float>, address struct<stree 阅读全文

posted @ 2020-11-26 15:43 bug开发工程师阅读(751) 评论(0) 推荐(0)

hive 中自定义UDF函数和自定义UDTF函数

摘要：一,UDF函数 1，注意点： 1、类需要继承org.apache.hadoop.hive.ql.UDF 2、方法名必须是evaluate，支持重载； 3、必须要有返回类型，可以返回null，但是返回类型不能为void； 2，代码： public class MYUDF extends UDF { p 阅读全文

posted @ 2020-11-25 23:10 bug开发工程师阅读(489) 评论(0) 推荐(0)

yarn工作原理

摘要：基本架构概念解析 1. ResourceManager ResourceManager是master上的进程，负责整个分布式系统的资源管理和调度。他会处理来自client端的请求（包括提交作业/杀死作业）；启动/监控Application Master；监控NodeManager的情况，比如可能挂阅读全文

posted @ 2020-11-09 17:23 bug开发工程师阅读(268) 评论(0) 推荐(0)

HDFS小文件问题

摘要：1、概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namen 阅读全文

posted @ 2020-11-09 10:56 bug开发工程师阅读(112) 评论(0) 推荐(0)

HDFS读写流程

摘要：1、HDFS写流程客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本 1）跟NN通信阅读全文

posted @ 2020-11-09 10:16 bug开发工程师阅读(187) 评论(0) 推荐(0)

kafka

摘要：为什么需要消息队列周末无聊刷着手机，某宝网APP突然蹦出来一条消息“为了回馈老客户，女朋友买一送一，活动仅限今天！”。买一送一还有这种好事，那我可不能错过！忍不住立马点了去。于是选了两个最新款，下单、支付一气呵成！满足的躺在床上，想着马上有女朋友了，竟然幸福的失眠了…… 第二天正常上着班，突然接到阅读全文

posted @ 2020-09-01 18:15 bug开发工程师阅读(159) 评论(0) 推荐(0)

strom

摘要：一，strom简介 1，Strom特点进程常驻内存，数据不经过磁盘，在内存中处理，速度非常快，可以达到毫秒（秒）级别 Twitter开源的分布式实时大数据处理框架，最早开源于github 2013年，Storm进入Apache社区进行孵化2014年9月，晋级成为了Apache顶级项目国内外各大网阅读全文

posted @ 2020-08-23 18:56 bug开发工程师阅读(1046) 评论(0) 推荐(0)

4（hbase）

摘要：一，存储模型 1，逻辑存储模型 RowKey：Hbase使用Rowkey来唯一的区分某一行的数据。如图中"rk001" 列族：Hbase通过列族划分数据的存储，列族下面可以包含任意多的列，实现灵活的数据存取。Hbase的列族不是越多越好，官方推荐的是列族最好小于或者等于3。我们使用的场景一般是1个列阅读全文

posted @ 2020-08-09 21:56 bug开发工程师阅读(147) 评论(0) 推荐(0)

hive_SQL

摘要：一，表 1，hive内部表（删除表时，元数据与数据都会被删除） CREATE TABLE [IF NOT EXISTS] table_name 2，Hive 外部表（删除外部表只删除metastore的元数据，不删除hdfs中的表数据） CREATE EXTERNAL TABLE [IF NOT E 阅读全文

posted @ 2020-08-05 23:56 bug开发工程师阅读(184) 评论(0) 推荐(0)

3（Hive）

摘要：1，简介 hive是建立在Hadoop体系架构上的一层SQL抽象，使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作，而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解析成阅读全文

posted @ 2020-07-29 23:45 bug开发工程师阅读(122) 评论(0) 推荐(0)

2（MapReduce）

摘要：思想：分而治之一，执行流程由图我们可以看到， MapReduce存在以下4个独立的实体。 JobClient：运行于client node，负责将MapReduce程序打成Jar包存储到HDFS，并把Jar包的路径提交到Jobtracker，由Jobtracker进行任务的分配和监控。 JobT 阅读全文

posted @ 2020-07-12 21:53 bug开发工程师阅读(159) 评论(0) 推荐(0)

1（HDFS）

摘要：一，HDFS特点优点：（1）高容错性：数据自动保存多个副本；副本丢失后，自动恢复；（2）适合批处理：移动计算而非数据；数据位置暴露给计算框架（Block偏移量）；（3）适合大数据处理：GB 、TB 、甚至PB 级数据；百万规模以上的文件数量；10K+ 节点；（4）可构建在廉价机器上：通过多阅读全文

posted @ 2020-06-28 20:15 bug开发工程师阅读(221) 评论(0) 推荐(0)

bug开发工程师

随笔分类 - 大数据技术

公告