2020 年 3月随笔档案 - 抽象Java

Spark ON YARN 安装部署

摘要：1、修改spark-env.sh 添加HADOOP_CONF_DIR 或者YARN_CONF_DIR 环境变量 2、作业提交 yarn 创建hdfs test 目录 bin/hdfs dfs -mkdir /test 本地日志上传 hdfs test目录 bin/hdfs dfs -put djt 阅读全文

posted @ 2020-03-30 20:28 抽象Java 阅读(292) 评论(0) 推荐(0)

排序

摘要：1、collection [1] public static void main(String[] args) { Map<String, Info> map = new HashMap<>(); Info info1 = new Info("xxxx", "hhhh", "1980-11-01") 阅读全文

posted @ 2020-03-25 09:05 抽象Java 阅读(135) 评论(0) 推荐(0)

Spark数据倾斜

摘要：https://blog.csdn.net/meihao5/article/details/81084876?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task 阅读全文

posted @ 2020-03-25 00:24 抽象Java 阅读(119) 评论(0) 推荐(0)

hive_case

摘要：case 1、例： select u.uid,case when u.birthday>='1990' and u.birthday<='1999' then '90 后' when u.birthday>='1980' and u.birthday<='1989' then '80 后' when 阅读全文

posted @ 2020-03-19 23:58 抽象Java 阅读(188) 评论(0) 推荐(0)

hive_group

摘要：1、concat() 1.1、concat(str1, str2, ...) user表 id name 01 test 运行：select concat(id, ',', name) as info from user 结果 info 01,test 1.2、concat_ws(separator 阅读全文

posted @ 2020-03-19 22:05 抽象Java 阅读(198) 评论(0) 推荐(0)

scala语法

摘要：scala语法函数 (x: Int) => x + 1 方法1 def add(x: Int, y: Int): Int = x + y 运行 println(add(1, 2))#3 方法2 def addThenMultiply(x: Int, y: Int)(multiplier: Int) 阅读全文

posted @ 2020-03-19 16:38 抽象Java 阅读(95) 评论(0) 推荐(0)

Spark核心原理

摘要：Spark核心原理 spark 运行架构 Application (应用程序) : 用户编写的Spark应用程序，包含 DriverProgram （驱动程序）和在分布由集群中节点上运行的Executor代码，在执行过程由一个或者多个作业组成； Driver (驱动程序)：为应用程序Appli 阅读全文

posted @ 2020-03-15 13:49 抽象Java 阅读(695) 评论(0) 推荐(0)

资源调度器

摘要：Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler Hadoop2.7.2默认的资源调度器是Capacity Scheduler。 1、FIFO 调度器先进先出，作业按照先进的顺序排队，先到的先处理 2、容量调度器 Capcity Sc 阅读全文

posted @ 2020-03-14 14:46 抽象Java 阅读(148) 评论(0) 推荐(0)

YARN工作机制

摘要：YARN工作机制作业提交全过程详解（1）作业提交第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。第2步：Client向RM申请一个作业id。第3步：RM给Client返回该job资源的提交路径和作业id。第4步：Client提阅读全文

posted @ 2020-03-14 14:32 抽象Java 阅读(205) 评论(0) 推荐(0)

MapReduce原理和工作过程

摘要：一、MapReduce 原理这个链接总结较好： https://www.jianshu.com/p/ca165beb305b MapReduce 过程分为Map 和 Reduce 在Map阶段，将输入的数据按照规则映射为单个对象，之后通过Shuffle，作为Reduce的输入数据。在Reduc 阅读全文

posted @ 2020-03-11 22:54 抽象Java 阅读(1138) 评论(0) 推荐(0)

序列化

摘要：一、序列化意义和场景意义：使对象信息可以通过网络传输在不同的服务中获取。场景：给一个接口发送对象，就需要在把该对象的类进行序列化，之后发送给接收的接口，再反序列化才能获取到完整的对象信息。简单说就是为了保存在内存中的各种对象的状态（也就是实例变量，不是方法），并且可以把保存的对象状态再读出来阅读全文

posted @ 2020-03-11 10:56 抽象Java 阅读(489) 评论(0) 推荐(0)

Hbase(2)表的设计和Rowkey等的设计

摘要：一、Hbase表的设计 1.1、 Hbase 表设计原理（ps:这里不知道可不可以这样说）： https://blog.csdn.net/yydu_666/article/details/80620980 1.2、列簇设计官方建议不超过2到3个列簇，columnFamily flush临近的col 阅读全文

posted @ 2020-03-07 21:22 抽象Java 阅读(303) 评论(0) 推荐(0)

Hbase(1)架构和工作原理

摘要：一、Hbase 架构由 Client、 Zookeeper、 HMaster、 HRegionServer、 HDFS 组成；二、架构各部分功能 Client ：包括访问接口； Zookeeper : 1) 监控 HRegionServer 集群，当HMaster 失效，通过选举机制选出 HM 阅读全文

posted @ 2020-03-07 13:16 抽象Java 阅读(229) 评论(0) 推荐(0)

Jomini

03 2020 档案

公告