03 2020 档案

摘要:1、修改spark-env.sh 添加HADOOP_CONF_DIR 或者YARN_CONF_DIR 环境变量 2、 作业提交 yarn 创建hdfs test 目录 bin/hdfs dfs -mkdir /test 本地日志上传 hdfs test目录 bin/hdfs dfs -put djt 阅读全文
posted @ 2020-03-30 20:28 抽象Java 阅读(292) 评论(0) 推荐(0)
摘要:1、collection [1] public static void main(String[] args) { Map<String, Info> map = new HashMap<>(); Info info1 = new Info("xxxx", "hhhh", "1980-11-01") 阅读全文
posted @ 2020-03-25 09:05 抽象Java 阅读(135) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/meihao5/article/details/81084876?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task 阅读全文
posted @ 2020-03-25 00:24 抽象Java 阅读(119) 评论(0) 推荐(0)
摘要:case 1、例: select u.uid,case when u.birthday>='1990' and u.birthday<='1999' then '90 后' when u.birthday>='1980' and u.birthday<='1989' then '80 后' when 阅读全文
posted @ 2020-03-19 23:58 抽象Java 阅读(188) 评论(0) 推荐(0)
摘要:1、concat() 1.1、concat(str1, str2, ...) user表 id name 01 test 运行:select concat(id, ',', name) as info from user 结果 info 01,test 1.2、concat_ws(separator 阅读全文
posted @ 2020-03-19 22:05 抽象Java 阅读(198) 评论(0) 推荐(0)
摘要:scala语法 函数 (x: Int) => x + 1 方法1 def add(x: Int, y: Int): Int = x + y 运行 println(add(1, 2))#3 方法2 def addThenMultiply(x: Int, y: Int)(multiplier: Int) 阅读全文
posted @ 2020-03-19 16:38 抽象Java 阅读(95) 评论(0) 推荐(0)
摘要:Spark核心原理 spark 运行架构 Application (应用程序) : 用户编写的Spark应用程序,包含 DriverProgram (驱动程序)和 在分布由集群 中节点上运行的Executor代码,在执 行过程由一个或者多个作业组成; Driver (驱动程序):为应用程序Appli 阅读全文
posted @ 2020-03-15 13:49 抽象Java 阅读(695) 评论(0) 推荐(0)
摘要:Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler Hadoop2.7.2默认的资源调度器是Capacity Scheduler。 1、FIFO 调度器 先进先出, 作业按照先进的顺序排队,先到的先处理 2、容量调度器 Capcity Sc 阅读全文
posted @ 2020-03-14 14:46 抽象Java 阅读(148) 评论(0) 推荐(0)
摘要:YARN工作机制 作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提 阅读全文
posted @ 2020-03-14 14:32 抽象Java 阅读(205) 评论(0) 推荐(0)
摘要:一、MapReduce 原理 这个链接总结较好 : https://www.jianshu.com/p/ca165beb305b MapReduce 过程分为Map 和 Reduce 在Map阶段,将输入的数据按照规则映射为单个对象,之后通过Shuffle,作为Reduce的输入数据。 在Reduc 阅读全文
posted @ 2020-03-11 22:54 抽象Java 阅读(1138) 评论(0) 推荐(0)
摘要:一、序列化意义和场景 意义:使对象信息可以通过网络传输在不同的服务中获取。 场景:给一个接口发送对象,就需要在把该对象的类进行序列化,之后发送给接收 的接口,再反序列化才能获取到完整的对象信息。 简单说就是为了保存在内存中的各种对象的状态(也就是实例变量,不是方法),并且可以把保存的对象状态再读出来 阅读全文
posted @ 2020-03-11 10:56 抽象Java 阅读(489) 评论(0) 推荐(0)
摘要:一、Hbase表的设计 1.1、 Hbase 表设计原理(ps:这里不知道可不可以这样说): https://blog.csdn.net/yydu_666/article/details/80620980 1.2、列簇设计 官方建议不超过2到3个列簇,columnFamily flush临近的col 阅读全文
posted @ 2020-03-07 21:22 抽象Java 阅读(303) 评论(0) 推荐(0)
摘要:一、Hbase 架构 由 Client、 Zookeeper、 HMaster、 HRegionServer、 HDFS 组成; 二、架构各部分功能 Client :包括访问接口; Zookeeper : 1) 监控 HRegionServer 集群, 当HMaster 失效,通过选举机制选出 HM 阅读全文
posted @ 2020-03-07 13:16 抽象Java 阅读(229) 评论(0) 推荐(0)