2020 年 4月随笔档案 - 吊车尾88

HBase Shell 命令使用方法

摘要：1. 交互模式 $ hbase shell 2. 非交互模式 $ echo "describe 'test'" | hbase shell -n$ echo $?# 返回0成功，返回其他失败 # 结果输出到文件 $ echo "describe 'test'" | hbase shell -n > 阅读全文

posted @ 2020-04-26 19:01 吊车尾88 阅读(1668) 评论(0) 推荐(0)

Structured Streaming系列——输入与输出

摘要：一、输入数据源 1. 文件输入数据源(FIie) file数据源提供了很多种内置的格式，如csv、parquet、orc、json等等，就以csv为例: import spark.implicits._ val userSchema = new StructType() .add("name", " 阅读全文

posted @ 2020-04-22 18:12 吊车尾88 阅读(2059) 评论(1) 推荐(1)

spark写出常见压缩格式设置

摘要：1. Hadoop之常见压缩格式以及性能对比 1.压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度坏处由于使用数据时，需要先将数据解压，加重CPU负荷。而且压缩的越狠，耗费的时间越多。 2.压缩格式压缩格式阅读全文

posted @ 2020-04-21 19:04 吊车尾88 阅读(9380) 评论(0) 推荐(2)

SparkSQL读写部数据源——csv文件的读写

摘要：1. sep 和 delimiter的功能都是一样，都是表示csv的切割符，(默认是,)(读写参数) spark.read.option("sep", " ").csv(Seq("jeffy", "katy").toDS()).show() spark.read.option("delimiter" 阅读全文

posted @ 2020-04-21 16:01 吊车尾88 阅读(4171) 评论(0) 推荐(0)

sparkSQL中partition by和group by区别及使用

摘要：1. partition by和group by区别和联系 1）group by是分组函数，partition by是分析函数（然后像sum()等是聚合函数） 2）在执行顺序上partition by应用在以上关键字之后，实际上就是在执行完select之后，在所得结果集之上进行partition，g 阅读全文

posted @ 2020-04-16 11:49 吊车尾88 阅读(7625) 评论(0) 推荐(0)

流处理 —— Spark Streaming中的join和Output Operations操作

摘要：1、print() print操作会将DStream每一个batch中的前10个元素在driver节点打印出来。 ssc.textFileStream("file:\\D:\\workspace\\idea\\silent\\src\\main\\resources\\stream") .map(( 阅读全文

posted @ 2020-04-10 18:19 吊车尾88 阅读(722) 评论(0) 推荐(0)

流处理 —— Spark Streaming中的Window操作

摘要：窗口函数，就是在DStream流上，以一个可配置的长度为窗口，以一个可配置的速率向前移动窗口，根据窗口函数的具体内容，分别对当前窗口中的这一波数据采取某个对应的操作算子。需要注意的是窗口长度，和窗口移动速率需要是batch time的整数倍。 1.window(windowLength, slid 阅读全文

posted @ 2020-04-10 17:42 吊车尾88 阅读(1853) 评论(0) 推荐(0)

流处理 —— Spark Streaming中的操作(状态管理函数 updateStateByKey和mapWithState)

摘要：状态管理函数 Spark Streaming中状态管理函数包括updateStateByKey和mapWithState，都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加，在有新的数据信息进入或更新时。能够让用户保持想要的阅读全文

posted @ 2020-04-10 16:09 吊车尾88 阅读(1726) 评论(0) 推荐(0)

流处理 —— Spark Streaming中的操作(Transformations函数)

摘要：1.1 map(fun) 操作 map操作需要传入一个函数当做参数, 主要作用是，对DStream对象a，将func函数作用到a中的每一个元素上并生成新的元素，得到的DStream对象b中包含这些新的元素。 val conf = new SparkConf().setMaster("local[2] 阅读全文

posted @ 2020-04-10 11:37 吊车尾88 阅读(600) 评论(0) 推荐(0)

jvm 工具类 ——jstat

摘要：用法示例 jstat -[options] [pid] 1000 10 （每隔1秒监控一次，输出10次）平时生产上比较常用的主要是关注下gc/gcutil jstat -gc [pid] 1000 10 jstat -gcutil [pid] 1000 10 参数详解 1. gc 统计jdk gc 阅读全文

posted @ 2020-04-06 23:06 吊车尾88 阅读(243) 评论(0) 推荐(0)

jvm 工具类之 —— jps

摘要：简介 jps 命令类似与 linux 的 ps 命令，但是它只列出系统中所有的 Java 应用程序。通过 jps 命令可以方便地查看 Java 进程的启动类、传入参数和 Java 虚拟机参数等信息。 jps用法参数说明 -q 只输出进程 ID -m 输出传入 main 方法的参数 -l 输出完全阅读全文

posted @ 2020-04-06 23:02 吊车尾88 阅读(735) 评论(0) 推荐(0)

spark2.3 SQL内置函数——Date window functions

摘要：1. def cume_dist(): Column –CUME_DIST 小于等于当前值的行数/分组内总行数–比如，统计小于等于当前薪水的人数，所占总人数的比例 d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,500 阅读全文

posted @ 2020-04-06 17:00 吊车尾88 阅读(618) 评论(0) 推荐(0)

spark DataFrame新增一列id列(单调递增，不重复)的几种方法

摘要：方案一：使用functions里面的monotonically_increasing_id(),生成单调递增，不保证连续，最大64bit，的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000). 阅读全文

posted @ 2020-04-03 17:41 吊车尾88 阅读(2656) 评论(0) 推荐(0)

spark2.3 SQL内置函数——Date time functions

摘要：Date time functions 默认数据格式为yyyy-MM-dd格式 DataFrame数据 val df = Seq( ("A", "2019-01-10", "2019-05-02"), ("B", "2019-01-01", "2019-02-04"), ("D", "2019-01 阅读全文

posted @ 2020-04-01 09:31 吊车尾88 阅读(702) 评论(0) 推荐(0)

吊车尾88

04 2020 档案

公告