会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吊车尾88
博客园
首页
新随笔
联系
订阅
管理
2021年7月28日
HDFS命令汇总
摘要: hadoop fs -count 命令 $ hadoop fs -count -q /user 1024 1021 10240 10132 2 1 108 hdfs://ns1/user 在count后面增加 -q 项可以查看当前文件夹的限额使用情况 第一个数值1024,表示总的文件包括文件夹的限额
阅读全文
posted @ 2021-07-28 12:17 吊车尾88
阅读(130)
评论(0)
推荐(0)
2020年9月2日
hive UDF 编程
摘要: UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函
阅读全文
posted @ 2020-09-02 15:14 吊车尾88
阅读(557)
评论(0)
推荐(0)
2020年7月29日
Linux Shell 批量重命名的方法
摘要: 1、删除所有的 .bak 后缀:rename 's/\.bak$//' *.bak 2、把 .jpe 文件后缀修改为 .jpg:rename 's/\.jpe$/\.jpg/' *.jpe 3、把所有文件的文件名改为小写:rename 'y/A-Z/a-z/' * 4、将 abcd.jpg 重命名为
阅读全文
posted @ 2020-07-29 14:34 吊车尾88
阅读(1315)
评论(0)
推荐(0)
2020年7月8日
Spark SQL : DataFrame repartition、coalesce 对比
摘要: repartition repartition 有三个重载的函数: 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions`
阅读全文
posted @ 2020-07-08 11:35 吊车尾88
阅读(1938)
评论(0)
推荐(0)
IDEA一些常用的快捷键
摘要: 1.Ctrl+E:显示最近编辑的文件列表 2. Ctrl+F12:显示当前文件的结构 3. Ctrl+P:显示方法的参数信息 4. Ctrl+Alt+T:可以将代码包在一块内,例如try/catch 5. Ctrl+Alt+V :自动创建变量也就是=号前的变量定义 6.Ctrl+H:显示类结构图 7
阅读全文
posted @ 2020-07-08 09:32 吊车尾88
阅读(178)
评论(0)
推荐(0)
2020年4月26日
HBase Shell 命令使用方法
摘要: 1. 交互模式 $ hbase shell 2. 非交互模式 $ echo "describe 'test'" | hbase shell -n$ echo $?# 返回0成功,返回其他失败 # 结果输出到文件 $ echo "describe 'test'" | hbase shell -n >
阅读全文
posted @ 2020-04-26 19:01 吊车尾88
阅读(1664)
评论(0)
推荐(0)
2020年4月22日
Structured Streaming系列——输入与输出
摘要: 一、输入数据源 1. 文件输入数据源(FIie) file数据源提供了很多种内置的格式,如csv、parquet、orc、json等等,就以csv为例: import spark.implicits._ val userSchema = new StructType() .add("name", "
阅读全文
posted @ 2020-04-22 18:12 吊车尾88
阅读(2053)
评论(1)
推荐(1)
2020年4月21日
spark写出常见压缩格式设置
摘要: 1. Hadoop之常见压缩格式以及性能对比 1.压缩的好处和坏处 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,加重CPU负荷。而且压缩的越狠,耗费的时间越多。 2.压缩格式 压缩格式
阅读全文
posted @ 2020-04-21 19:04 吊车尾88
阅读(9366)
评论(0)
推荐(2)
SparkSQL读写部数据源——csv文件的读写
摘要: 1. sep 和 delimiter的功能都是一样,都是表示csv的切割符,(默认是,)(读写参数) spark.read.option("sep", " ").csv(Seq("jeffy", "katy").toDS()).show() spark.read.option("delimiter"
阅读全文
posted @ 2020-04-21 16:01 吊车尾88
阅读(4168)
评论(0)
推荐(0)
2020年4月16日
sparkSQL中partition by和group by区别及使用
摘要: 1. partition by和group by区别和联系 1)group by是分组函数,partition by是分析函数(然后像sum()等是聚合函数) 2)在执行顺序上partition by应用在以上关键字之后,实际上就是在执行完select之后,在所得结果集之上进行partition,g
阅读全文
posted @ 2020-04-16 11:49 吊车尾88
阅读(7620)
评论(0)
推荐(0)
下一页
公告