会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
carsonwuu
博客园
首页
新随笔
联系
订阅
管理
2021年6月24日
【转载】使用Flink低级处理函数ProcessFunction
摘要: 转载链接:https://zhuanlan.zhihu.com/p/130708277 Flink的转换操作是无法访问事件的时间戳信息和水印信息的。例如我们常用的MapFunction转换操作就无法访问时间戳或者当前事件的事件时间。而这在一些应用场景下,极为重要。 因此,Flink DataStre
阅读全文
posted @ 2021-06-24 14:16 carsonwuu
阅读(276)
评论(0)
推荐(0)
2021年5月21日
spark读取压缩文件
摘要: spark读取压缩文件,对同一个压缩文件内文件进行分布式处理,粒度:文件级 -| .rar.gz -| .gz -| .zip -| .zip -| .gz -| .zip 使用 sc.binaryFile()得到-> JavaPairRDD<String,PortableDataStream> k
阅读全文
posted @ 2021-05-21 09:56 carsonwuu
阅读(865)
评论(0)
推荐(0)
2020年3月3日
spark日志输出
摘要: spark默认使用log4j记录日志。 目标:将spark日志按照天输出到日志中,并且只保留15天的记录。 以下介绍两种办法: 1、日志重定向+shell脚本定时删除日志 (1)日志重定向: sh spark-submit.sh >> log/`date +%Y-%m-%d`.log 2>&1 &
阅读全文
posted @ 2020-03-03 15:33 carsonwuu
阅读(6947)
评论(0)
推荐(0)
2020年1月15日
spark并行度加载关系数据库
摘要: 方法一:针对整形字段ECI进行并行度加载:并行度为3 1 SparkConf sparkConf = new SparkConf(); 2 sparkConf.setAppName("jdbc").setMaster("local[4]"); 3 JavaSparkContext jsc = new
阅读全文
posted @ 2020-01-15 17:14 carsonwuu
阅读(343)
评论(0)
推荐(0)
2019年11月19日
【java记录】序列化拷贝
摘要: 1 public static <T extends Serializable> T clone(T obj) { 2 T cloneObj = null; 3 try { 4 // 写入字节流 5 ByteArrayOutputStream out = new ByteArrayOutputStr
阅读全文
posted @ 2019-11-19 14:22 carsonwuu
阅读(227)
评论(0)
推荐(0)
2019年10月9日
客户端远程访问高可用(HA)hdfs
摘要: 当hadoop namenode是HA集群时,hdfs可能动态切换hdfs主节点,客户端远程访问hdfs有两种实现方法: 方法1:配置多个hdfs地址,每次操作先判断可用的hdfs地址。 形如:hdfs://192.168.2.102:9000,hdfs://192.168.2.101:9000,以
阅读全文
posted @ 2019-10-09 14:22 carsonwuu
阅读(2694)
评论(0)
推荐(0)
2019年10月8日
spark算法
摘要: workcount top-k 1 package examples.topk; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaSparkContext; 5 import org.apac
阅读全文
posted @ 2019-10-08 10:57 carsonwuu
阅读(358)
评论(0)
推荐(0)
2019年9月27日
算子的分类和 宽依赖算子、窄依赖算子
摘要: 一、转换算子转换算子 textfile,也会惰性加载 Transformation,懒执行,需要Action触发执行filter过滤 RDD[T]==>RDD[T],窄依赖 mapRDD[T] ->RDD[O], 窄依赖 flatMapRDD[T]–>RDD[[O]],一对多 ,窄依赖, mapTo
阅读全文
posted @ 2019-09-27 11:28 carsonwuu
阅读(1716)
评论(0)
推荐(0)
2019年9月24日
单元测试junit使用
摘要: 1.maven依赖 2.方法介绍(junit) (1)@BeforeClass:静态方法,当前测试类加载前调用; (2)@AfterClass:静态方法,当前测试类回收前调用; (3)@Before:每一次执行@Test修饰的测试方法前调用,常用于初始化; (4)@After:每一次执行完@Test
阅读全文
posted @ 2019-09-24 19:07 carsonwuu
阅读(1278)
评论(0)
推荐(0)
2019年9月19日
spark1.x和spark2.x兼容Iterable和Iterator问题【未解决】
摘要: 转载于:https://www.cnblogs.com/huiandong/p/9982516.html 本文是转载,但是经过验证,该文中的方法在编译的时候没问题,运行就报版本问题。尚未找到解决方法,仍需手动维护两个版本spark程序。 1. spark 1.x 升级到spark 2.x 对于普通的
阅读全文
posted @ 2019-09-19 14:33 carsonwuu
阅读(389)
评论(0)
推荐(0)
下一页
公告