2019 年 7月 26 日随笔档案 - cctext

2019年7月26日

Spark2.x（五十五）：在spark structured streaming下sink file(parquet,csv等)，正常运行一段时间后：清理掉checkpoint，重新启动app，无法sink记录（file）到hdfs。

摘要：场景：在spark structured streaming读取kafka上的topic，然后将统计结果写入到hdfs,hdfs保存目录按照month,day,hour进行分区： 1）程序放到spark上使用yarn开始运行（yarn-client或yarn-cluster），可以正常sink结果阅读全文

posted @ 2019-07-26 00:13 cctext 阅读(2082) 评论(3) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

公告