独孤风 - 博客园

2020年8月6日

摘要：虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算阅读全文

posted @ 2020-08-06 08:35 独孤风阅读(838) 评论(0) 推荐(0) 编辑

2020年8月5日

Hive查看表/分区更新时间

摘要： 1.查看分区 hive> show partitions table_name; 2.查看分区更新时间获取hdfs路径 hive> desc formatted table_name; 通过dfs -ls < hdfs path>命令查看数据文件最新更新时间 hive> dfs -ls /user 阅读全文

posted @ 2020-08-05 16:51 独孤风阅读(4133) 评论(0) 推荐(0) 编辑

Spark 覆盖写Hive分区表,只覆盖部分对应分区

摘要：要求Spark版本2.3以上，亲测2.2无效配置 config("spark.sql.sources.partitionOverwriteMode","dynamic") 注意 1、saveAsTable方法无效，会全表覆盖写，需要用insertInto，详情见代码 2、insertInto需要主阅读全文

posted @ 2020-08-05 16:47 独孤风阅读(2831) 评论(0) 推荐(0) 编辑

Hadoop hdfs dfs常用命令的使用

摘要： 1，-mkdir 创建目录 Usage：hdfs dfs -mkdir [-p] < paths> 选项：-p 很像Unix mkdir -p，沿路径创建父目录。 2，-ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间 Usage：hdfs dfs -ls [-R] < args> 选阅读全文

posted @ 2020-08-05 16:42 独孤风阅读(4250) 评论(0) 推荐(0) 编辑

hadoop put 强制覆盖文件

摘要：若hdfs上已经存在文件，要强制覆盖，用 -f 命令如： hadoop fs -put -f file.name /home/test/ 阅读全文

posted @ 2020-08-05 16:39 独孤风阅读(2138) 评论(0) 推荐(0) 编辑

2020年8月4日

Parquet

摘要： Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件（例如CSV或TSV文件）相比，Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。 Parquet使用记录粉碎和组装算法，该算法优于嵌套名称空间的简单拼合。Parquet经过优化，可以批量处理复杂阅读全文

posted @ 2020-08-04 15:47 独孤风阅读(780) 评论(0) 推荐(0) 编辑

“/usr/bin/hdp-select”, line 226 print “ERROR: Invalid package – “ + name ^ SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(“ERROR: Invalid package

摘要： spark-submit时报错 python升级3.7引起恢复2.7正常阅读全文

posted @ 2020-08-04 11:03 独孤风阅读(758) 评论(0) 推荐(0) 编辑

用Spark进行实时流计算

摘要： Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架，使用了微批的形式来进行流处理。提供了基于RDDs的Dstream API，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算 Apache 阅读全文

posted @ 2020-08-04 08:51 独孤风阅读(3155) 评论(0) 推荐(0) 编辑

2020年7月7日

什么是流处理

摘要：流处理正变得像数据处理一样流行。流处理已经超出了其原来的实时数据处理的范畴，它正在成为一种提供数据处理（包括批处理），实时应用乃至分布式事务的新方法的技术。 1、什么是流处理？流处理是不断合并新数据以计算结果的动作。在流处理中，输入数据不受限制，并且没有预定的开始或结束。它只是形成一系列事件，这些阅读全文

posted @ 2020-07-07 08:32 独孤风阅读(6077) 评论(0) 推荐(1) 编辑

2020年7月3日

Plink v0.1.0 发布——基于Flink的流处理平台

摘要： Plink是一个基于Flink的流处理平台，旨在基于 [Apache Flink]封装构建上层平台。提供常见的作业管理功能。如作业的创建，删除，编辑，更新，保存，启动，停止，重启，管理，多作业模板配置等。 Flink SQL 编辑提交功能。如 SQL 的在线开发，智能提示，格式化，语法校验，保存，阅读全文

posted @ 2020-07-03 08:01 独孤风阅读(992) 评论(0) 推荐(0) 编辑

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

公告

大数据流动

公众号 大数据流动。 追随大数据的流动，专注于大数据相关技术。 相关学习交流群已经成立，欢迎加入~

公告

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~