大数据- spark - 文章分类 - dos_hello_world

spark本地调试--在linux系统上，使用ideal本地调试spark程序

摘要：本地程序调试步骤： 1、修改master参数为local[*] *也可以是任何大于1的数，但不可以为1，因为spark执行时，需要至少2个线程。 2、配置本地程序参数参考：https://blog.csdn.net/dpengwang/article/details/82052807?utm_me 阅读全文

posted @ 2020-12-19 23:43 dos_hello_world 阅读(756) 评论(0) 推荐(0)

spark 的 structured streaming 状态保存

摘要：状态保存： structured streaming 提供了两个自定义分组聚合函数：mapGroupsWithState，flatMapGroupsWithState，允许开发者基于事件时间或者处理时间进行有状态的流计算。简单来说，可以将每一次的流计算的group结果，保存下来，用于下一次继续聚合阅读全文

posted @ 2020-12-19 23:41 dos_hello_world 阅读(1458) 评论(0) 推荐(0)

Process Time 和 Event Time 概念对比

摘要：Process Time 流处理引擎接收到数据的时间。数据真正到达计算框架中被处理的时间点，简单的说，就是你的程序是什么时候读到这条日志的。 spark streaming中一般默认使用Process Time，且不支持Event Time Event Time 数据生成时携带的时间就是事件时间。就阅读全文

posted @ 2020-12-19 23:39 dos_hello_world 阅读(714) 评论(0) 推荐(0)

SPARK SQL 中两种使用方式:入门实例

摘要：SPARK SQL适合做离线数据的结构化处理，并提供了SQL形式的数据访问和查询方式。 SPARK SQL也可以与SPARK streaming搭配，做实时数据分析处理。只需将spark streaming的RDD组装成DATAFRAME即可 spark view模式，将dataframe注册为临时阅读全文

posted @ 2020-12-19 23:37 dos_hello_world 阅读(418) 评论(0) 推荐(0)

spark开发环境准备

摘要：开发环境需要使用的概念： SPARK + IDEAL + SCALA + SBT + maven 预先查询： SPARK 与HADOOP的版本之间存在依赖关系 SPARK与SCALA之间存在版本依赖关系 SCALA是SBT编的，spark默认使用scala开发 SBT没有版本要求项目开发依赖mav 阅读全文

posted @ 2020-12-19 23:34 dos_hello_world 阅读(245) 评论(0) 推荐(0)

dos_hello_world

文章分类 - 大数据- spark

公告