文章分类 -  大数据- spark

摘要:本地程序调试步骤: 1、修改master参数为local[*] *也可以是任何大于1的数,但不可以为1,因为spark执行时,需要至少2个线程。 2、配置本地程序参数 参考:https://blog.csdn.net/dpengwang/article/details/82052807?utm_me 阅读全文
posted @ 2020-12-19 23:43 dos_hello_world 阅读(756) 评论(0) 推荐(0)
摘要:状态保存: structured streaming 提供了两个自定义分组聚合函数:mapGroupsWithState,flatMapGroupsWithState,允许开发者基于事件时间或者处理时间进行有状态的流计算。 简单来说,可以将每一次的流计算的group结果,保存下来,用于下一次继续聚合 阅读全文
posted @ 2020-12-19 23:41 dos_hello_world 阅读(1458) 评论(0) 推荐(0)
摘要:Process Time 流处理引擎接收到数据的时间。数据真正到达计算框架中被处理的时间点,简单的说,就是你的程序是什么时候读到这条日志的。 spark streaming中一般默认使用Process Time,且不支持Event Time Event Time 数据生成时携带的时间就是事件时间。就 阅读全文
posted @ 2020-12-19 23:39 dos_hello_world 阅读(714) 评论(0) 推荐(0)
摘要:SPARK SQL适合做离线数据的结构化处理,并提供了SQL形式的数据访问和查询方式。 SPARK SQL也可以与SPARK streaming搭配,做实时数据分析处理。只需将spark streaming的RDD组装成DATAFRAME即可 spark view模式,将dataframe注册为临时 阅读全文
posted @ 2020-12-19 23:37 dos_hello_world 阅读(418) 评论(0) 推荐(0)
摘要:开发环境需要使用的概念: SPARK + IDEAL + SCALA + SBT + maven 预先查询: SPARK 与HADOOP的版本之间存在依赖关系 SPARK与SCALA之间存在版本依赖关系 SCALA是SBT编的,spark默认使用scala开发 SBT没有版本要求 项目开发依赖mav 阅读全文
posted @ 2020-12-19 23:34 dos_hello_world 阅读(245) 评论(0) 推荐(0)