上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 40 下一页
摘要: 广播变量 # 1.将本地list标记为广播变量即可 boardcast=sc.broadcast(list) # 2.使用广播变量的时候从中取出list对象即可 value=boardcast.value # 即通过boardcast这个中间传输对象,就会是只是每个excutor发一份了 场景:本地 阅读全文
posted @ 2024-02-21 22:23 天启A 阅读(19) 评论(0) 推荐(0)
摘要: 分布式集合对象上的API称之为算子 算子分为两类: transformation算子:指返回值仍然是rdd,类似于stream里的中间流 这类算子与中间流相同,是懒加载的 action算子:返回值不是rdd,类似于stream里的终结流 常见算子: transformation算子 1.map(fu 阅读全文
posted @ 2024-02-20 22:48 天启A 阅读(56) 评论(0) 推荐(0)
摘要: spark的运行角色: 分布式代码的流程分析 pythononspark原理 阅读全文
posted @ 2024-02-10 20:44 天启A 阅读(18) 评论(0) 推荐(0)
摘要: RDD即resilient distributed dataset 弹性分布式数据集,简单来说就是数据集,可以类比python的list dict;但是数据是分布式存储的,可用于分布式计算;可以存在内存或者磁盘中,而不像list那些数据集一样只能存于进程中 RDD的五大特性: 一:是有分区的 分区是 阅读全文
posted @ 2024-02-10 20:44 天启A 阅读(24) 评论(0) 推荐(0)
摘要: hdfs:9870 yarn:8088 sparkMaster的端口是:8080 worker的端口是:8081 历史服务器的默认端口是: 18080 阅读全文
posted @ 2024-02-09 20:44 天启A 阅读(32) 评论(0) 推荐(0)
摘要: spark程序运行层次结构 standalone即主从机制,后续添加了standaloneHA,zk管理master的存活,一旦master挂了会在候选master中诞生新的 HAstandalone集群是spark最稳定生产环境 大多数情况下 spark都是运行在yarn上,运用yarn集群,不需 阅读全文
posted @ 2024-02-08 20:44 天启A 阅读(18) 评论(0) 推荐(0)
摘要: spark与hadoop 4个特点:快 简单 通用 多平台运行 框架模块 运行模式 架构角色 阅读全文
posted @ 2024-02-07 20:44 天启A 阅读(16) 评论(0) 推荐(0)
摘要: /* * 通过poi创建Excel并写入内容 * */ public static void write() throws IOException { //在内存中创建excel XSSFWorkbook excel = new XSSFWorkbook(); //在excel中创建sheet页,p 阅读全文
posted @ 2024-02-06 20:44 天启A 阅读(16) 评论(0) 推荐(0)
摘要: SpringTask是spring提供的一个任务调度工具,按照约定的时间自动执行代码逻辑 定时任务框架,即定时自动执行某段代码 应用场景:信用卡每月还款提醒,火车售票系统处理未支付订单 cron表达式 6/7个域,由空格分开,每个域一个含义 分别为:秒 分钟 小时 日 月 周 年 日和周一般只写一个 阅读全文
posted @ 2024-02-04 20:44 天启A 阅读(22) 评论(0) 推荐(0)
摘要: Spring Cache 是Spring 提供的一整套的缓存解决方案,它不是具体的缓存实现,它只提供一整套的接口和代码规范、配置、注解等,用于整合各种缓存方案,比如Caffeine、Guava Cache、Ehcache。 SPEL用于动态计算密钥,在cacheput中用于动态计算key 有以下使用 阅读全文
posted @ 2024-02-03 20:43 天启A 阅读(19) 评论(0) 推荐(0)
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 40 下一页