• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
~(',D)=I一<
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

03 2020 档案

 
Java 基础 锁
摘要:滴滴面试,分布式の锁,我:?。故记录 https://www.cnblogs.com/wuhan729/p/8601108.html 单进程的锁 在单进程的系统中,当存在多个线程可以同时改变某个变量(可变共享变量)时,就需要对变量或代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量(sy 阅读全文
posted @ 2020-03-17 14:31 星不予 阅读(158) 评论(0) 推荐(0)
Spark 累加器使用
摘要:1.使用foreach碰到了问题 没看过累加器的时候,写了这么个代码,发现map里头foreach完了还是0啊?咋回事啊? 1 def calNrOfEachDataMap(data:RDD[String],neededDataMap:Set[Map[Int,String]]): Map[Map[I 阅读全文
posted @ 2020-03-15 02:18 星不予 阅读(583) 评论(0) 推荐(0)
Spark 宽依赖与窄依赖
摘要:原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage(按宽依赖划分Stage) 窄依赖是指父类分区的数据,被子类RDD中的指定的唯一一个分区消费 宽依赖就是子类的分区的数据,要依赖多个父类RDD的分区,由于有Shuffle的存在,只能在paren 阅读全文
posted @ 2020-03-14 21:58 星不予 阅读(788) 评论(0) 推荐(0)
Spark Persist与Cache checkpoint
摘要:1.为什么要Cache / persist 由于spark中的RDD都是只读不可变的对象,也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。 当迭代使用到一个RDD的时候,我们不希望它重新从头 阅读全文
posted @ 2020-03-14 20:47 星不予 阅读(473) 评论(0) 推荐(0)
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3