• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
Namhwik
克己守心
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2016年10月16日

RDD与DataFrame的转换
摘要: RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知道这些的,但是变成DataFrame背后一定知道,通过反射的方式就可以了解到背后这些元数据,进而转换成Dat 阅读全文
posted @ 2016-10-16 21:59 Namhwik 阅读(7088) 评论(0) 推荐(0)
 
Scala笔记整理
摘要: 创建java.math.BigInteger实例: var big = new java .math.BigInteget(“12345678”) 对数组进行访问:圆括号形式 val greetingStrings :Array[String] = new Array[String] (3) gre 阅读全文
posted @ 2016-10-16 21:51 Namhwik 阅读(949) 评论(0) 推荐(0)
 
Spark RDD
摘要: RDD:基于内存的集群计算容错抽象 分布式内存抽象的概念 弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。 为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他 RDD上的批量操作来创建 阅读全文
posted @ 2016-10-16 21:38 Namhwik 阅读(489) 评论(0) 推荐(0)
 
Hbase的flush机制
摘要: Hbase Flush机制最小Flush单元为HRegion,尽量减少CF数量以减少HStrore数量从而减少MemStore的数量,最终减少每次Flush的开销。1.Region级别触发条件: a) hbase.hregion.memstore.flush.size Region中任意MemSto 阅读全文
posted @ 2016-10-16 21:36 Namhwik 阅读(3899) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3