摘要: 1、Spark 与 MapReduce 的主要区别 2、Spark 特点 3、什么是 RDD 4、Spark 编程(shell 和 API 都要) 5、分区的目的、自定义分区的方法有哪些 6、Stage 阶段划分 7、Spark 架构(选择题) 阅读全文
posted @ 2021-07-01 19:17 水牛打老鼠 阅读(50) 评论(0) 推荐(0)
摘要: 1、HBase 的特点,它适用于哪些情况,为何它能存储大数据 2、HBase 数据模型 3、HBase 系统结构包含哪些部分及主要部分的功能(理解) 4、HBase 的三层寻址结构 5、HRegion 的组成 6、HRegion 的缓存刷新条件 7、HRegionServer 故障处理方式 8、采用 阅读全文
posted @ 2021-07-01 19:12 水牛打老鼠 阅读(66) 评论(0) 推荐(0)
摘要: 1、词频统计 2、查找 查找含有“spark”的行 3、去重 4、挖掘父子关系 阅读全文
posted @ 2021-07-01 16:33 水牛打老鼠 阅读(84) 评论(0) 推荐(0)
// 侧边栏目录 // https://blog-static.cnblogs.com/files/douzujun/marvin.nav.my1502.css