大数据系列(未完,待续)

大数据架构

    大数据架构:搭建CDH5.5.1分布式集群环境

Hive

     大数据:Hive常用参数调优

Spark

    Spark基本架构及原理

    SparkContext原理解析

    Spark RDD、DataFrame原理及操作详解

    Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

    Spark 广播变量BroadCast

    SparkStreaming基本架构及使用

    SparkStreaming:关于checkpoint的弊端

    Spark性能优化指南——基础篇

      Spark性能优化指南-高级篇

 

  kafka

     Kafka基本架构及原理

    Kafka文件存储机制及offset存取

  hbase

    hbase工作原理

    Hbase 基本命令总结

    Hbase性能调优

    Sparksql读取hbase数据的三种方式:thrift/happybase/华为开源sparksql_on_hbase/phoenix(<1.6)

其他

    大数据:Hive-ORC文件存储格式

     大数据:Parquet文件存储格式

    大数据:hdfs文件permission denied问题解析

    Hadoop:mapreduce的splitsize和blocksize

RabbitMq

 

  案例应用:

    数据仓库:Mysql大批量数据快速导出

    定时器

    SimpleOrm

    布隆过滤器

    Netty4+protobuf构建服务器

posted @ 2019-01-10 16:41  PanPan003  阅读(189)  评论(0编辑  收藏  举报