大数据包括很多内容,但是对于大多数公司来说,大数据无非包括离线和实时两个部分,对于离线来说,无非就是采用hive,对于实时来说,无非就是spark,或者是flink,其中再包括一些其他的辅助组件即可;

本人为了学习,打算写一个全套的大数据博客;分为离线和实时两个部分;

离线主要是hadoop的HDFS存储,mapreduce第一代和第二代(yarn),除此之外,还包括hive,impala(运行速度很快,但在公司内主要是用于离线跑批用);

而实时主要是spark,kudu;本公司主要是采用kudu接spark streaming采集的kafka数据;除此之外,会自学Hbase,并也会总结归纳