十七楼的羊

2019年7月9日

摘要：一,map 阶段: 1，切片是由输入格式化类来实现的，默认切片大小等于block size 2,一个切片(逻辑概念,一个map处理数据的大小)对应一个map, 所有的 map 执行完之后才执行 reduce 3,默认的情况下一个 block对应一个map程序,也可以使用窗口机制(切片) 使得一个阅读全文

posted @ 2019-07-09 00:11 十七楼的羊阅读(182) 评论(0) 推荐(0)

2019年7月6日

hadoop hdfs 流程解析(其一):

摘要：一,namenode 介绍说明: 1,namenode 保存的是文件元数据(namenode进程维护者虚拟的目录树) 2,namenode 接受来自 datanode 的block 列表提交 3,namenode 完全基于内存存储(新建元数据等),namenode 是通过快照与log信息来实现恢复的阅读全文

posted @ 2019-07-06 23:50 十七楼的羊阅读(164) 评论(0) 推荐(0)

2019年7月4日

impala 使用介绍

摘要： impala 介绍: 1,impala 提供对 hdfs, hbase 数据的高性能,低延迟的交互式 sql查询功能 2,impala 是完全基于hive 的内存计算(中间计算不落地磁盘),spark 中间可以落地 3,impala 完全依赖于 hive, 一次性将 hive 中所有的元数据加载到内阅读全文

posted @ 2019-07-04 23:50 十七楼的羊阅读(684) 评论(0) 推荐(0)

2019年7月3日

dataframe dataset 与 SparkSession(代码示例)

摘要： dataframe dataset 与 SparkSession 1,dataframe 是 dataset[Row] 2,dataframe 存储着 schema(数据的结构信息,字段与类型等) 信息 3,dataset 可以实现实时批量处理的一种方式 4,RDD dataframe DataSet 可以互相转换 5,SparkSession(编程入口) 整合了 S... 阅读全文

posted @ 2019-07-03 23:34 十七楼的羊阅读(661) 评论(0) 推荐(0)

2019年6月27日

SparkStreaming 使用

摘要： Spark Streaming 架构: 1,Spark Streaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中，从输入源收集数据并保存为 RDD。 2,收集到输入数据后会把数据复制到另一个执行器进程来保障容错性(默认行为)。数据保存在执行器进程的内存中，和缓存 RDD 的方式一样。 3,驱动器程序中的 StreamingContext 会周期... 阅读全文

posted @ 2019-06-27 23:50 十七楼的羊阅读(317) 评论(0) 推荐(0)

公告