会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
十七楼的羊
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
48
下一页
2019年7月9日
hadoop 的 map reduce实现(其一)
摘要: 一,map 阶段: 1,切片是由输入格式化类来实现的,默认切片大小等于block size 2,一个切片(逻辑概念,一个map处理数据的大小)对应一个map, 所有的 map 执行完之后才执行 reduce 3,默认的情况下 一个 block对应一个map程序,也可以使用窗口机制(切片) 使得一个
阅读全文
posted @ 2019-07-09 00:11 十七楼的羊
阅读(182)
评论(0)
推荐(0)
2019年7月6日
hadoop hdfs 流程解析(其一):
摘要: 一,namenode 介绍说明: 1,namenode 保存的是文件元数据(namenode进程维护者虚拟的目录树) 2,namenode 接受来自 datanode 的block 列表提交 3,namenode 完全基于内存存储(新建元数据等),namenode 是通过快照与log信息来实现恢复的
阅读全文
posted @ 2019-07-06 23:50 十七楼的羊
阅读(157)
评论(0)
推荐(0)
2019年7月4日
impala 使用介绍
摘要: impala 介绍: 1,impala 提供对 hdfs, hbase 数据的高性能,低延迟的交互式 sql查询功能 2,impala 是完全基于hive 的内存计算(中间计算不落地磁盘),spark 中间可以落地 3,impala 完全依赖于 hive, 一次性将 hive 中所有的元数据加载到内
阅读全文
posted @ 2019-07-04 23:50 十七楼的羊
阅读(681)
评论(0)
推荐(0)
2019年7月3日
dataframe dataset 与 SparkSession(代码示例)
摘要: dataframe dataset 与 SparkSession 1,dataframe 是 dataset[Row] 2,dataframe 存储着 schema(数据的结构信息,字段与类型等) 信息 3,dataset 可以实现实时批量处理的一种方式 4,RDD dataframe DataSet 可以互相转换 5,SparkSession(编程入口) 整合了 S...
阅读全文
posted @ 2019-07-03 23:34 十七楼的羊
阅读(659)
评论(0)
推荐(0)
2019年6月27日
SparkStreaming 使用
摘要: Spark Streaming 架构: 1,Spark Streaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中,从输入源收集数据并保存为 RDD。 2,收集到输入数据后会把数据复制到另一个执行器进程来保障容错性(默 认行为)。数据保存在执行器进程的内存中,和缓存 RDD 的方式一样。 3,驱动器程序中的 StreamingContext 会周期...
阅读全文
posted @ 2019-06-27 23:50 十七楼的羊
阅读(315)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
48
下一页
公告