随笔分类 - hdfs&mapreduce
摘要:1.问题 分布式文件系统那么多,为什么hadoop项目中还要开发一个分布式文件系统呢? 2.存储模型 文件线性字节切割成块(Block),具有offset,id 文件与文件的block大小可以不一样 一个文件除了最后一个block,其他block大小一致 block大小依据硬件I/O进行调整 blo
阅读全文
摘要:1.MyTopN 主程序 2.TopNKey 3.TopNMapper 4.TopNReducer 5.TopNPartitioner 分区规划,来划分Map之后的结果是存在哪个dn进行处理 6.TopNSortComparator 排序比较器,在Map中精确到月,按温度递减 7.TopNGroup
阅读全文
摘要:1.MyWordCount类 注意: 1.本机+测试,两个注释都放开 2.本机跑集群,要开异构平台为true 3.集群跑,把两个注释都注起来,然后在集群上面跑 2.WordCountMapper类 作用: 定义一个拆分文本的功能,将Mapper进行拆分成key, value的形式 3.WordCou
阅读全文
摘要:一、搭建 1.选择一台没有ZK的机器(HBase自带ZK,可能会导致冲突) 2.选择版本2.0.5的HBase 3.解压HBase2.0.5 4.配置HBase的HBASE_HOME和path 5.修改conf/hbase-env.sh文件 6.修改hbase-site.sh文件,直接从官网粘贴 7
阅读全文
摘要:一、HBase简介 1.1.Hadoop生态系统 1.2.非关系型数据库知识面扩展 Cassandra hbase mongodb Couchdb,文件存储数据库 Neo4j非关系型图数据库 1.3.Hbase初始 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分
阅读全文
摘要:MR 提交方式源码 提交方式: 1,开发-> jar -> 上传到集群中的某一个节点 -> hadoop jar ooxx.jar ooxx in out 2,嵌入【linux,windows】(非hadoop jar)的集群方式 on yarn 集群:M、R client -> RM -> App
阅读全文
摘要:恢复内容开始 回顾: 1.最终开发MR的计算程序 2.hadoop 2.x 出现了一个yarn:资源管理>>MR没有后台场服务 yarn模型:container 容器,里面会运行我们的AppMaster,map/reduce Task 解耦 mapreduce on yarn 架构:RM NM 搭建
阅读全文
摘要:二、计算向数据移动如何实现? Hadoop1.x(已经淘汰): hdfs暴露数据的位置 1)资源管理 2)任务调度 角色:JobTracker&TaskTracker JobTracker: 资源管理、任务调度(主) TaskTracker:任务管理、资源汇报(从) Client: 3.未来的移动应
阅读全文
摘要:一、为什么叫MapReduce? Map是以一条记录为单位映射 Reduce是分组计算
阅读全文
摘要:创建用户实操 1.创建用户god 2.设置ssh免密 3.修改hdfs-site.xml中的ssh路径,并且分发 4.god 用户权限实操 HDFS-API实操 1.添加环境变量 2.启动IDEA,创建一个Maven Project Maven网址 hdfs的pom文件: 实际测试:
阅读全文
摘要:JoinNode 分布在node01,node02,node03 1.停止之前的集群 2.免密:node01,node02 3.zookeeper 集群搭建 java语言开发(需要jdk) 4.配置hadoop的core和hdfs 5.分发两个配置文件 6.开启1,2,3台的journalnode
阅读全文
摘要:关于伪分布式的配置全程 伪分布式图示 1.安装VMWare WorkStation,直接下一步,输入激活码即可安装 2.安装Linux(需要100GB) 引导分区Boot200MB 交换分区Swap2048MB 其余分配到/ 3.配置网络服务 注意点: 1.关于IPADDR的前三个网关,要与虚拟网络
阅读全文
摘要:提纲 - 存储模型- 架构设计- 角色功能- 元数据持久化- 安全模式- 副本放置策略- 读写流程- 安全策略 存储模型 - 文件线性按字节切割成块(block),具有offset,id - 文件与文件的block大小可以不一样- 一个文件除最后一个block,其他block大小一致- block的
阅读全文
摘要:按照课程安排,接下来半年,我将会去上一个为期半年的大数据课程。第一课是马士兵老师机构的周老师所讲,这里单纯记录讲课的内容。 问题1: 我有一万个元素(比如数字或单词)需要存储? 如果查找某一个元素,最简单的遍历方式复杂的是多少? 如果我期望复杂度是O(4)呢? 答案: 使用hash查找法,可以定义一
阅读全文