会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
软件工程
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
11
下一页
2023年2月22日
MapReduce原理——切片代码分析
摘要: (1)程序先找到数据存储的目录 (2)遍历目录对每个文件进行切片 (3)遍历一个文件: 获取文件大小 计算切片大小 默认情况下,切片大小等于blocksize 每次切片时都要判断剩下部分师否大于块的1.1倍,小于1.1划分为1个切片 讲切片信息写到一个切片规划文件中 整个切片的核心过程在getSpl
阅读全文
posted @ 2023-02-22 09:19 几人著眼到青衫
阅读(67)
评论(0)
推荐(0)
2023年2月21日
MapReduce框架原理
摘要: 原理一:切片与MapTask并行度决定机制 MapTask之前了解到了,他是在分布式程序在map阶段的一个进程,管理之一个map任务类似于一个master。那么什么是切片? 说起切片,很明显就是对数据的切分。在之前了解到数据是以block(数据块)的形式传输到集群上的,block是对数据的物理切分。
阅读全文
posted @ 2023-02-21 23:44 几人著眼到青衫
阅读(114)
评论(0)
推荐(0)
2023年2月20日
阅读笔记——架构漫谈
摘要: 上周读完资深架构师王概凯的9篇“架构漫谈”文章,我深有所感。也逐渐有了对软件架构的初步了解。再结合本学期软件体系结构这门课程在此发表一下我对架构的认识和理解,如有什么不对之处也欢迎大家前来指正,我也诚心接受大家的批评和建议。 首先对于“架构”的概念,我想先了解他是如何产生,也就是为什么会有架构会更容
阅读全文
posted @ 2023-02-20 22:18 几人著眼到青衫
阅读(28)
评论(0)
推荐(0)
2023年2月19日
Hadoop序列化
摘要: 序列化定义 把内存中的数据持久化(把内存中的对象转换为字节码文件存储带磁盘上)和网络传输。 反序列化定义 反序列化就是把接收到的字节序列(或其它协议传输的数据)或持久化的磁盘数据转换为内存对象。 为什么进行序列化操作? 一般内存对象断电时就会消失,而且只能由本地进程去使用,序列化就可以存储内存对象并
阅读全文
posted @ 2023-02-19 11:10 几人著眼到青衫
阅读(45)
评论(0)
推荐(0)
2023年2月18日
MapReduce概述
摘要: MapReduce是一种分布式运算程序的编程框架,是用户开发“基于hadoop数据分析应用”的核心框架。 核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起,构成一个分布式运算程序,并发运行在Hadoop集群上。 MapReduce优缺点 MapReduce易于编程,简单实现它的接口,就可以
阅读全文
posted @ 2023-02-18 23:12 几人著眼到青衫
阅读(219)
评论(0)
推荐(0)
2023年2月17日
HDFS读写数据流程
摘要: 文件写入 (1)HDFSClient上传文件到集群,HDFSClient会创建本地的分布式文件系统(Distributed FileSystem),向集群NameNode请求上传文件 (2)NameNode检查目录树是否允许创建文件,检查权限,检查目录结构。然后给客户端做出响应。 (3)若响应可以上
阅读全文
posted @ 2023-02-17 12:42 几人著眼到青衫
阅读(55)
评论(0)
推荐(0)
HDFS文件块
摘要: 知识点补充 HDFS优缺点: 优点 (1)高容错性。节点存放的副本比较多。 (2)适合处理大数据。 GB、TB、PB级别的数据都可以处理。 (3)可以构建在廉价的机器上,通过多副本机制来提高可靠性。 缺点 (1)不是低延时数据的处理,如毫秒级的数据操作(mysql) (2)无法高效地对大量小文件进行
阅读全文
posted @ 2023-02-17 12:14 几人著眼到青衫
阅读(111)
评论(0)
推荐(0)
2023年2月16日
hdfs操作——hdfs的shell命令和hdfs的JavaAPI操作
摘要: hdfs解决hadoop海量数据的存储。 shell 命令(所有hadoop fs 可由 hdfs dfs代替) (1) 在hdfs上创建目录 hadoop fs -mkdir 目录名 (2) 本地文件的上传 hadoop fs -copyFromLocal 本地文件路径 目标目录路径 (复制) h
阅读全文
posted @ 2023-02-16 23:53 几人著眼到青衫
阅读(297)
评论(0)
推荐(0)
2023年2月15日
hadoop集群配置
摘要: 进入 hadoop的etc目录下找到配置文件 cd /opt/module/hadoop-3.1.3/etc/hadoop 配置core-site.xml 指定NameNode的地址 指定hadoop数据的存储目录 <configuration> <!-- 指定NameNode的地址 --> <pr
阅读全文
posted @ 2023-02-15 19:41 几人著眼到青衫
阅读(71)
评论(0)
推荐(0)
配置ssh免密登录
摘要: ssh-keygen -t rsa ssh-copy-id hadoop102 建议三台虚拟机都配置免密登录。 注意root用户仍需配置。
阅读全文
posted @ 2023-02-15 15:15 几人著眼到青衫
阅读(18)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
11
下一页
公告