2022学习总结专用

1.14

1.hadoop序列化总结：

序列化是把内存中对象变成二进制序列的过程，目的是把易失的对象转化成永久保存的磁盘文件或进行网络传输。
反序列化是从二进制序列读取对象的过程
对于复杂的组合数据，可以自定义bean实现其序列化，需要实现Writable接口的两个方法write和readfields。
wirte就是将对象往麻袋里写，readfields就是从麻袋里往外掏数据，赋给空对象。
自己写了一个hadoop序列化的程序完美运行

1.18:

1. 学会了debug：

先打断点
step into 进方法内部
step over 跳到下一个方法
被蓝底色横条加粗的就是当前选中的方法

2.MapTask 切片和Job提交

基本全在睡觉，就问你有什么影响根本听不懂，记个结论就好。

（1）hadoop客户端提交job，是通过submit方法：

检查job状态为define
转换旧API为新API调用
连接集群
向集群提交job
- 检查job输出
- 获取临时文件夹
- 获取JobID
- 往job临时文件夹写jar包写切片信息写配置文件

（2）如何切片

posted @ 2022-01-14 17:57 写代码是唯一安静独处阅读(38) 评论(0) 收藏举报

刷新页面返回顶部