2022学习总结专用

1.14

1.hadoop序列化总结:

  • 序列化是把内存中对象变成二进制序列的过程,目的是把易失的对象转化成永久保存的磁盘文件或进行网络传输。
  • 反序列化是从二进制序列读取对象的过程
  • 对于复杂的组合数据,可以自定义bean实现其序列化,需要实现Writable接口的两个方法write和readfields。
  • wirte就是将对象往麻袋里写,readfields就是从麻袋里往外掏数据,赋给空对象。
  • 自己写了一个hadoop序列化的程序完美运行

1.18:

1. 学会了debug:

  • 先打断点
  • step into 进方法内部
  • step over 跳到下一个方法
  • 被蓝底色横条加粗的就是当前选中的方法

2.MapTask 切片和Job提交

基本全在睡觉,就问你有什么影响 根本听不懂,记个结论就好。

(1)hadoop客户端提交job,是通过submit方法:

  • 检查job状态为define
  • 转换旧API为新API调用
  • 连接集群
  • 向集群提交job
    • 检查job输出
    • 获取临时文件夹
    • 获取JobID
    • 往job临时文件夹写jar包  写切片信息 写配置文件

 (2)如何切片

posted @ 2022-01-14 17:57  写代码是唯一安静独处  阅读(27)  评论(0编辑  收藏  举报