随笔档案「2020年9月」 - wen1995

Hadoop的Job提交流程源码解析

摘要：Job提交流程其实流程图的话，已经满天飞了，我也没有搬过来的必要，主要是流程图背后发生了什么，这些事情为什么发生，为什么Hadoop的WordCount本地开发也能运行，同样的代码是怎么提交到集群上的，这些问题如果不看源码，基本都不会知道的，我就简单分析一下吧 : : 若有错误和不足的地方请直接指阅读全文

posted @ 2020-09-26 15:20 wen1995 阅读(401) 评论(0) 推荐(0)

Hadoop数据切片基本原理

摘要：数据切片问题：先给不懂得同学解释一下概念：数据块Block：是HDFS物理数据块，一个大文件丢到HDFS上，会被HDFS切分成指定大小的数据块，即Block 数据切片：数据切片是逻辑概念，只是程序在输入数据的时候对数据进行标记，不会实际切分磁盘数据 Mapper的数量是由切片数量，解释如下切片阅读全文

posted @ 2020-09-26 11:26 wen1995 阅读(1947) 评论(0) 推荐(0)

Hadoop-3.x.x配置LZOP压缩

摘要：Hadoop配置文件core-site.xml 添加下列配置 <configuration> <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apac 阅读全文

posted @ 2020-09-14 15:03 wen1995 阅读(334) 评论(0) 推荐(0)

YARN Node Lable配置

摘要：标签是做什么的？原汁原味的话，看官网Apache Hadoop-3.1.2 来一个对比，多队列和打标签的区别： 1. 多队列，是将集群汇总的资源按配比划分成多个队列，每个队列的资源对于机器来讲，都是不确定的，比如ABC三个队列每人占总集群资源的30%，A队列的30%是总数的百分比，落实到资源上是不阅读全文

posted @ 2020-09-11 16:44 wen1995 阅读(1320) 评论(0) 推荐(1)

Nginx文件服务器

摘要：Ubuntu和CentOS下都一样 sudo apt-get install nginx -y 编辑配置文件/etc/nginx/sites-enabled/default server { listen 80; server_name localhost; root /opt/file_downl 阅读全文

posted @ 2020-09-09 11:17 wen1995 阅读(430) 评论(0) 推荐(0)

Flink入门（二）

摘要：接上一篇Flink入门（一）WordCount，Flink得三种运行模式Stand alone，YARN，K8S。我就不多赘述了，主要说一下Flink On YARN 简单粗暴分布讲解： 1. 保证HDFS，YARN集群均开启得前提下，开启Flink得yarn-session hadoop@hado 阅读全文

posted @ 2020-09-02 16:43 wen1995 阅读(505) 评论(0) 推荐(0)

Flink入门（一）

摘要：Flink是标准得实时流计算框架，比起Spark Streaming得微批处理实现得流计算，Flink才是最原生最标准得实时处理，Flink得文档啊介绍啊啥的网上有的是我就不写了，简单得写一些大数据学习起点必学得项目《WordCount》此外，既然讲到WordCount，就要说数据分为有界和无界，阅读全文

posted @ 2020-09-02 13:19 wen1995 阅读(178) 评论(0) 推荐(0)

Maxer

09 2020 档案

公告