09 2020 档案
摘要:Job提交流程其实流程图的话,已经满天飞了,我也没有搬过来的必要,主要是流程图背后发生了什么,这些事情为什么发生,为什么Hadoop的WordCount本地开发也能运行,同样的代码是怎么提交到集群上的,这些问题如果不看源码, 基本都不会知道的,我就简单分析一下吧 : : 若有错误和不足的地方请直接指
阅读全文
摘要:数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据 Mapper的数量是由切片数量,解释如下 切片
阅读全文
摘要:Hadoop配置文件core-site.xml 添加下列配置 <configuration> <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apac
阅读全文
摘要:标签是做什么的? 原汁原味的话,看官网Apache Hadoop-3.1.2 来一个对比,多队列和打标签的区别: 1. 多队列,是将集群汇总的资源按配比划分成多个队列,每个队列的资源对于机器来讲,都是不确定的,比如ABC三个队列每人占总集群资源的30%,A队列的30%是总数的百分比,落实到资源上是不
阅读全文
摘要:Ubuntu和CentOS下都一样 sudo apt-get install nginx -y 编辑配置文件/etc/nginx/sites-enabled/default server { listen 80; server_name localhost; root /opt/file_downl
阅读全文
摘要:接上一篇Flink入门(一)WordCount,Flink得三种运行模式Stand alone,YARN,K8S。我就不多赘述了,主要说一下Flink On YARN 简单粗暴分布讲解: 1. 保证HDFS,YARN集群均开启得前提下,开启Flink得yarn-session hadoop@hado
阅读全文
摘要:Flink是标准得实时流计算框架,比起Spark Streaming得微批处理实现得流计算,Flink才是最原生最标准得实时处理,Flink得文档啊介绍啊啥的网上有的是我就不写了,简单得写一些大数据学习起点必学得项目《WordCount》 此外,既然讲到WordCount,就要说数据分为有界和无界,
阅读全文

浙公网安备 33010602011771号