摘要:Job提交流程其实流程图的话,已经满天飞了,我也没有搬过来的必要,主要是流程图背后发生了什么,这些事情为什么发生,为什么Hadoop的WordCount本地开发也能运行,同样的代码是怎么提交到集群上的,这些问题如果不看源码, 基本都不会知道的,我就简单分析一下吧 : : 若有错误和不足的地方请直接指 阅读全文
posted @ 2020-09-26 15:20 wen1995 阅读(6) 评论(0) 推荐(0) 编辑
摘要:数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据 Mapper的数量是由切片数量,解释如下 切片 阅读全文
posted @ 2020-09-26 11:26 wen1995 阅读(8) 评论(0) 推荐(0) 编辑
摘要:Hadoop配置文件core-site.xml 添加下列配置 <configuration> <property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apac 阅读全文
posted @ 2020-09-14 15:03 wen1995 阅读(19) 评论(0) 推荐(0) 编辑
摘要:标签是做什么的? 原汁原味的话,看官网Apache Hadoop-3.1.2 来一个对比,多队列和打标签的区别: 1. 多队列,是将集群汇总的资源按配比划分成多个队列,每个队列的资源对于机器来讲,都是不确定的,比如ABC三个队列每人占总集群资源的30%,A队列的30%是总数的百分比,落实到资源上是不 阅读全文
posted @ 2020-09-11 16:44 wen1995 阅读(18) 评论(0) 推荐(0) 编辑
摘要:Ubuntu和CentOS下都一样 sudo apt-get install nginx -y 编辑配置文件/etc/nginx/sites-enabled/default server { listen 80; server_name localhost; root /opt/file_downl 阅读全文
posted @ 2020-09-09 11:17 wen1995 阅读(16) 评论(0) 推荐(0) 编辑
摘要:接上一篇Flink入门(一)WordCount,Flink得三种运行模式Stand alone,YARN,K8S。我就不多赘述了,主要说一下Flink On YARN 简单粗暴分布讲解: 1. 保证HDFS,YARN集群均开启得前提下,开启Flink得yarn-session hadoop@hado 阅读全文
posted @ 2020-09-02 16:43 wen1995 阅读(32) 评论(0) 推荐(0) 编辑
摘要:Flink是标准得实时流计算框架,比起Spark Streaming得微批处理实现得流计算,Flink才是最原生最标准得实时处理,Flink得文档啊介绍啊啥的网上有的是我就不写了,简单得写一些大数据学习起点必学得项目《WordCount》 此外,既然讲到WordCount,就要说数据分为有界和无界, 阅读全文
posted @ 2020-09-02 13:19 wen1995 阅读(20) 评论(0) 推荐(0) 编辑
只有博主才能阅读该文。 阅读全文
posted @ 2020-08-07 22:11 wen1995 阅读(0) 评论(0) 推荐(0) 编辑
摘要:这篇没什么顺序,就是单纯的罗列一下常见的问题和可能遇到的问题,问题之间没有关联,后续有新的问题再补充 1. Kafka消息积压,消费能力不足怎么办: 1. 如果是消费能力不足的话,可以提高对应Topic的分区数,同时提升消费者组(Consumer Group)内消费者的数量,要注意分区数等于消费者组 阅读全文
posted @ 2020-08-07 10:49 wen1995 阅读(27) 评论(0) 推荐(0) 编辑
摘要:HBase2.2.4是截止2020-08-03官方最新的Stable版本,因为做了snappy压缩,但是还未升级到生产环境,需要在测试环境先测试压缩效果的同时也需要测试读写性能 YCSB-0.17.0压测HBase,这个工具不多介绍了,雅虎开源的专门压测NoSQL数据库的 ycsb-0.17.0下载 阅读全文
posted @ 2020-08-03 23:26 wen1995 阅读(64) 评论(0) 推荐(0) 编辑