随笔分类 -  hadoop

大数据之Hadoop相关
摘要:Job提交流程其实流程图的话,已经满天飞了,我也没有搬过来的必要,主要是流程图背后发生了什么,这些事情为什么发生,为什么Hadoop的WordCount本地开发也能运行,同样的代码是怎么提交到集群上的,这些问题如果不看源码, 基本都不会知道的,我就简单分析一下吧 : : 若有错误和不足的地方请直接指 阅读全文
posted @ 2020-09-26 15:20 wen1995 阅读(401) 评论(0) 推荐(0)
摘要:数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据 Mapper的数量是由切片数量,解释如下 切片 阅读全文
posted @ 2020-09-26 11:26 wen1995 阅读(1938) 评论(0) 推荐(0)
摘要:hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 阅读全文
posted @ 2020-07-13 12:54 wen1995 阅读(670) 评论(0) 推荐(0)
摘要:先默认你已经装好了Hive,我之前连接失败主要是缺最后一条配置,具体配置如下: 1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 <configuration> 4 <pro 阅读全文
posted @ 2020-07-07 16:45 wen1995 阅读(1059) 评论(0) 推荐(1)