随笔分类 - Hadoop大数据
摘要:Error: java: 无法访问org.apache.hadoop.mapred.JobConf 找不到org.apache.hadoop.mapred.JobConf的类文件 出现此异常,是缺少相关的依赖包,检查以下四个依赖包是否添加: hadoop-mapreduce-client-core-
阅读全文
摘要:第一次格式化dfs后,启动并使用hadoop,之后如果再次重新执行了格式化(hdfs namenode -format) start-all.sh启动时就会遇到datanode无法启动的问题,通常情况是datanode的clusterID 和 namenode的clusterID 经过再次格式化后已
阅读全文
摘要:好记性不容烂笔头啊,总是忘,记录一下备查~ 设置ssh免密码登录,首先需要生产公钥,命令:$ ssh-keygen -t rsa 一路回车即可 然后把生成的公钥拷贝到机器需要登录的机器上的~/.ssh/authorized_keys中,使用如下命令:$ ssh-copy-id -i ~/.ssh/i
阅读全文
摘要:报错日志如下: Caused by: java.lang.AbstractMethodError: sparkCore.JavaWordCount$2.call(Ljava/lang/Object;)Ljava/lang/Iterable; at org.apache.spark.api.java.
阅读全文
摘要:Java heap space问题一般解决方案: 设置 set io.sort.mb=10; 排序所使用的内存数量,默认值是100M,和mapred.child.java.opts相对应,opts默认:-Xmx200m,则mb不能超过200M,否则会OOM。 设置 set hive.map.aggr
阅读全文
摘要:分布式协调服务作用是将多机协调的职责从分布式应用中独立出来,以减少系统的耦合性和增加扩展性。 而zookeeper采用分布式中经典的主从架构:master->slave,通常以动态的存储分布式应用程序中关键的元数据 来达到分布式协调服务的作用,可提供如leader选举、负载均衡、服务发现等服务。 整
阅读全文
摘要:个人机器搭建分布式环境时避免要使用虚拟机来满足分布式环境所需的机器,当然伪分布式除外。 简单记录下虚拟机环境的创建过程,Mac上常用的虚拟机VMware Fusion。 虚拟机资源库中新建虚拟机: 选择创建方式 选择要创建的虚拟机系统类,这类我们选择centos 64位: 选择虚拟磁盘,选择新建虚拟
阅读全文
摘要:Hive进行大数据处理的过程中经常遇到一个任务跑几个小时或者内存溢出等问题,平时会任务执行的遇到的问题 进行参数的调整配置,收集整理的配置参考如下: set dfs.namenode.handler.count=20; set mapred.task.timeout=36000000; set hi
阅读全文

浙公网安备 33010602011771号