随笔分类 -  大数据

presto整合hive
摘要:Presto安装 前提条件: hadoop安装好了(并启动了) + hive安装好了 文档网址:http://prestodb.jd.com/docs/current/installation/deployment.html 首先解压下载好的tar.gz包 1 .安装包 https://repo1. 阅读全文
posted @ 2019-08-22 10:03 一只猪儿虫 阅读(6486) 评论(0) 推荐(0)
springboot kafka 消费者
摘要:上面是pom,下面是代码块: 阅读全文
posted @ 2019-05-31 16:53 一只猪儿虫 阅读(447) 评论(0) 推荐(0)
本机spark 消费kafka失败(无法连接)
摘要:本机spark 消费kafka失败(无法连接) 终端也不报错 就特么不消费: 但是用console的consumer 却可以 经过各种改版本 ,测试配置,最后发现 只要注释掉 kafka 配置server.properties 中的host.name=kevinhost1(我自己的主机名) 就行了 阅读全文
posted @ 2018-11-12 18:03 一只猪儿虫 阅读(776) 评论(0) 推荐(0)
ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Cannot run program "hive": error=2, No such file or directory
摘要:原因是hive没有设置环境变量 1,vim /etc/profile (切换root用户) 2.source /etc/profile 阅读全文
posted @ 2018-10-29 16:06 一只猪儿虫 阅读(2163) 评论(0) 推荐(0)
sparkshell运行sql报错: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
摘要:下载msyql的连接driver https://download.csdn.net/download/xz360717118/10662304 把其中一个: mysql-connector-java-5.1.27-bin.jar 放到了spark安装目录下的jars文件夹下面 并且分发给所有的机器 阅读全文
posted @ 2018-10-08 14:28 一只猪儿虫 阅读(3695) 评论(0) 推荐(3)
scala combineByKey用法说明
摘要:语法是: combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C ) 标记一下:(因为有很多同样的字母,方便说明我就按照字母+数字标记一下) 语法说明:(不复制网上的, 阅读全文
posted @ 2018-09-29 12:50 一只猪儿虫 阅读(554) 评论(0) 推荐(0)
spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)
摘要:spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores 阅读全文
posted @ 2018-09-29 11:53 一只猪儿虫 阅读(1338) 评论(0) 推荐(0)
org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="hadoop": hadoop:supergroup:rwxr-xr-x
摘要:这时windows远程调试hadoop集群出现的这里 做个记录 我用改变系统变量的方法 修正了错误 网上搜索出来大概有三种: 1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,这个值具体等于多少看自己的情况,以后会运行HADOOP上的Linux的用户名。(修改完重启 阅读全文
posted @ 2018-09-14 12:09 一只猪儿虫 阅读(387) 评论(0) 推荐(0)
Exception message: /bin/bash: line 0: fg: no job control
摘要:这个错误是 我本地idea 远程调试hadoop集群出现的 Diagnostics: Exception from container-launch. Container id: container_1536891254067_0001_02_000001 Exit code: 1 Exceptio 阅读全文
posted @ 2018-09-14 12:06 一只猪儿虫 阅读(1853) 评论(2) 推荐(0)
Error: java.lang.NullPointerException at outputformat.MysqlOutputFormat.getRecordWriter(MysqlOutputFormat.java:27)
摘要:Error: java.lang.NullPointerException at outputformat.MysqlOutputFormat.getRecordWriter(MysqlOutputFormat.java:27) at org.apache.hadoop.mapred.ReduceT 阅读全文
posted @ 2018-09-12 12:00 一只猪儿虫 阅读(467) 评论(0) 推荐(0)
hbase集群中其中某个regionserver 没有启动
摘要:第一步: date命令查看各个机器的时间 发现linux02机器时间差了2个多小时 第二步:ntpdate pool.ntp.org 修改错误时间的机器 第三步: 重启 hbase 阅读全文
posted @ 2018-09-11 15:14 一只猪儿虫 阅读(1010) 评论(0) 推荐(0)
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.o
摘要:上面的报错是在本地java调试(windows) hadoop集群 出现的 解决方案: 在resources文件夹下面创建一个文件log4j.properties(这个其实hadoop安装目录下的 etc/hadoop/log4j.properties 同名,我尝试拿过来用,发现还是不行报错信息如下 阅读全文
posted @ 2018-09-04 18:03 一只猪儿虫 阅读(1652) 评论(0) 推荐(1)
ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing 解决方案
摘要:我尝试的过程如下 1. 时间没有同步 用date命令看一下每个机器 如果时间差距大 说明确实有问题 ** 配置时间服务器 ** 检查时区 $ date -R ** 检查软件包 NTP服务器【Network Time Protocol(NTP)】是用来使计算机时间同步化的一种协议 如果ntp工具不存在 阅读全文
posted @ 2018-08-21 11:23 一只猪儿虫 阅读(16141) 评论(0) 推荐(0)
habase 报错 ERROR: Can't get master address from ZooKeeper; znode data == null
摘要:方法一:查看日志报SessionExpiredException: KeeperErrorCode = Session expired for /hbase/master 所以是hbase 和 zookeeper之间会话超时了,按照官网的常见问题说法: http://hbase.apache.org 阅读全文
posted @ 2018-08-21 11:01 一只猪儿虫 阅读(1363) 评论(0) 推荐(0)
java.io.IOException: Could not find status of job:job_1534233312603_0002
摘要:hive执行插入数据操作 报错: 在hive console里面输入: set hive.jobname.length=20; 再次执行好了; 阅读全文
posted @ 2018-08-14 17:08 一只猪儿虫 阅读(2150) 评论(0) 推荐(0)
windows本地调试安装hadoop(idea) : ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path
摘要:1,本地安装hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 下载hadoop对应版本 (我本意是想下载hadoop 2.7.2没有了) 2, 解压D:\devtool ,3,下载winutils 等一系列东西保证wi 阅读全文
posted @ 2018-08-09 16:17 一只猪儿虫 阅读(518) 评论(0) 推荐(0)
搭建hadoop_之 创建3个虚拟机配置好网络
摘要:(创建3个虚拟机,1个作为主服务器,二个作为从节点) 一、安装虚拟机 Windwos:VMware Workstation Pro MAC:VMware Fusion 安装: ** 创建空虚拟机 ** 安装虚拟机时的资源规划 Linux版本:Centos 6.8 或 CentOS 7.2 1611内 阅读全文
posted @ 2018-08-09 09:27 一只猪儿虫 阅读(1406) 评论(0) 推荐(0)
JDK1.10+scala环境的搭建之windows环境
摘要:第一步:安装jdk 1,http://www.oracle.com/technetwork/java/javase/downloads/jdk10-downloads-4416644.html 去找下载链接 2,下载后直接安装 首先.我的电脑→右键→属性→高级系统设置→环境变量 新建一个变量名为“J 阅读全文
posted @ 2018-07-15 16:57 一只猪儿虫 阅读(595) 评论(0) 推荐(0)
JDK1.10+scala环境的搭建之linux环境(centos6.9)
摘要:恢复内容开始 第一步:安装jdk1.10版本 我选择是rpm安装的方式,所以我下载了rpm包:切记 不用--no-cookies可能在安装的时候要报 类似 error: open of <html> failed: No such file or directory。。。的错 wget --no-c 阅读全文
posted @ 2018-07-15 16:31 一只猪儿虫 阅读(283) 评论(0) 推荐(0)