摘要: 说明:我的系统为CentOS 7 ,系统自带的python版本为2.7.5. 安装hue时,推荐使用2.7.0以上的版本,可以自己查看自己系统自带的版本 若是版本不对,要升级为2.7的版本,这里不再说明。 注意:在centos 7 安装hue时会报 error: static declaration 阅读全文
posted @ 2018-11-27 20:09 董秀才 阅读(1238) 评论(0) 推荐(0) 编辑
摘要: cut、printf、awk、sed在linux中都是用来处理文本的命令,接下来一个一个看。 一、cut命令 cut [选项] 文件名 选项: 主要使用一下两个参数,若是只使用 -f 则默认的分割符为 \t -f 列号:提取第几列 -d 分隔符:按照指定的分割符分割列 命令说明: cut 命令从文件 阅读全文
posted @ 2018-11-26 19:26 董秀才 阅读(1241) 评论(0) 推荐(1) 编辑
摘要: 启动zookeeper的时候,报Starting zookeeper ... already running as process 1805错误 上面这个错误意思为以作为进程1805运行。系统检测到你的zookeeper是在启动的状态的。 这个可能是由于异常关机,断电造成的。 可以查看你的文件保存目 阅读全文
posted @ 2018-11-24 10:21 董秀才 阅读(3439) 评论(2) 推荐(2) 编辑
摘要: 当我们在使用spark1.6的时候,当我们创建SQLContext读取一个文件之后,返回DataFrame类型的变量可以直接.map操作,不会报错。但是升级之后会包一个错误,如下: 报错:No implicits found for parameter evidence$6: Encoder[Uni 阅读全文
posted @ 2018-11-22 18:01 董秀才 阅读(4584) 评论(2) 推荐(1) 编辑
摘要: 说明:此程序使用的scala编写 在spark-stream+kafka使用的时候,有两种连接方式一种是Receiver连接方式,一种是Direct连接方式。 两种连接方式简介: Receiver接受固定时间间隔的数据(放在内存中),达到固定的时间才进行处理,效率极并且容易丢失数据。通过高阶API, 阅读全文
posted @ 2018-11-16 22:03 董秀才 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 问题: 在开启虚拟机的时候报: VMware Workstation cannot connect to the virtual machine. Make sure you have rights to run the program, access all directories the pro 阅读全文
posted @ 2018-11-10 11:56 董秀才 阅读(2598) 评论(0) 推荐(1) 编辑
摘要: 总结一下spark的调优方案--性能调优: 一、调节并行度 1、性能上的调优主要注重一下几点: Excutor的数量 每个Excutor所分配的CPU的数量 每个Excutor所能分配的内存量 Driver端分配的内存数量 2、如何分配资源 在生产环境中,提交spark作业的时候,使用的是spark 阅读全文
posted @ 2018-11-09 20:22 董秀才 阅读(1232) 评论(0) 推荐(0) 编辑
摘要: 一、kafka安装 安装是非常简单的,现在推荐安装0.8的版本,这个版本是非常稳定的,而且公司里面也多用此版本。 简单的安装: 这个是我使用的版本,kafka_2.11-0.8.2.2.tgz 直接tar -zxvf kafka_2.11-0.8.2.2.tgz -C /soft/apps/kafk 阅读全文
posted @ 2018-11-07 19:50 董秀才 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 这个是我在网上搬的: 原博客地址为:https://blog.csdn.net/xwc35047/article/details/78732738 上图是client以spark-submit形式提交作业后,从作业DAG划分、stage提交、taskSet提交,到task执行过程。步骤图上已经画出来 阅读全文
posted @ 2018-11-05 20:20 董秀才 阅读(2059) 评论(0) 推荐(0) 编辑
摘要: spark是基于scala写的,虽然spark有java API,或者python API,但是scala算是正统吧。 而且scala的语法书写起来十分的爽,不想java那样笨重,python不太了解,不给予评价。 接下来看下spark版的wordcount,相对与hadoop的mapreduce要 阅读全文
posted @ 2018-11-05 19:58 董秀才 阅读(337) 评论(0) 推荐(0) 编辑
摘要: scala的语法写起来是非常的舒服的,相比java来说,简便许多。而Java在scala面前就显的略微有些笨重了。 接下来我们看一下scala版的wordcount 相比java 要简便许多 阅读全文
posted @ 2018-11-05 19:53 董秀才 阅读(3215) 评论(0) 推荐(1) 编辑
摘要: 说明:有时候我们把服务器放在虚拟机上的时候只能本机在网页上连接,但是如果想要别的电脑也能访问的话,需要在VM上做一个映射。实现如下: 设置VM端口映射 一、打开VM->编辑->虚拟网络编辑器 注意:我这里系统用的是NAT模式,虚拟网卡为VMnet8 二、点击NAT设置 三、设置映射 四、测试 外机访 阅读全文
posted @ 2018-10-27 10:34 董秀才 阅读(1957) 评论(0) 推荐(0) 编辑
摘要: 配置HBASE: 因为Hbase要依赖zookeeper集群和Hadoop集群,所以在配置hbase之前先确保已经配置zookeeper集群和Hadoop集群,这里不再详解zookeeper和hadoop,若没有配置可以跳转: zookeeper:https://www.cnblogs.com/do 阅读全文
posted @ 2018-10-15 22:47 董秀才 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 行转列(把多个行合并) 比如把: id tag 1 12 1 23 2 67 2 78 2 76 行转列之后: id tag 1 12,23 2 67,78,76 使用函数为:concat_ws(',',collect_set(column)) // 中间用 ',' 号隔开 说明:collect_l 阅读全文
posted @ 2018-10-13 20:22 董秀才 阅读(1446) 评论(0) 推荐(0) 编辑
摘要: 要想使用Hive先要有hadoop集群的支持,使用本地把元数据存储在mysql中。 mysql要可以远程连接: 可以设置user表,把localhost改为%,所有可连接。记住删除root其他用户,不然可能会有影响 update user set host='%' where host='local 阅读全文
posted @ 2018-10-13 15:59 董秀才 阅读(1515) 评论(0) 推荐(0) 编辑