董秀才 - 博客园

2018年11月27日

摘要：说明：我的系统为CentOS 7 ，系统自带的python版本为2.7.5. 安装hue时，推荐使用2.7.0以上的版本，可以自己查看自己系统自带的版本若是版本不对，要升级为2.7的版本，这里不再说明。注意：在centos 7 安装hue时会报 error: static declaration 阅读全文

posted @ 2018-11-27 20:09 董秀才阅读(1301) 评论(0) 推荐(0)

2018年11月26日

linux中cut、printf、awk、sed命令

摘要： cut、printf、awk、sed在linux中都是用来处理文本的命令，接下来一个一个看。一、cut命令 cut [选项] 文件名选项：主要使用一下两个参数，若是只使用 -f 则默认的分割符为 \t -f 列号：提取第几列 -d 分隔符：按照指定的分割符分割列命令说明： cut 命令从文件阅读全文

posted @ 2018-11-26 19:26 董秀才阅读(1295) 评论(0) 推荐(1)

2018年11月24日

Starting zookeeper ... already running as process 1805错误

摘要：启动zookeeper的时候，报Starting zookeeper ... already running as process 1805错误上面这个错误意思为以作为进程1805运行。系统检测到你的zookeeper是在启动的状态的。这个可能是由于异常关机，断电造成的。可以查看你的文件保存目阅读全文

posted @ 2018-11-24 10:21 董秀才阅读(3479) 评论(2) 推荐(2)

2018年11月22日

解决升级Spark2.0之后，DataFrame map操作报错

摘要：当我们在使用spark1.6的时候，当我们创建SQLContext读取一个文件之后,返回DataFrame类型的变量可以直接.map操作，不会报错。但是升级之后会包一个错误，如下：报错：No implicits found for parameter evidence$6: Encoder[Uni 阅读全文

posted @ 2018-11-22 18:01 董秀才阅读(4744) 评论(2) 推荐(1)

2018年11月16日

kafka结合Spark-streming的直连(Direct)方式

摘要：说明：此程序使用的scala编写在spark-stream+kafka使用的时候，有两种连接方式一种是Receiver连接方式，一种是Direct连接方式。两种连接方式简介： Receiver接受固定时间间隔的数据（放在内存中），达到固定的时间才进行处理，效率极并且容易丢失数据。通过高阶API，阅读全文

posted @ 2018-11-16 22:03 董秀才阅读(813) 评论(0) 推荐(0)

2018年11月10日

解决VM提示：VMware Workstation cannot connect to the virtual machine. Make sure you have rights to run the program, access all directories the program uses, and access all directories for temporary files.

摘要：问题：在开启虚拟机的时候报： VMware Workstation cannot connect to the virtual machine. Make sure you have rights to run the program, access all directories the pro 阅读全文

posted @ 2018-11-10 11:56 董秀才阅读(2778) 评论(0) 推荐(1)

2018年11月9日

Spark调优_性能调优(一)

摘要：总结一下spark的调优方案--性能调优：一、调节并行度 1、性能上的调优主要注重一下几点： Excutor的数量每个Excutor所分配的CPU的数量每个Excutor所能分配的内存量 Driver端分配的内存数量 2、如何分配资源在生产环境中，提交spark作业的时候，使用的是spark 阅读全文

posted @ 2018-11-09 20:22 董秀才阅读(1295) 评论(0) 推荐(0)

2018年11月7日

kafka安装与简单使用

摘要：一、kafka安装安装是非常简单的，现在推荐安装0.8的版本，这个版本是非常稳定的，而且公司里面也多用此版本。简单的安装：这个是我使用的版本，kafka_2.11-0.8.2.2.tgz 直接tar -zxvf kafka_2.11-0.8.2.2.tgz -C /soft/apps/kafk 阅读全文

posted @ 2018-11-07 19:50 董秀才阅读(318) 评论(0) 推荐(0)

2018年11月5日

spark任务提交流程

摘要：这个是我在网上搬的：原博客地址为：https://blog.csdn.net/xwc35047/article/details/78732738 上图是client以spark-submit形式提交作业后，从作业DAG划分、stage提交、taskSet提交，到task执行过程。步骤图上已经画出来阅读全文

posted @ 2018-11-05 20:20 董秀才阅读(2081) 评论(0) 推荐(0)

spark_wordcount

摘要： spark是基于scala写的，虽然spark有java API，或者python API,但是scala算是正统吧。而且scala的语法书写起来十分的爽，不想java那样笨重，python不太了解，不给予评价。接下来看下spark版的wordcount，相对与hadoop的mapreduce要阅读全文

posted @ 2018-11-05 19:58 董秀才阅读(352) 评论(0) 推荐(0)

scala简单入门_wordCount

摘要： scala的语法写起来是非常的舒服的，相比java来说，简便许多。而Java在scala面前就显的略微有些笨重了。接下来我们看一下scala版的wordcount 相比java 要简便许多阅读全文

posted @ 2018-11-05 19:53 董秀才阅读(3240) 评论(0) 推荐(1)

2018年10月27日

外机连接本机的虚拟机服务器_VM端口映射

摘要：说明：有时候我们把服务器放在虚拟机上的时候只能本机在网页上连接，但是如果想要别的电脑也能访问的话，需要在VM上做一个映射。实现如下：设置VM端口映射一、打开VM->编辑->虚拟网络编辑器注意：我这里系统用的是NAT模式，虚拟网卡为VMnet8 二、点击NAT设置三、设置映射四、测试外机访阅读全文

posted @ 2018-10-27 10:34 董秀才阅读(2049) 评论(0) 推荐(0)

2018年10月15日

搭建Hbase完全分布式集群

摘要：配置HBASE：因为Hbase要依赖zookeeper集群和Hadoop集群，所以在配置hbase之前先确保已经配置zookeeper集群和Hadoop集群，这里不再详解zookeeper和hadoop，若没有配置可以跳转： zookeeper：https://www.cnblogs.com/do 阅读全文

posted @ 2018-10-15 22:47 董秀才阅读(351) 评论(0) 推荐(0)

2018年10月13日

hive的行列转换

摘要：行转列（把多个行合并）比如把： id tag 1 12 1 23 2 67 2 78 2 76 行转列之后: id tag 1 12,23 2 67,78,76 使用函数为：concat_ws(',',collect_set(column)) // 中间用 ',' 号隔开说明：collect_l 阅读全文

posted @ 2018-10-13 20:22 董秀才阅读(1471) 评论(0) 推荐(0)

hive的本地安装部署，元数据存储到mysql中

摘要：要想使用Hive先要有hadoop集群的支持，使用本地把元数据存储在mysql中。 mysql要可以远程连接：可以设置user表，把localhost改为%，所有可连接。记住删除root其他用户，不然可能会有影响 update user set host='%' where host='local 阅读全文

posted @ 2018-10-13 15:59 董秀才阅读(1564) 评论(0) 推荐(0)

公告